💊

【経産省GENIAC】製薬✖️LLM論文 自社解説記事

に公開

本記事では、LLMで薬剤師国家試験を解き、どのような問題が苦手なのかについて分析した結果を報告します。

想定される読者:

  • 自然言語処理分野においてLLMの応用に興味がある方
  • LLMの特定ドメイン(薬学ドメイン)での性能が気になる方
  • 株式会社EQUESがどんな取り組みをしているか気になる方

はじめに

🎉🎉🎉
弊社で執筆した以下の論文がこの度、自然言語分野の著名な国際会議の1つであるIJCNLP-AACL 2025にMain Trackで採択されました。本成果は12月中旬にインド・ムンバイ🇮🇳にて発表予定です。
A Japanese Language Model and Three New Evaluation Benchmarks for Pharmaceutical NLP
🎉🎉🎉

https://prtimes.jp/main/html/rd/p/000000013.000101360.html

本研究は、弊社EQUESから昨年NEDO事業「GENIAC」に採択されました「薬学分野・製薬業務に特化したLLMの開発」の成果に基づいています。

■ GENIACとは?
GENIACとは、経済産業省とNEDOによる、生成AIの持続的な開発力を高め、社会実装を加速するための基盤モデル開発支援事業です。より詳しく知りたい方は以下ページを是非ご覧ください。


薬剤師国家試験におけるLLMの回答の傾向分析

本記事では、上記論文に含まれる内容の一部を説明させていただきます。

1. YakugakuQAとは

医療分野においては、主に医学領域が研究の主流となっており、多くのファインチューニングされたモデルが開発されてます(1,2,3)。これらのモデルを評価するために、各分野の国家資格試験から抽出された医療ベンチマークも用意されており、日本語のデータセットとしては、医師国家試験から5択のQAデータセットであるIgakuQA(4)があります。

一方で、薬学領域はLLM応用に関して十分な注目を受けておらず、特に日本語の評価ベンチマークは極めて少ないです。そこで、我々はIgakuQAにインスパイアされて薬剤師国家試験から5択のQAデータセットであるYakugakuQAを作成しました。

EQUES/YakugakuQA · Datasets at Hugging Face

サンプルは下記のようになっています。

{"problem_id": "097342", "problem_text": "薬剤性の皮膚粘膜眼症候群が疑われる代表的な初期症状はどれか。2つ選べ。", "choices": ["発熱(38^{\\circ} C以上)", "紅斑", "黄疸", "四肢のしびれ", "空咳"], "text_only": true, "answer": ["1", "2"], "comment": "皮膚粘膜眼症候群は、スティーブンス・ジョンソン症候群ともよばれ、初期症状として、38^{\\circ} C以上の発熱、全身の皮膚、粘膜に紅斑や水疱、びらんなどを呈する。"}
{"problem_id": "100006", "problem_text": "1828年に、ウェーラー(Wöhler)によって無機化合物(シアン酸アンモニウム: NH_{4}OCN)から初めて合成された有機化合物はどれか。1つ選べ。", "choices": "IMAGES", "text_only": false, "answer": ["4"], "comment": "ウェーラー(Wöhler)によって無機化合物(シアン酸アンモニウム: NH_{4}OCN)から初めて合成された有機化合物は「尿素(選択肢4)」である。この合成実験が行われる前までは、有機化合物は有機生命体だけが作り出せるものと考えられていた。"}
{"problem_id": "103210", "problem_text": "6歳男児。体重20 kg。身長120 cm。扁桃炎と診断され、この男児の処方箋を、母親が薬局に持参した(処方1)。セフジニル細粒10%の添付文書には、「通常、小児に対してセフジニルとして1日量9〜18mg(力価)/kgを3回に分割して経口投与する」と記載されている。お薬手帳を確認したところ、男児は鉄欠乏性貧血で溶性ピロリン酸第二鉄を服用していることが判明した(処方2)。セフジニルは鉄イオンに配位し、キレートを形成する。矢印で示したセフジニルの原子のうち、鉄イオンに最も配位しにくいのはどれか。1つ選べ。", "choices": "IMAGES", "text_only": false, "answer": ["4"], "comment": "キレートとは、複数の配位座を持つ配位子による金属イオンへの配位結合のことであり、それによりできる錯体をキレート錯体という。キレートの形成に関わる配位子は、非共有電子対をもつ原子(窒素、酸素、硫黄など)を含む分子である。選択肢4の窒素はアミド結合を形成しており、その非共有電子対は非局在化していることから、金属イオンと配位結合を形成しにくいと考えられる。なお、選択肢1、2、3、5は非共有電子対を有しており、鉄イオンと配位結合を形成する。"}
{"problem_id": "106267", "problem_text": "薬剤師の対応として最も適切なのはどれか。1つ選べ。", "choices": ["処方内容に問題がないと考え、そのまま調剤した。", "ファムシクロビル錠250mgを1回2錠で1日2回の投与とするよう、処方医に提案した。", "ファムシクロビル錠250mgを1回2錠で1日1回の投与とするよう、処方医に提案した。", "ファムシクロビル錠250mgを1回1錠で1日1回の投与とするよう、処方医に提案した。", "ファムシクロビル錠の投与は避けるよう、処方医に提案した。"], "text_only": true, "answer": ["4"], "comment": "本患者の年齢が70歳、体重が50kg、血清クレアチニン値6.0mg/dLであることから、Cockcroft-Gault式からクレアチニンクリアランスを下記のように算出することができる。"}
{"problem_id": "109181", "problem_text": "薬物の溶解性の改善に用いる添加剤とその溶解性改善の機構との組合せのうち、正しいのはどれか。2つ選べ。添加物 溶解性改善の機構 1 ポリオキシエチレン硬化ヒマシ油60 可溶性塩の形成 2 ヒドロキシプロピルメチルセルロース 固体分散体形成 3 ポリビニルピロリドン 自己乳化 4 エチレンジアミン ミセル内取り込み 5 エタノール コソルベンシー", "choices": "IMAGES", "text_only": false, "answer": ["2", "5"], "comment": ""}

2. 各LLMの性能

YakugakuQAにおける各LLMでの性能を測定しました。

Model Accuracy (%) 合否
o1-preview 87.9 合格
GPT-4o 83.6 合格
Qwen2.5-72B-Instruct 73.6 合格
Llama-3.1-Swallow-70B-Instruct-v0.1 70.9 合格
Llama-3-heron-brain-70B-v0.3 67.9 ボーダー
Llama-3.3-70B-Instruct 67.0 ボーダー
gemma-2-27b-it 38.6 不合格

o1-previewおよびGPT-4oの性能が最も高いという結果となりました。一方、オープンモデルであるQwen2.5-72B-InstructとLlama-3.1-Swallow-70B-Instruct-v0.1も7割を超える結果となりました。薬剤師国家試験はボーダーは7割弱と言われています。

3. 分析結果

本節では、GPT-4oの回答について分析します。

分析1:順序バイアス

LLMで選択問題を解く場合、何番目の選択肢を選択しやすいという「順序バイアス」が存在します(5)。特に、最初の選択肢を好む傾向にあります。製薬ドメインの本データセットにおいても「順序バイアス」が存在するのかを検証します。

解答の選択肢とGPT-4oが回答した選択肢をヒストグラムで図1に示します。「解なし」や「与えられた情報からは回答できません」などに関しては「-1」としています。選択肢「1」のみGPT-4oの回答数が解答数を上回っています。


図1

選択肢「1」~「5」の正答率および誤答率を図2に可視化しています。選択肢「4」と比較して0.6%とわずかですが、選択肢「1」が最も誤答率が高い結果となっています。


図2

以上2点(選択肢「1」を多く選び、多く間違えること)から、GPT-4oは薬剤師国家試験においても最初の選択肢を好む傾向にあることが示唆されます。

分析2:選択数による誤答傾向

特にドメイン知識が求められる薬剤師国家試験における複数選択問題は単一選択問題よりも難易度が高いことが考えられます。単一選択問題および複数選択問題の正答率および誤答率を図3に示しています。単一選択問題と比べて複数選択問題の方が5.2%も誤答率が高いという結果が得られました。


図3

分析3:ジャンルにおける傾向

薬剤師国家試験は9個のジャンル(Biology, Chemistry, Hygiene, Law, Pathology, Pharmacology, Pharmacy, Physics, Practical)から構成されます。LLMが苦手なジャンルがあるのかを分析します。各ジャンルにおける正誤数および正誤率を図4,5に示します。**ChemistryとPhysicsが25%近く誤答しています。**一方、BiologyとPathologyでは誤答率が10%を下回っています。LLMは物理・化学が苦手で生物・病理が得意である傾向が読み取れます。物理化学分野の問題はステップの多い計算問題が多い傾向にあり、LLMはこのような問題を苦手とするという報告が多く見られます(6,7,8)。実際に、計算問題で誤答した例を示します。


図4


図5

{"推論": ["2"], "正解": ["3"], "問題": "定常状態におけるフェニトインの体内からの消失速度はMichaelis-Menten式で表される。この患者における最大消失速度(mg/day)に最も近い値はどれか。1つ選べ。ただし、Michaelis定数を8 mg/L、バイオアベイラビリティを100%とする。", "選択肢": ["150", "240", "420", "1,500", "2,400", "4,200"]}
{"推論": ["3"], "正解": ["4"], "問題": "この患者におけるジゴキシンの全身クリアランスは4.0 L/h、経口投与時のバイオアベイラビリティは80%である。定常状態平均血中濃度を1.0 ng/mLに維持するための1日当たりの経口投与量(mg/day)はいくらか。1つ選べ。", "選択肢": ["0.004", "0.032", "0.096", "0.120", "0.250"]}
{"推論": ["4"], "正解": ["3"], "問題": "小学校から担当の学校薬剤師に対して、ノロウイルス感染対策として給食室の調理台や調理器具の消毒に関して質問があった。塩素濃度200 ppmの次亜塩素酸ナトリウム液を3 L準備するには、6 w/v%次亜塩素酸ナトリウム消毒液が何mL必要か。1つ選べ。", "選択肢": ["1", "3", "10", "30", "100"]}
{"推論": ["2"], "正解": ["1"], "問題": "次の記述は、酸が混在する中性医薬品の純度試験に関するものである。以下の試験から求められる酸の残存量は、硫酸に換算して何%以下か。最も近い値を1つ選べ。ただし、硫酸の分子量を98.08とする。「本品を5.0 gを新たに煮沸して冷却した水50 mLに溶かし、フェノールフタレイン試液3滴及び0.01 mol/L水酸化ナトリウム液0.60 mLを加えるとき、液の色は赤色である。」", "選択肢": ["0.006", "0.012", "0.12", "0.3", "0.6"]"}

分析4:LLMにより評価軸をラベリングして分析

本節では、LLM as a Judge(9)によって、複雑な推論および計算の要否、難易度および選択肢類似性を軸に分析します。

これらのラベルはオープンモデルで高性能なQwen2.5-72Bにより付与します。具体的には、複雑な推論および計算は必要/不要の2値、難易度は1~5の5値、選択肢類似性は1~5の5値でスコアリングしました。

まず、複雑な推論および計算の観点から見ていきます。複雑な推論および計算が必要だと判断された問題数は500件弱/約3000件と母数は少ないですが、誤答率は34.1%と高いです。そのため、やはり薬学ドメインにおいても、LLMは計算問題が苦手だと言えます。


図6


図7

次に、選択肢類似性の観点で見ていきます。選択肢の類似度が高い問題は誤答率が高いのではないかという仮説を基にこの評価軸を設定しました。選択肢類似性の程度が2および3の問題が多いことが分かります。正誤の割合を見ると、絶対数は少ないものの、選択肢類似性の最も高いラベル5に関しては誤答率が55.6%と非常に高くなっています。実際に、選択肢類似性が最も高いと判断された問題を見てみると、選択肢が文章になっていて同じような単語や文構造になっているものが多いことが分かりました。これらのことから、LLMは似たような文章の中から正しい答えを導くのが苦手であることが示唆されます。


図8

{"problem_id": "097151", "problem_text": "細胞膜受容体の情報伝達系に関する記述のうち、正しいのはどれか。1つ選べ。", "choices": ["平滑筋のGsタンパク質共役型受容体が刺激されると、小胞体からのCa^{2+}遊離が促進される。", "心筋のGiタンパク質共役型受容体が刺激されると、K^{+}の細胞外流出が抑制される。", "血管内皮細![](https://storage.googleapis.com/zenn-user-upload/e455a34173df-20250723.png)胞のアセチルコリンM_{3}受容体が刺激されると、Gqタンパク質を介して一酸化窒素合成酵素が阻害される。", "腎臓のナトリウム利尿ペプチド受容体が刺激されると、チロシンキナーゼの活性化による自己リン酸化が起こる。", "脊髄のグリシン受容体が刺激されると、Cl^{-}の透過性が亢進する。"]}
{"problem_id": "099115", "problem_text": "図はミトコンドリア及びその一部を拡大した模式図である。ミトコンドリアの部位①〜④に関する記述のうち、正しいのはどれか。2つ選べ。", "choices": ["細胞質でつくられたNADHは、①を通過できるが③は通過できない。", "クエン酸回路に関わる酵素は、主に②に存在する。", "電子伝達系(呼吸鎖)の構成成分であるユビキノン(補酵素Q、CoQ)は、主に③に存在する。", "NADHに由来する電子が電子伝達系を移動するとき、④におけるH^{+}(プロトン)の濃度は②よりも高くなる。", "電子伝達系に共役する酸化的リン酸化によって、ATPが②で生成される。"]}
{"problem_id": "100146", "problem_text": "医薬品の製造販売後安全対策に関する記述のうち、正しいのはどれか。2つ選べ。", "choices": ["医薬品の製造販売業者は、その製造販売した医薬品の副作用によるものと疑われる症例等で厚生労働省令で定めるものを知ったときは、その旨を厚生労働大臣(情報の整理を独立行政法人医薬品医療機器総合機構(PMDA)に行わせることとした場合は、PMDA)に報告しなければならない。", "再審査制度とは、過去に承認された医薬品について、現時点での医学・薬学等の学問レベルで、有効性、安全性等を再確認するものである。", "医薬品リスク管理計画(RMP)は、開発段階から安全対策を実施することで、製造販売後の医薬品の安全性の確保を図ることを目的とするものである。", "再評価制度とは、新医薬品の承認後一定の期間を定めて、有効性、安全性等の確認を行うものである。", "市販直後調査とは、医薬関係者への適正使用のための情報提供や医薬関係者からの副作用情報の収集について、PMDAが実施するものである。"]}

最後に、難易度の観点で見ていきます。直感的には、難易度が高い方がLLMは誤答しやすいと予想されます。実際にその直感は正しく、絶対数は少ないものの、難易度が最も高いと判断された問題の誤答率は55.6%と最も高い結果となりました。つまり、LLMは特に高い専門性や複雑な計算が必要とされるなどの難易度の高い問題を解く能力は低いことが言えます。


図9


図10

4. まとめ

本記事は、薬剤師国家試験をLLMに解かせた結果とその分析を報告しました。最近のLLMでは合格ラインを超すモデルもありました。また、分析の結果、薬学ドメインにおいてLLMは位置バイアスが存在すること、複数選択問題、計算を要する問題および選択肢の類似度が高い問題などの難易度の高い問題を苦手とすることが分かりました。

おわりに

EQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。

https://www.wantedly.com/companies/company_6691299

EQUESでは現在経産省・NEDO「GENIAC」の採択事業者として薬学分野・製薬業務に特化したLLMの開発に挑戦しました。この領域にご関心のある方のご連絡をお待ちしています。詳しくは以下もご覧ください。

https://www.meti.go.jp/policy/mono_info_service/geniac/selection_2/index.html


参考文献

[1] [2404.18416] Capabilities of Gemini Models in Medicine

[2] [2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models

[3] [2311.16079] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

[4] [2303.18027] Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations

[5] Can Multiple-choice Questions Really Be Useful in Detecting the Abilities of LLMs? - ACL Anthology

[6] [2402.19255] GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

[7] [2402.00157] Large Language Models for Mathematical Reasoning: Progresses and Challenges

[8] 教育を目的とした日本語初等数学問題に特化した大規模言語モデルの構築

[9] [2412.05579] LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

Discussion