💊

医薬分野のQ&AでローカルLLMを評価する①

2025/02/15に公開

EQUESでは現在医療や製薬といったヘルスケア関連領域におけるLLM開発・活用にも取り組んでいます。
ローカルLLMの進歩は最近も目覚ましく、軽量でかつ性能も悪くないモデルがどんどん登場しています。今回はそれらのライトな性能評価実験と、その実験結果を紹介していきます。

 実験の概要データセット：医薬分野の日本語Q&A 3種
モデル：7~14Bの公開済LLM
評価指標：正答率（Exact Match）

 医薬分野のQ&AデータセットLLMの最も単純な評価ベンチマークとしては国家試験がよく用いられます。医薬分野では医師国家試験や薬剤師国家試験が代表的です。これらの問いの中には付与画像について問う設問も含まれますが、今回はLLMを評価するのでこれらは除外します。また加えて定番のJMMLUも利用します。

 日本の医師国家試験日本の医師国家試験（NMLE）はIgakuQAという形で共有されています。５択の選択問題で、設問数は1,455問です。詳細はIgakuQA著者らのGitHubをご覧ください。
https://github.com/jungokasai/IgakuQA

 日本の薬剤師国家試験日本の薬剤師国家試験（NPLE）はYakugakuQAという形で共有されています。５択の選択問題で、設問数は4,485問（うち3,021問がtext_only）です。こちらはEQUESで整備しました。
https://huggingface.co/datasets/EQUES/YakugakuQA

 JMMLUMMLUという英語のデータセットを和訳した取り組みがJMMLUです。そのうち医薬分野と関連する以下のカテゴリ（合計1519問）を抽出しました。詳細はJMMLU著者らのGitHubをご覧ください。
https://github.com/nlp-waseda/JMMLU


anatomy
132問


clinical_knowledge
150問

college_biology
143問

college_chemistry
99問

college_medicine
150問

highschool_biology
148問

highschool_chemistry
149問

medical_genetics
99問

nutrition
149問

professional_medicine
150問

virology
150問

↓補足として、英語でも同様のデータセットが存在します。

 米国の医師国家試験アメリカの医師国家試験（USMLE）はMedQAという形でNLP分野では有名です。４択の選択問題で、設問数は12,723問です。著者らにより公開されています。
https://huggingface.co/datasets/GBaker/MedQA-USMLE-4-options-hf

 米国の薬剤師国家試験米国の薬剤師国家試験（NAPLEX）も存在します。詳細は不明ですが、Huggingface上で一部データが共有されています。４択の選択問題で、各年設問数は225問、採点に利用されるのは200問のはずですが、このデータセットには137問のみ存在し不完全です。
https://huggingface.co/datasets/s1ghhh/NAPLEX
今回の実験ではデータセットが十分に整備されている日本語のみを扱うことにします。

 対象モデル今回は汎用ドメインLLMとして直近リリースされた
phi-4（14B）
Qwen2.5-7B-Instruct （7B）
Llama-3.1-Swallow-8B-Instruct-v0.3 （8B）
を対象とします。
また、医療ドメイン特化モデルの代表として
EQUES-MedLlama-v2 （8B）
も比較します。こちらは弊社のHuggingfaceで公開しているマージモデルであり、Llama3をベースとした４種類のモデルをdare_tiesマージしたものです。
いずれのモデルでもvllmを利用して推論を実施し、Google Colab（A100 40GB VRAM × 1枚）の環境で動作しています。

 評価コードJapanese-LM-Med-Harness（URL：https://github.com/stardust-coder/japanese-lm-med-harness）

を一部改変して利用しました。このプログラムはa,b,..のような選択肢の記号を答えさせるのではなく, 選択肢そのものをLLMに出力させ正答率を測ることが特徴となっています。

 プロンプト3-shotで以下のプロンプトを利用しました。
### 指示：
以下は医学や薬学の知識に関する多肢選択問題です。利用可能な情報を要約してから、段階的に解決してください。最終的な答えを選択肢のうちから選んで出力してください。
### 入力：
ヒトゲノム・遺伝子解析研究の被験者に対する説明で必須でないのはどれか。
研究の目的, 同意の自由, 匿名化の方法, 参加による不利益, 研究成果還元の保証
### 応答：
研究成果還元の保証
### 入力：
57歳の男性。下水処理場のマンホール内で汚泥を外に搬出する作業を行っていたが、突然意識を失って倒れた。さらに救助しようとして中に入った同僚も急激に意識を失って倒れた。可能性が高いのはどれか。2つ選べ。
酸素欠乏症, 硫化水素中毒, 一酸化炭素中毒, 二酸化炭素中毒, 二酸化窒素中毒
### 応答：
酸素欠乏症, 硫化水素中毒
### 入力：
28歳の女性。妊娠30週。子宮底長は22cmで、腹部超音波検査で羊水はほとんど認めない。胎児で最も考えられるのはどれか。
食道閉鎖, 心室中隔欠損, 腎低形成, 鎖肛, 胎児水腫
### 応答：
腎低形成
### 入力：
{{instruction}}
{{input}}
### 応答：

 実験結果総合的な正答率では、MicrosoftのPhi-4が高いスコアとなりました。パラメータ数が14Bと大きめなので、頭一つ抜けているのも自然な結果と言えます。ベンチマークの難易度は一概に比較できませんが、今回の結果では4モデルに共通してスコアはJMMLU > IgakuQA > YakugakuQAとなりました。



phi-4
Qwen2.5-7B-Instruct
EQUES-MedLlama-v2
Llama-3.1-Swallow-8B-Instruct-v0.3


IgakuQA
57.0
44.7
42.7
39.7

YakugakuQA
43.8
36.8
30.6
36.8

JMMLU
63.5
51.3
44.6
48.1

留意点として、今回は出力のクリーニングは施しておらず、Exact Matchで評価しています。すなわち、選択肢記号のみで回答できなかったケースは（出力内に正しい選択肢記号が記載されていようとも）Instruction-followingできなかったとして誤答扱いになっています。相対的な性能比較のためには条件が揃っていれば問題ありませんが、より実態の正答率に近いスコア算出のためには後処理を洗練させることも考えられます。今回利用したスクリプトに実装されているGestalt Matchの採用はその一つです。

 おわりにEQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。
https://www.wantedly.com/companies/company_6691299
EQUESでは現在経産省・NEDO「GENIAC」の採択事業者として薬学分野・製薬業務に特化したLLMの開発に挑戦しています。この領域にご関心のある方のご連絡をお待ちしています。詳しくは以下もご覧ください。
https://www.meti.go.jp/policy/mono_info_service/geniac/selection_2/index.html

anatomy	132問
clinical_knowledge	150問
college_biology	143問
college_chemistry	99問
college_medicine	150問
highschool_biology	148問
highschool_chemistry	149問
medical_genetics	99問
nutrition	149問
professional_medicine	150問
virology	150問

	phi-4	Qwen2.5-7B-Instruct	EQUES-MedLlama-v2	Llama-3.1-Swallow-8B-Instruct-v0.3
IgakuQA	57.0	44.7	42.7	39.7
YakugakuQA	43.8	36.8	30.6	36.8
JMMLU	63.5	51.3	44.6	48.1

実験の概要

医薬分野のQ&Aデータセット

日本の医師国家試験

日本の薬剤師国家試験

JMMLU

米国の医師国家試験

米国の薬剤師国家試験

対象モデル

評価コード

プロンプト

実験結果

おわりに

Discussion