💊

医薬分野のQ&AでローカルLLMを評価する②

2025/03/17に公開

前回記事に引き続き、ローカルLLMの医薬分野評価実験第２弾です！
今回は話題のDeepseek関連モデルが薬剤師国家試験を解けるかを見ていきます。
とはいっても、本家本元のDeepseek-R1はパラメタ数671Bと並大抵の計算資源では動作させることができません。しかし、併せてQwenをベースに蒸留を行った小規模なLLMも公開されています。今回はこちらを利用します。

 実験の概要データセット：医薬分野の日本語Q&A 3種
医師国家試験 IgakuQA（日・英）
薬剤師国家試験 YakugakuQA（日）　← EQUES作成です。
JMMLU（日）・MMLU（英）
モデル：Deepseek-R1の蒸留モデル14B
評価指標：正答率

 対象モデル今回はDeepseekの蒸留モデル
cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese
を対象とします。
vllmを利用して推論を実施し、Google Colab（A100 40GB VRAM × 1枚）の環境で動作しています。vllmは最新のものを利用すれば滞りなくDeepSeekの推論も実行できるようです。（Supported Models：https://docs.vllm.ai/en/latest/models/supported_models.html）

 評価コードJapanese-LM-Med-Harness（URL：https://github.com/stardust-coder/japanese-lm-med-harness ）を一部改変して利用しました。このプログラムはa,b,..のような選択肢の記号を答えさせるのではなく, 選択肢そのものをLLMに出力させ正答率を測ることが特徴となっています。

 プロンプト3-shotで以下のプロンプトを利用しました。
### 指示：
以下は医学や薬学の知識に関する多肢選択問題です。利用可能な情報を要約してから、段階的に解決してください。最終的な答えを選択肢のうちから選んで出力してください。
### 入力：
ヒトゲノム・遺伝子解析研究の被験者に対する説明で必須でないのはどれか。
研究の目的, 同意の自由, 匿名化の方法, 参加による不利益, 研究成果還元の保証
### 応答：
研究成果還元の保証
### 入力：
57歳の男性。下水処理場のマンホール内で汚泥を外に搬出する作業を行っていたが、突然意識を失って倒れた。さらに救助しようとして中に入った同僚も急激に意識を失って倒れた。可能性が高いのはどれか。2つ選べ。
酸素欠乏症, 硫化水素中毒, 一酸化炭素中毒, 二酸化炭素中毒, 二酸化窒素中毒
### 応答：
酸素欠乏症, 硫化水素中毒
### 入力：
28歳の女性。妊娠30週。子宮底長は22cmで、腹部超音波検査で羊水はほとんど認めない。胎児で最も考えられるのはどれか。
食道閉鎖, 心室中隔欠損, 腎低形成, 鎖肛, 胎児水腫
### 応答：
腎低形成
### 入力：
{{instruction}}
{{input}}
### 応答：

 実験結果Deepseek蒸留モデルのスコアは以下のようになりました。



日本語モデル DeepSeek-R1-Distill-Qwen-14B-Japanese


IgakuQA（日）
712/1455 = 48.9%

YakugakuQA（日）
1413/4485 = 31.5%

JMMLU（日）
804/1519 = 52.9%

IgakuQA（英）
660/1455 = 45.4%

MMLU（英）
1248/2169 = 57.5%

これらの結果を前回記事の実験結果と比較してみましょう。前回記事では日本語ベンチマークのみを対象としたため、英語のものはありませんがご了承ください。
（再掲、%）



phi-4
Qwen2.5-7B-Instruct
EQUES-MedLlama-v2
Llama-3.1-Swallow-8B-Instruct-v0.3


IgakuQA（日）
57.0
44.7
42.7
39.7

YakugakuQA（日）
43.8
36.8
30.6
36.8

JMMLU（日）
63.5
51.3
44.6
48.1

今回の実験結果としては、同じ14Bモデルで比較すると、phi-4のほうがDeepseek蒸留モデルより高いスコアとなりました。蒸留により一般に性能は落ちるとされていますが、その差が大きい場合もあるのかもしれません。
汎用ドメインのローカルLLMでかつ手元で動かしやすい<14Bサイズの範囲では、医師/薬剤師国家試験の正答率は40~60%にとどまるという結果になりました。実用に向けては、ドメイン特化で更に学習を重ねる必要性が高いと言えるでしょう。

 おわりにEQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。
https://www.wantedly.com/companies/company_6691299
EQUESでは現在経産省・NEDO「GENIAC」の採択事業者として薬学分野・製薬業務に特化したLLMの開発に挑戦しています。この領域にご興味ある方のご連絡をお待ちしています。詳しくは以下もご覧ください。
https://www.meti.go.jp/policy/mono_info_service/geniac/selection_2/index.html

	日本語モデル DeepSeek-R1-Distill-Qwen-14B-Japanese
IgakuQA（日）	712/1455 = 48.9%
YakugakuQA（日）	1413/4485 = 31.5%
JMMLU（日）	804/1519 = 52.9%
IgakuQA（英）	660/1455 = 45.4%
MMLU（英）	1248/2169 = 57.5%

	phi-4	Qwen2.5-7B-Instruct	EQUES-MedLlama-v2	Llama-3.1-Swallow-8B-Instruct-v0.3
IgakuQA（日）	57.0	44.7	42.7	39.7
YakugakuQA（日）	43.8	36.8	30.6	36.8
JMMLU（日）	63.5	51.3	44.6	48.1

実験の概要

対象モデル

評価コード

プロンプト

実験結果

おわりに

Discussion