医薬分野のQ&AにおけるローカルLLM評価実験
EQUESでは現在医療や製薬といったヘルスケア関連領域におけるLLM開発・活用にも取り組んでいます。
ローカルLLMの進歩は最近も目覚ましく、軽量でかつ性能も悪くないモデルがどんどん登場しています。今回はそれらのライトな性能評価実験と、その実験結果を紹介していきます。
実験の概要
データセット:医薬分野の日本語Q&A 3種
モデル:7~14Bの公開済LLM
評価指標:正答率(Exact Match)
医薬分野のQ&Aデータセット
LLMの最も単純な評価ベンチマークとしては国家試験がよく用いられます。医薬分野では医師国家試験や薬剤師国家試験が代表的です。これらの問いの中には付与画像について問う設問も含まれますが、今回はLLMを評価するのでこれらは除外します。また加えて定番のJMMLUも利用します。
日本の医師国家試験
日本の医師国家試験(NMLE)はIgakuQAという形で共有されています。5択の選択問題で、設問数は1,455問です。詳細はIgakuQA著者らのGitHubをご覧ください。
日本の薬剤師国家試験
日本の薬剤師国家試験(NPLE)はYakugakuQAという形で共有されています。5択の選択問題で、設問数は4,485問(うち3,021問がtext_only)です。こちらはEQUESで整備しました。
JMMLU
MMLUという英語のデータセットを和訳した取り組みがJMMLUです。そのうち医薬分野と関連する以下のカテゴリ(合計1519問)を抽出しました。詳細はJMMLU著者らのGitHubをご覧ください。
anatomy | 132問 |
---|---|
clinical_knowledge | 150問 |
college_biology | 143問 |
college_chemistry | 99問 |
college_medicine | 150問 |
highschool_biology | 148問 |
highschool_chemistry | 149問 |
medical_genetics | 99問 |
nutrition | 149問 |
professional_medicine | 150問 |
virology | 150問 |
↓補足として、英語でも同様のデータセットが存在します。
米国の医師国家試験
アメリカの医師国家試験(USMLE)はMedQAという形でNLP分野では有名です。4択の選択問題で、設問数は12,723問です。著者らにより公開されています。
米国の薬剤師国家試験
米国の薬剤師国家試験(NAPLEX)も存在します。詳細は不明ですが、Huggingface上で一部データが共有されています。4択の選択問題で、各年設問数は225問、採点に利用されるのは200問のはずですが、このデータセットには137問のみ存在し不完全です。
今回の実験ではデータセットが十分に整備されている日本語のみを扱うことにします。
対象モデル
今回は汎用ドメインLLMとして直近リリースされた
- phi-4(14B)
- Qwen2.5-7B-Instruct (7B)
- Llama-3.1-Swallow-8B-Instruct-v0.3 (8B)
を対象とします。
また、医療ドメイン特化モデルの代表として
- EQUES-MedLlama-v2 (8B)
も比較します。こちらは弊社のHuggingfaceで公開しているマージモデルであり、Llama3をベースとした4種類のモデルをdare_tiesマージしたものです。
いずれのモデルでもvllmを利用して推論を実施し、Google Colab(A100 40GB VRAM × 1枚)の環境で動作しています。
評価コード
Japanese-LM-Med-Harness(URL:https://github.com/stardust-coder/japanese-lm-med-harness)
を一部改変して利用しました。このプログラムはa,b,..のような選択肢の記号を答えさせるのではなく, 選択肢そのものをLLMに出力させ正答率を測ることが特徴となっています。
プロンプト
3-shotで以下のプロンプトを利用しました。
### 指示:
以下は医学や薬学の知識に関する多肢選択問題です。利用可能な情報を要約してから、段階的に解決してください。最終的な答えを選択肢のうちから選んで出力してください。
### 入力:
ヒトゲノム・遺伝子解析研究の被験者に対する説明で必須でないのはどれか。
研究の目的, 同意の自由, 匿名化の方法, 参加による不利益, 研究成果還元の保証
### 応答:
研究成果還元の保証
### 入力:
57歳の男性。下水処理場のマンホール内で汚泥を外に搬出する作業を行っていたが、突然意識を失って倒れた。さらに救助しようとして中に入った同僚も急激に意識を失って倒れた。可能性が高いのはどれか。2つ選べ。
酸素欠乏症, 硫化水素中毒, 一酸化炭素中毒, 二酸化炭素中毒, 二酸化窒素中毒
### 応答:
酸素欠乏症, 硫化水素中毒
### 入力:
28歳の女性。妊娠30週。子宮底長は22cmで、腹部超音波検査で羊水はほとんど認めない。胎児で最も考えられるのはどれか。
食道閉鎖, 心室中隔欠損, 腎低形成, 鎖肛, 胎児水腫
### 応答:
腎低形成
### 入力:
{{instruction}}
{{input}}
### 応答:
実験結果
総合的な正答率では、MicrosoftのPhi-4が高いスコアとなりました。パラメータ数が14Bと大きめなので、頭一つ抜けているのも自然な結果と言えます。ベンチマークの難易度は一概に比較できませんが、今回の結果では4モデルに共通してスコアはJMMLU > IgakuQA > YakugakuQAとなりました。
phi-4 | Qwen2.5-7B-Instruct | EQUES-MedLlama-v2 | Llama-3.1-Swallow-8B-Instruct-v0.3 | |
---|---|---|---|---|
IgakuQA | 57.0 | 44.7 | 42.7 | 39.7 |
YakugakuQA | 43.8 | 36.8 | 30.6 | 36.8 |
JMMLU | 63.5 | 51.3 | 44.6 | 48.1 |
留意点として、今回は出力のクリーニングは施しておらず、Exact Matchで評価しています。すなわち、選択肢記号のみで回答できなかったケースは(出力内に正しい選択肢記号が記載されていようとも)Instruction-followingできなかったとして誤答扱いになっています。相対的な性能比較のためには条件が揃っていれば問題ありませんが、より実態の正答率に近いスコア算出のためには後処理を洗練させることも考えられます。今回利用したスクリプトに実装されているGestalt Matchの採用はその一つです。
おわりに
EQUESでは引き続き、「最先端の機械学習技術をあやつり社会の発展を加速する」をミッションに研究開発と社会実装に取り組んでいきます。一緒に事業を創出する仲間を募集しています。詳しくは以下をご覧ください。
EQUESでは現在経産省・NEDO「GENIAC」の採択事業者として薬学分野・製薬業務に特化したLLMの開発に挑戦しています。この領域にご関心のある方のご連絡をお待ちしています。詳しくは以下もご覧ください。
Discussion