👨‍⚕

医療ドメイン特化LLMの性能はどうやって評価する?

2024/02/20に公開

BioMistral の論文がとても良いサーベイを兼ねていたので、せっかくなので簡単にまとめてみることにしました。雑なので、色々間違いはあるかもしれません。

オープンなモデル

BioGPT (2022)

BioGPT は GPT 系列のモデルです。規模感は GPT-2 と同じで、GPT-2 は LLM と呼べるかは甚だ怪しいですが、decoder 系モデルの元祖として取り上げます。

PubMed を使ってフルスクラッチ学習しています。

評価は BC5CDR や DDI のような Relation Extraction 系のデータセット、HoC のような文書分類系のデータセット、それに PubMedQA を使っています。

あと、面白いのが、何か専門用語を入れて、普通のドメインの GPT-2 とテキスト生成させた時の違いを見比べています。この時代の言語モデルは続きを予測させることしかできなかったので、こういうことが行われていたのです。

ClinicalGPT (2023)

ClinicalGPT は BLOOM-7B がベースになっています。通常ドメインの LLM である BLOOM-7B に対して、医療ドメインの QA や診察、マルチターン会話のようなデータセットで Supervised Fine-tuning したあと、人間のスコア付けで PPO する RLHF をやっているそうです(この人間が医者かどうかはよくわからなかった)。

なお、中国語のモデルです。

評価は、中国語のモデルなので、よくわかりませんでしたが、主に、

  • 会話データセットを使って、参照文とどのくらい似ているかを BLEU, ROUGE で評価
  • QAデータセットで正解できるかを評価

の2通りをやっている感じがします。

PMC-LLaMA (2023)

PMC-LLaMA は Llama ベースのモデルです。ClinicalGPT との違いとして、論文や医学系文書で追加事前学習を行っています。

評価データセットは MedQA (USMLE)、MedMCQA、PubMedQA の 3 つです。

MedAlpaca (2023)

これも Llama ベースです。訓練データ収集のために、Web 上のデータなどからも医療関係のものをかき集めているのが特徴です。

評価データセットは MedQA (USMLE) だけです。

ChatDoctor (2023)

これも Llama ベースです。healthcaremagic というオンラインの診療サイトから会話を集めて instruction tuning しています。

評価はなんと、ChatGPT を正解データとみなした上で、ChatGPT の出力テキストとの類似度を BERTScore で(!)計算しています。これは大胆。

BioMedGPT-LM-7B (2023)

BioMedGPT-LM-7B は Llama 2 ベースのモデルで、医学論文で追加事前学習しています。

さらに、医学とはやや外れますが、BioMedGPT-LM-7B をベースに、分子構造を学ぶ Molecule Encoder というのとタンパク質構造を学ぶ Protein Encoder というのを付け加えた BioMedGPT-10B というのまで作っています。

評価データセットのうち、医学系タスクにおいては、MedQA (USMLE)、MedMCQA、PubMedQA を使っています。

MediTron-7B, 70B (2023)

MediTron が登場した際には結構話題になった記憶があります。これも Llama 2 ベースのモデルです。

とりあえず図がめっちゃ分かりやすい。

評価データセットは PubMedQA、MedMCQA、MedQA (USMLE) に加えて、MMLU-Medical(MMLU データセットのうち医療カテゴリに属するものだけ抽出したもの)が初めて登場しました。

BioMistral (2024)

BioMistral は名前通り Mistral ベースです。

MMLU-Medical、MedQA (USMLE)、MedMCQA、PubMedQA の 4 つで評価しています。

クローズなモデル

Med-PALM (Google DeepMind) や MedPrompt (Microsoft) があります。クローズな領域は Microsoft と Google がプロンプト芸でいたちごっこをしているだけなので、庶民には行く末をみまもるしかありません。。

重要なのは、評価をどうしているかだと思います。

Med-PALM 2 は、MedQA (USMLE)、PubMedQA、MedMCQA、MMLU-Medical で評価しています(+ 専門家による定性評価もあります)。

MedPrompt も、MedQA (USMLE)、PubMedQA、MedMCQA、MMLU-Medical を使っていました。

まとめ

  • 2024年初頭の現在、医療ドメイン特化LLMのベンチマークとしては、MedQA (USMLE)、PubMedQA、MedMCQA、MMLU-Medical(MMLU データセットのうち医療カテゴリに属するものだけ抽出したもの)が主流であることが分かりました。
  • 日本では、MedQA (USMLE) の日本語版に相当する IgakuQA と、MMLU の日本語版に相当する JMMLU があるため、これらを使って Japanese Language Model Financial Evaluation Harness 的なドメイン特化リーダーボードがあるとうれしいかなと思いました。PFNさんやってくれませんか?!!!

Discussion