🩻

『臨床基盤モデル・マルチモーダル基盤モデルの現在地点』への補足

に公開

実験医学2025年1月号特集1の補足

この度、実験医学2025年1月号に以下の原稿を執筆させていただく機会を得ました。
https://www.yodosha.co.jp/jikkenigaku/articles/index.html?ci=177200

医療・ヘルスケア分野における基盤モデルやマルチモーダル基盤モデルについて、AIや深層学習に詳しくない方向けに平易な説明を目指しました。また、文字通り日進月歩であるこの分野のキャッチアップの土台となれば…との思いで原稿を執筆しました。一方で、脱稿・校正終了後から2024年12月20日に出版に至るまでの間に数多の論文が発表され、早くも本原稿の内容は一部が古くなってしまってしまいました。そこでこのzennの記事では、古くなってしまった内容のアップデート及び、原稿には字数の関係で入れることができなかった情報について補足していくことで、「キャッチアップの土台とする」という目的を達成することを目指します。

MedQA SOTAの歴史

医療分野におけるLLMの性能を測るベンチマークとして最も良く使用されているのが MedQA USMLEです。多肢選択式で行われる米国の医師国家試験問題を使用しています。このMedQA USMLEのSOTA (最高性能)は原稿執筆時点ではMed-GeminiというGoogleが開発したマルチモーダルLLMでした。その後、OpenAIのo1-previewが正解率96.0%という脅威の数値を叩き出し、1位の座に君臨しています(2024年12月20日時点、下図参照)。正解率96.0%ということで、もはや「サチった」状況であることから今後はMedQA USMLE以外のベンチマークが行われるようになるのかもしれません。

Nori and Usuyama et al. "From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond". https://arxiv.org/pdf/2411.03590

医療ドメインに特化した日本語LLM

原稿において紹介したLLMのほとんどは、日本語での医療ドメインにおける性能が論文中において報告されている訳ではありません(GPT-4など少数の例外は存在します)。海外製であれば、必ずしも日本語が扱えなくても良いのですから当然と言えば当然です。現在医療ドメインに特化した日本語LLMは、海外製の公開LLMをベースにPreferred Networksによって開発されたLlama3-Preferred-MedSwallow-70Bや東京大学医学部附属病院 循環器内科 AIグループによって開発されたAIgroup-CVM-utokyohospital/MedSwallow-70bが代表的です。評価については日本の医師国家試験問題によって構成されているIgakuQAが代表例ですが、最近IgakuQAなどのQuestion&Answerに加えて、機械翻訳、固有表現抽出、文書分類、文類似度計算の5つのタスクを含むJMedBenchというベンチマークデータセット群が公開されました。また、日本に関するマルチモーダルベンチマークであるJMMMUには全体の11%程度Medicineのものが含まれており、医療分野におけるマルチモーダルタスクの評価を行うことができます。JMMMU Medicineにおける現状の最高性能はGPT-4o(2024/05/13)のAccuracy 61.3%のようです。

医療LLM、基盤モデルの情報収集のために

正直なところ、原稿中では紹介しきれなかったモデルが数多くあります。どんなモデルがあるのか、更なる情報収集のために役立つと思われるものをいくつか紹介しておきます。

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge
2024/12/22現在、version 7まで更新されている医療LLMのサーベイ論文。このグループ主に更新しているこのGithubレポジトリはpull requestなどから情報が定期的に更新され続けており、最新情報の収集がしやすくなっています。

Data-Centric Foundation Models in Computational Healthcare
こちらは2024/12/22現在、version 2に更新されたサーベイ論文です。こちらにもGithubレポジトリがありますが、先ほどのよりは頻繁に更新されていなさそうな印象があります。

日本語LLMまとめ
LLM-jpコミュニティによって更新されている日本語LLMのまとめ。ベンチマークデータセットや医療をはじめとするドメイン特化モデルおよびそのデータセットについての情報もしっかりと含まれています。

オススメ書籍の補足

手前味噌で恐縮ですが、以下の記事に私自身が参考にした書籍の一覧があります。主に研究者向けではありますが、比較的平易な新書も紹介しています。
https://zenn.dev/tsei/articles/ffbcbccaa8d5b4

WEBに公開されているものとしては以下が優れていると思います。
https://speakerdeck.com/chokkan/llm

本文中で紹介したMedSAMのベースとなっているSAMのページ。デモが試せます。
https://segment-anything.com/

同じく本文中で紹介したBiomedGPTのcolab。こちらも気軽にデモが試せます。
https://colab.research.google.com/drive/1AMG-OwmDpnu24a9ZvCNvZi3BZwb3nSfS?usp=sharing

終わりに

このサイト良いよ〜とか、ここ分からなかったとか、原稿ちょっとおかしくない?などなどご気軽にお寄せください!

Discussion