🩻

[論文メモ] Towards Generalist Biomedical AI 読んだ

2023/08/31に公開

2件

LLM

medical

tech

https://arxiv.org/abs/2307.14334

Abstract

医療は本質的にマルチモーダル (テキスト、画像、ゲノム)
それらを柔軟に扱える汎用的なバイオメディカルAIは大きなインパクトをもたらす可能性がある
マルチモーダルなメディカルベンチマークを作成した
- MultiMedBench
- 質問応答、マンモグラフィーや皮膚科画像の解釈といった14のタスク
汎用的なバイオメディカルAIのPoC
- Med-PaLM Multimodal (以降 Med-PaLM M)
- すべての MultiMedBench タスクにおいてSOTAに匹敵か越える性能を出した
- 特定のタスク特化モデルをもしばしば越える
新たな医療コンセプト及びタスクに対するゼロショット汎化の報告
放射線科医による Med-PaLM M の性能評価
- Med-PaLM Mが生成した胸部X線読影レポートに対する放射線科医師の評価を行なった
- 放射線科医の作成したレポートと比較してどちらを好むか実験した所、40.50%の症例で Med-PaLM M のレポートが好まれた
- 臨床的有意性の可能性を示唆

1. Introduction

医療はマルチモーダルな学問である
バイオメディカルAIの発展にもかかわらずそれらのほとんどは単一モーダルtask systemである
- 例: マンモグラフィの解釈
- システムの出力があらかじめ指定された可能な分類セットに制約されている
  - 対話ができない
- 単一タスク・単一モーダルシステムの性能をバウンドしている
基盤モデルの出現によりマルチモーダルなバイオメディカルAIの可能性が見えてきた
マルチモーダル医療ベンチマークの不在が課題
- 無いので作った
マルチモーダル汎用バイオメディカルAI: Med-PaLM Mを開発した
- ファインチューニングなしで様々なタスクに対応 (generalist model)
本論文の貢献
- MultiMedBenchのキュレーション
- Med-PaLM M, the first demonstration of a generalist biomedical AI system
- Evidence of novel emergent capabilities in Med-PaLM M
- Human evaluation of Med-PaLM M outputs

foundation model
multimodality
generalist model
バイオメディカル分野の multimodel foundation model
Multimodal medical AI benchmarks

3. MultiMedBench: A Benchmark for Generalist Biomedical AI

14のタスク

4. Med-PaLM M: A Proof of Concept for Generalist Biomedical AI

Med-PaLM M の事前学習モデルである PALM および PALM-E のレビュー
Pathways Language Model (PaLM)
- training corpus consists of 780 billion tokens representing a mixture of webpages, Wikipedia articles, source code, social media conversations, news articles, and books
PaLM-E
- PaLM と Vision Transformer (ViT) を事前学習モデルとしたマルチモーダルモデル
Med-PaLM M は MultiMedBench を用いて PaLM-E モデルをバイオメディカル領域向けにファインチューニングおよびアラインメントしたもの
- ファインチューニング
  - The task prompt consists of an instruction, relevant context information, and a question
  - Instructions で病歴テキストを渡す
  - Question で解答の候補を全て渡してその中から解答させる

5. Evaluation

何をどのように評価したか
- Evaluate generalist capabilities
  - MultiMedBenchすべてのタスクについて。従来のモデルやファインチューニング前のモデルとの比較
- Explore novel emergent capabilities
  - 様々なタスクにわたって訓練することで得られる汎化能力
- Measure radiology report generation quality
  - AIが生成したレポートの専門放射線科医による評価
MultiMedBench による評価
ゼロショット汎化の評価
- 未知の医療概念への汎化能力を調べるため、胸部X線画像から結核の有無を予測する能力を評価
- Montgomery County chest X-ray set (MC) を使用
- 入力画像中の結核の有無を答えさせた
1つの汎用モデルを多くのバイオメディカルタスクを解かせる事で訓練した事と task transfer の関係を証明
- MIMIC-CXR 分類タスクを除外して訓練したモデルとの比較
生成した胸部X線レポートの品質と臨床応用性の人間による評価
- 4人の有資格胸部放射線科医
- 評価者が複数のレポート所見を比較し、全体的な質に基づいてランク付けするside-by-side評価
  - 全246症例
  - 各症例は4人の中から無作為に選ばれた1人によって評価
- 評価者が個々のレポート所見の質を評価する独立評価
  - 記述が足りない部分 omissions
  - 記述が間違っている部分 error
- 工夫
  - レポート所見の出所について盲検化
  - レポートをランダムな順序で評価者に提示
  - 評価セットとは異なる25ケースのパイロットセットを用いて評点を補正
- 評価
  - side-by-side評価
    - データセットのリファレンス所見とMed-PaLM Mの3つのバリアントによって生成された所見、全てで4つの所見についてランキング
  - 独立評価
    - 胸部X線画像を見て生成された所見の質を評価
    - 同意できない箇所と、欠落しているすべての箇所に注釈を付けた

6. Results

Med-PaLM M はすべての MultiMedBench タスクで SOTA に近いかそれを上回る性能
- Med-PaLM M が負けていてSOTAと差が大きいのはTextのみの Question Answering Task
- 他は勝ったかほぼ同じ
言語推論タスクはパラメータ数のスケール恩恵を受ける
マルチモーダルタスクは vision encoder がボトルネックに
- モデルのパラメータ数12B, 84B, 562Bの比較で性能の上昇が限定的
Med-PaLM M は新しい医療概念・未知のタスクへの汎化性能を示した
- Montgomery County (MC) dataset の胸部X線画像から結核を検出する実験
- Med-PaLM M 自体はタスク特化画像(ここでは MC dataset) を訓練に用いていないにも拘わらずMC datasetの画像138件を訓練に用いた特化モデルに近い性能が出せた
新規タスクへの汎化性能
- Med-PaLM M は正面胸部X線画像のみで訓練したが、正面と側面画像のレポート生成タスクでも正面のみのレポート生成タスクに匹敵するゼロショット性能が達成できた
task transfer
- 訓練時に MIMIC-CXR 分類タスクを除外したモデルと含めたモデルでの MultiMedBench の比較。後者のモデルがレポート生成と分類の両方で全体的に高い性能だった
放射線画像レポート
- 放射線科医が提供したリファレンスレポートが37.14%の症例で最高と評価
- 次に高かったのが Med-PaLM M(84B)の25.78%
所見レポートの放射線科医による添削
- レポート1枚あたりの記述漏れの平均 0.12
- 記述の誤り率の平均 0.25
- 誤り率は人間の放射線技師のベースラインと同程度

7. Discussion

ベンチマークの欠如がボトルネック
バイオメディカルタスクでの性能向上にはドメイン固有のデータによるファインチューニングが重要
マルチモーダル汎化モデルのスケーリングは困難、訓練に使える医療画像データが少ない
などなど

感想・気になりポイント

ベンチマーク用のデータセットから作ってしまうのは強い
汎用モデルがタスク特化型モデルの性能を上まわってしまうとなると、タスクに特化した学習データに限定してモデルを小さくする試みはどうなるんだろう
レポート生成の評価方法は参考になる
- omission,error と臨床医学的に重要かどうかの2軸
- omission,error は偽陰性と偽陽性みたいな
MultiMedBench でファインチューニングしたモデルなので MultiMedBench でSOTAなのは当り前のような気がした
- 評価用に一部を訓練に使わず残しておいたのかどうかまで読み取れなかった
ファインチューニングの説明で回答候補をプロンプトで渡して一つを選ばせるとあったが、どうやって選んだのか?
- 流石に全てはトークンサイズ的に無理な気がする、何を候補としたのかが気になる
- Given the classification task was set up as an open-ended question answering task とあるので自由回答のタスクもある? (ほとんどは選択形式に読めたが)
- MedQA と Med-PaLM2 の論文をあとで読む
皮膚病変データセット(PAD-UFES-20)の分類タスクで病歴テキストを渡しているがこれはどう作ったのか?
- 元のデータはテーブルデータなので良い感じに自然言語化した?
- 回答候補6個って少なくない?