MUSK:病理診断のためのマルチモーダル基盤モデル
はじめに
医療AIの分野では、基盤モデル(Foundation Model)の開発が加速しています。前回は単一細胞トランスクリプトミクスの分野における基盤モデルscFoundationについて解説しましたが、病理画像解析の分野でも基盤モデルの研究開発が進んでいます。
中でも本記事で紹介するMUSKは、2025年1月にNatureで発表され、病理画像と臨床レポートを統合する視覚言語基盤モデルとして急速に注目を集めています。
普段からオミクス分野の研究に携わる医学部4年生の筆者が考える、論文で特に興味深いポイントは、以下の3点です。
-
マルチモーダル学習の工夫
- ペアになっていない大規模データを活用するユニファイドマスクモデリング
- 100万組の画像テキストペアを用いた対照学習による精緻な統合
- 画像とテキストの補完的な情報を効果的に組み合わせる設計
-
多様な臨床応用への対応
- 画像テキスト検索、視覚質問応答、画像分類など23のベンチマークで最先端の性能を達成
- 分子バイオマーカー予測や転帰予測など、実臨床で重要なタスクに対応
- ファインチューニング不要、または軽量なファインチューニングで高性能を実現
-
精密医療への貢献可能性
- メラノーマの再発予測、16種類のがんの予後予測で高い性能を示す
- 肺がんと胃食道がんにおける免疫療法の反応予測に成功
- 予測根拠を可視化する注意ヒートマップによる解釈性の向上
これらの特徴により、MUSKは病理画像解析の新たなスタンダードとなる可能性を秘めています。本記事を通じて、その革新的な仕組みと臨床応用の可能性について理解を深めていただければ幸いです。
それでは、具体的な内容について見ていきましょう。
論文URL: https://www.nature.com/articles/s41586-024-08378-w
【Abstract】
- この研究は、多様な癌治療における精密医療の実現に向けて、病理画像と臨床レポートなどのマルチモーダルデータを効果的に統合する、視覚言語基盤モデルMUSK (Multimodal transformer with Unified maSKed modeling) を開発した。
- MUSKは、大規模なラベルなし、ペアになっていない画像とテキストデータを利用したユニファイドマスクモデリングと、ペアになった画像テキストデータを利用した対照学習によって事前学習される。
- その結果、画像とテキストの検索、視覚質問応答、画像分類、分子バイオマーカー予測など、23のベンチマークにおいて最先端の性能を達成した。さらに、黒色腫の再発予測、16種類の癌の予後予測、肺癌と胃食道癌における免疫療法反応予測においても優れた性能を示した。
- 病理画像と臨床レポートから得られる補完的な情報を効果的に組み合わせることで、癌治療における診断と精密医療の向上に貢献できる可能性を示した。
【Introduction】
病理学基盤モデルの開発競争
- 医療AI、特に病理学分野では、基盤モデルの開発が進んでいる。
- 基盤モデルは、大規模で多様なデータセットで事前学習され、様々な下流タスクに最小限の追加学習で適用できる。
既存の病理学基盤モデルの欠点
-
しかし、既存の病理画像解析AIモデルは、
- アノテーション付きデータの不足
- 単一モダリティに限定された解析
- 臨床転帰予測の精度不足
といった課題を抱えていた。
MUSKの強み
- 本研究が提案する新しい視覚言語基盤モデルMUSKは、これらの課題を以下のように克服している。
-
ペアになっていない大規模データの活用:
従来の対照学習ベースのモデルとは異なり、MUSKはペアになっていない画像とテキストデータを用いたユニファイドマスクモデリングにより事前学習を行うため、より大規模で多様なデータセットを活用できる。
これにより、疾患スペクトルの多様性をより効果的に捉えることが可能になる。 -
マルチモーダル統合による臨床転帰予測:
画像と臨床レポートの両方を統合することで、治療反応や予後予測の精度が向上した。
これは、精密医療における治療決定を支援する上で重要な進歩である。 -
多様なタスクへの適用性:
画像とテキストの検索、視覚質問応答、画像分類、分子バイオマーカー予測など、幅広いタスクにおいて高い性能を示した。
これは、MUSKの汎用性の高さと、様々な臨床応用への可能性を示唆している。
-
ペアになっていない大規模データの活用:
Figure 1 | データのキュレーション、モデルの開発および評価
Fig. 1: MUSKのデータ収集、モデル開発、評価の概要を示している。
(a)はMUSKの事前学習方法を示し、大規模なペアになっていない画像とテキストデータを用いたユニファイドマスク学習と、100万組の画像テキストペアを用いた対照学習の2段階で構成されている。
(b)はMUSKの汎用的な臨床応用を示し、画像テキスト検索、視覚質問応答、画像分類、分子バイオマーカー予測などのタスクに加え、転帰予測(黒色腫の再発予測、汎癌予後予測、免疫療法反応予測)への適用についても示している。
- MUSKの核となる技術は、以下の2つのステップからなる事前学習である。
-
ユニファイドマスクモデリング:
大規模なラベルなし、ペアになっていない画像データとテキストデータを用いて、視覚と言語の混合エキスパートモデルを共有自己注意ブロックで結合したマルチモーダルトランスフォーマーを学習する。
入力データの一部をマスクし、マスクされた部分を予測することで、モデルは画像とテキストの特徴を効果的に学習する。 -
対照学習:
100万組の病理画像-テキストペアを用いて、視覚と言語の特徴をより効率的に統合し、2つのモダリティ間の関係性を学習する。
グローバルな表現の整合性を促す対照損失と、局所的な整合性を促す補助的なマスク言語モデリング損失を組み合わせることで、高精度なマルチモーダル表現を獲得する。
【Results】
- MUSKは、以下の3つの主要な領域で検証された。
-
パッチレベルおよびスライドレベルのベンチマーク:
画像とテキストの検索、視覚質問応答、画像分類、分子バイオマーカー予測を含む23のベンチマークで、既存の基盤モデルと比較評価された。 -
臨床転帰予測:
メラノーマ(黒色腫)の再発予測、汎がん(16種類の癌)の予後予測、肺癌と胃食道癌における免疫療法反応予測において、臨床レポートと病理画像を用いて検証されました。Kaplan-Meier分析、c-index、AUCなどの指標を用いて性能が評価された。 -
アブレーション研究:
MUSKの主要な設計要素(病理特異的なaugmentation、病理特異的な画像トークナイザー、ファイングレインな画像テキストデコーダー、ブートストラップ対照学習)の有効性を検証するために、アブレーション研究(MUSK構成要素の一部分を取り除く対照実験)が行われた。
論文の各ベンチマークタスクについて、パッチレベルかスライドレベルかで整理すると以下のようになる。(トグル内は具体的なデータセット名またはタスクの説明)
パッチレベルのタスク:
クロスモーダル検索
- BookSet
- PathMMU
視覚的な質問応答
- PathVQA
画像の検索と分類タスク
- PatchCamelyon
- SkinCancer
- PanNuke
- UniToPatho
- NCT-CRC-HE-100K
- SICAPv2
- Osteo
- RenalCell
- LC25000
- BRACS
- WSSS4LUAD
スライドレベルのタスク:
分子バイオマーカー予測
- BCNBデータセットを使用した乳がんのER/PR/HER2ステータス予測
- MUV-IDHデータセットを使用した脳腫瘍のIDH変異予測
メラノーマ再発予測
- VisioMel
汎がん予後予測
- TCGA
免疫療法反応予測
- 非小細胞肺がん (NSCLC) コホート
- 胃食道がんコホート
なお、MUSK自体はパッチレベルのエンコーダのため、スライドレベルの予測タスクを解く場合はAttention-based Multiple Instance Learning (AbMIL)という手法を使ってパッチレベルの特徴をスライドレベルの特徴へ集約させている。
ゼロショットクロスモーダル検索
- 画像からテキストを検索するタスク(image-to-text)
- テキストから画像を検索するタスク(text-to-image)
- BookSetとPathMMUという2つのデータセットで評価
視覚的な質問回答(VQA)
- 病理画像に関する質問文が与えられた時に、適切な回答を生成するタスク
- PathVQAデータセットを使用(約33,000問の質問と約5,000枚の画像)
Figure 2 | クロスモーダル検索とVQA
Fig. 2: MUSKのクロスモーダル検索とVQA性能を示す。
(a)はBookSetとPathMMUデータセットを用いたゼロショット画像テキスト検索の結果を示し、MUSKが既存の基盤モデルを上回る性能を達成していることを示している。
(b)はPathVQAデータセットを用いたVQAの結果を示し、MUSKがVQA特化型モデルを含む既存モデルを上回る性能を達成していることを示している。
- MUSKは、BookSetとPathMMUデータセットを用いたゼロショットクロスモーダル検索において、既存の基盤モデルを上回る性能を達成した。
- これは、MUSKが画像とテキストの特徴を効果的に統合し、意味的に関連性の高い情報を検索できることを示唆している。
- また、PathVQAデータセットを用いたVQAにおいても、MUSKはVQA特化型モデルを含む既存モデルを上回る性能を達成した。
- これは、MUSKが病理画像とそのコンテキストを理解し、複雑な質問に正確に回答できることを示唆している。
画像の検索と分類
- 類似画像を検索するタスク
- 画像分類タスク(以下の3種類)
- Zero-shot分類(追加学習なし)→Fig. 3a
- Few-shot分類(少数のサンプルで学習)→Fig. 3b
- 教師あり分類(すべての学習データを使用)→Ex. Fig. 2b
- 12の異なるベンチマークデータセットで評価
Figure 3 | パッチレベルの画像分類
Fig. 3: MUSKの画像分類性能を示す。
(a)はUniToPatho, SkinCancer, PatchCamelyon, PanNukeデータセットを用いたゼロショット画像分類の結果を示している。
(b)は12のベンチマークデータセットを用いた10ショット画像分類の結果を示し、MUSKが様々なデータセットにおいて高い分類精度を達成していることを示している。
- 様々なベンチマークデータセットを用いたゼロショットおよび少数ショット画像分類において、高い分類精度を達成した。
- これは、MUSKが病理画像から重要な特徴を効果的に抽出し、様々な癌種や組織タイプを正確に分類できることを示唆している。
分子バイオマーカー予測
-
病理画像からがんの分子マーカーを予測するタスク
-
乳がんのレセプターステータス(ER、PR、HER2)の予測
-
脳腫瘍のIDH変異状態の予測
-
MUSKは、乳癌の受容体状態や脳腫瘍のIDH変異状態の予測において、既存の病理学的基盤モデルよりも高い性能を達成した。
-
これは、MUSKが病理画像から分子レベルの情報を読み取り、治療標的となるバイオマーカーを予測できる可能性を示唆している。
メラノーマ(黒色腫)再発予測
-
病理画像と臨床レポートから皮膚がん(メラノーマ)の再発リスクを予測するタスク
-
VisioMelデータセットを使用
-
MUSKは、VisioMelデータセットを用いた黒色腫の再発予測において、既存の視覚言語基盤モデルを上回るAUCを達成した。
-
さらに、感度90%に設定した場合、MUSKは他の基盤モデルよりも高い特異度を示した。
-
これは、MUSKが不必要な補助療法を減らし、より多くの患者を毒性から救う可能性を示唆している。
汎がん予後予測
- 16種類のがんにおける予後予測タスク
- 病理画像と臨床レポートの両方を使用
- TCGAデータセットの約6,600人の患者データで評価
- また、アブレーション実験(MUSK構成要素の一部分を取り除いて実験)も行った
Figure 4 | 16種類のがんにおける予後予測
Fig. 4: 16種類の癌における予後予測性能を示す。
(a)はKaplan-Meier分析の結果を示し、MUSKが各癌種において患者のリスク層別化に成功していることを示している。
(b)はMUSKのマルチモーダルモデルが、画像のみまたはレポートのみを用いた単一モーダルモデルよりも優れた予後予測性能を達成していることを示している。
- Fig. 4のaから、MUSKは、TCGAデータセットを用いた16種類の癌の予後予測において、臨床的リスク因子や最先端の基盤モデルを上回るc-indexを達成した。
- Kaplan-Meier分析の結果は、MUSKが低リスク群と高リスク群の患者を明確に層別化できることを示した。
- これは、MUSKが様々な癌種において予後予測に有効であることを示唆している。
- またFig. 4のbからは、マルチモーダルMUSKモデルが、16種類の癌種すべてにおいて、単一モーダル入力による予後モデルよりも一貫して優れており、c-indexが有意に高い0.746だった。
- これは、MUSKがマルチモーダル画像とテキストデータの補完情報を効果的に統合して、癌種全体の予後予測ができることを実証している。
免疫療法反応予測
- 免疫チェックポイント阻害薬による治療への応答を予測するタスク
- 肺がんと胃食道がんの患者で評価
- 治療前の病理画像と臨床レポートを使用
- 客観的応答と無増悪生存期間(PFS)を予測
Figure 5 | 肺癌免疫療法の反応予測
Fig. 5: 肺癌における免疫療法反応予測性能を示す。
(a)はMUSKが既存の基盤モデルやバイオマーカーよりも高い精度で免疫療法反応を予測できることを示している。
(b)はMUSKのマルチモーダルモデルが、単一モーダルモデルよりも優れた予測性能を達成していることを示している。
(c)はKaplan-Meier分析の結果を示し、MUSKが患者の無増悪生存期間に基づいてリスク層別化できることを示している。
(d)はモデルが注目する領域をヒートマップとROIで可視化し、モデルの解釈性を高めている。
- MUSKは、肺癌と胃食道癌の2つの実コホートにおいて、免疫療法反応の予測において従来のバイオマーカー(PD-L1やMSIなど)やマルチモーダル基盤モデルよりも高いAUCを達成した。
- Kaplan-Meier分析の結果は、MUSKが患者の無増悪生存期間に基づいてリスク層別化できることを示した。
- これは、MUSKが既存のバイオマーカーより正確に免疫療法の効果を予測可能であり、また現在は適応外とされる患者群の中から、治療効果が期待できる患者を見出せる可能性を示唆する。
- また、注意ヒートマップを用いて、MSUKの予測根拠となる病理学的特徴(リンパ球の浸潤状態など)を視覚的に示すことができ、肺がんと胃食道がんの両方で有効性が確認された。
【Discussion】
考察
- MUSKは、ユニファイドマスクモデリングと対照学習により、ペアになっていない大規模データとペアになったデータの両方を活用することで、高精度なマルチモーダル表現を獲得できる。
- MUSKは、画像と臨床レポートの両方を統合することで、黒色腫の再発予測、汎癌予後予測、免疫療法反応予測において、単一モーダルモデルよりも優れた性能を達成した。
- MUSKは、注意ヒートマップを用いることで、モデルの予測根拠を可視化し、解釈性を高めることができる。
- MUSKは、様々な癌種において、精密医療の実現に貢献する可能性がある。
限界
- 論文では、MUSKの性能を様々なベンチマークデータセットと臨床コホートで検証している。しかし、事前学習に使用されたデータセットは特定の人種や地域に偏っている可能性があり、モデルの汎用性に関する懸念が残る。
- 免疫療法反応予測の検証に用いられたコホートは比較的小規模で、単一の学術医療センターからのデータに限られているため、結果の一般化可能性には限界がある。
- 特に、免疫療法反応予測のような、患者の治療方針に直接影響を与える可能性のあるタスクでは、厳密な評価と検証が不可欠である。
- さらに、注意ヒートマップを用いたモデルの予測根拠の可視化についても改善の余地がある。
- 予測の根拠をより詳細に理解するためには、さらなる研究が必要。
実用化の方向性
- MUSKは、癌の診断と精密医療の向上に貢献する可能性を秘めている。
- 特に、黒色腫の再発予測、汎癌予後予測、免疫療法反応予測において、MUSKは臨床的に有用な情報を提供できる可能性が示唆されている。
- これにより、医師はより適切な治療方針を決定し、患者の予後改善に貢献できる可能性がある。
- また、MUSKは病理画像と臨床レポートの統合解析を自動化することで、病理医の負担軽減にも貢献する可能性がある。
将来展望
- 著者は、MUSKが精密腫瘍学におけるマルチモーダルAI研究の新たな方向性を示すものであると主張している。
- MUSKは、大規模なラベルなしデータとペアになっていないデータも活用できるため、データセットの規模に制限されることなく、高精度なマルチモーダル表現を獲得できる。
- また、MUSKは様々な下流タスクに適用できるため、病理画像解析AIの汎用化に貢献する可能性がある。
- 今後、更なる研究開発を進めることで、MUSKは癌治療における精密医療の実現に大きく貢献することが期待される。
【Methods】
モデルの設計と事前学習
- MUSKは2段階の事前学習プロセスを採用:
- 大規模な非ペアの画像とテキストデータを用いたマスク付きデータモデリング
- 約100万の画像-テキストペアを使った対照学習による2つのモダリティの整合性確保
- ネットワークのバックボーンは、混合エキスパートネットワークの考え方を取り入れた汎用マルチモダル変換器
データセットの準備
- 事前学習データには以下を使用:
- PubMed Centralから抽出した10億のテキストトークン(約100万の病理関連論文)
- TCGAから得た5000万の病理画像パッチ(33種の腫瘍、11,577患者の約33,000枚のWSI)
- QUILT-1Mデータセット(80.2万の画像-テキストペア)とPathAsstデータセット(20.7万ペア)
学習手法
- 統一マスクデータモデリングアプローチを採用
- マスク言語モデリング(MLM)とマスク画像モデリング(MIM)の損失関数を組み合わせ(後述)
- 画像データには多様な拡張手法を適用(垂直フリップ、カラー調整など)
- AdamWオプティマイザーとコサインスケジュールの学習率を使用
評価方法
- メラノーマ再発予測、がん全般の予後予測、免疫療法の反応予測など、複数のタスクで評価
- 5分割交差検証を基本的な評価手法として採用
- AUC、c-index、Kaplan-Meier分析などの統計的手法を使用
- 統計的有意性の評価にはMann-Whitney U検定やWilcoxon符号順位検定を使用
可視化
- モデルの解釈可能性を高めるため、WSI上にヒートマップを生成
- 85%のオーバーラップでタイルに分割し、各タイルの注意スコアを計算
- 0-1の範囲で正規化されたスコアを半透明のオーバーレイとして表示
損失関数の補足
-
(1)L_{MLM} = - \frac{1}{0.15K} \sum_{i \in n} \log P_{MLM}(y_i | y^n) - これは、Masked Language Modeling (MLM) の損失関数。
- テキストシーケンス中の15%のトークンを[MASK]トークンで置き換え、モデルはマスクされたトークンを予測するように学習する。
-
は入力トークンの総数K -
はマスクされたトークンの位置の集合n -
はマスクされた入力シーケンスy^n -
はマスクされたトークンの真の値y_i -
はモデルが予測したP_{MLM}(y_i | y^n) の確率y_i
-
- この損失関数は、マスクされたトークンの予測確率の負の対数尤度を最小化することで、モデルのテキスト理解能力を向上させる。
-
(2)L_{MIM} = - \frac{1}{0.4N} \sum_{i \in M} \log P_{MIM}(z_i | x^M) - これは、Masked Image Modeling (MIM) の損失関数。
- 入力画像パッチの40%をマスクし、モデルはマスクされたパッチに対応する視覚トークンを予測するように学習する。
-
は入力画像パッチの総数N -
はマスクされたパッチの位置の集合M -
はマスクされた入力画像パッチx^M -
はマスクされたパッチに対応する真の視覚トークンz_i -
はモデルが予測したP_{MIM}(z_i | x^M) の確率z_i
-
- この損失関数は、マスクされたパッチの予測確率の負の対数尤度を最小化することで、モデルの画像理解能力を向上させる。
-
(3)L_{align} = L_{con} + 0.1 \times L_{aux} - これは、マルチモーダルアライメントのための損失関数。
-
は対照損失L_{con} -
は補助的なMLM損失L_{aux}
-
- 対照損失は、画像とテキストのグローバルな表現の整合性を促す。
- 補助的なMLM損失は、軽量なクロスアテンションデコーダーを用いて、画像埋め込みをサイド情報としてMLMを実行することで、ファイングレインなモーダルアライメントを促す。
- 0.1という係数は、2つの損失のバランスを調整するためのハイパーパラメータである。
- これは、マルチモーダルアライメントのための損失関数。
おわりに
本記事では、病理画像と臨床レポートを統合する視覚言語基盤モデル「MUSK」について解説しました。
前回のscFoundationに続き、病理学の分野でも大規模言語モデルの成功に触発された基盤モデルの開発が進んでいます。特にMUSKは、ペアになっていない大規模データの活用や、画像とテキストの巧妙な統合など、独自の工夫で高い性能を実現していることが印象的でした。
一方で、事前学習データの地域的偏りや、免疫療法反応予測の検証コホートの規模など、いくつかの課題も残されています。しかし、これらの課題が克服されれば、MUSKは精密医療の実現に大きく貢献する可能性を秘めています。
医学生として研究に携わる中で、このような最新の画像解析手法をキャッチアップし、実際の臨床応用の可能性を考えることの重要性を実感しています。本記事で解説したような技術革新が、将来の医療現場でどのように活用されていくのか、今から楽しみです。
なお、コードやモデルの重みはGitHubリポジトリで公開されています。興味のある方は、ぜひ試してみてください。
Discussion