MedQA - 医師国家試験問題データセットについて
医療用LLMの性能評価で使われるのを良く目にするMedQA自体の論文を読んだ。
Jin, Di, et al. "What disease does this patient have? a large-scale open domain question answering dataset from medical exams." Applied Sciences 11.14 (2021): 6421.
MedQAとは何か
- Open Domain Question Answering (OpenQA) Task は NLPコミュニティで注目されている
- 答えが載っている文書が与えられていない中で質問に答える
- 解答に必要なリソースを探しあてる所を含むタスク
- MedQA は医学問題を解くための OpenQA データセット
- 中国・台湾・米国の医師国家試験から問題を収集し、3つの言語をカバー
- 英語 (12,723問)、 簡体字中国語 (34,251問)、 繁体字中国語 (14,123問)
- 中国・台湾・米国の医師国家試験から問題を収集し、3つの言語をカバー
- 各問題は 質問、4つの解答選択肢、文書コレクションから成る
- 2種の問題
- 単一の知識を問う問題。 "次の症状のどれが統合失調症に属しますか?" など
- まず患者の状態を説明し、次に最も可能性の高い診断 or 最も適切な治療法 or 必要な検査 or その状態メカニズム or ある治療法で起こりうる転帰などを尋ねる質問
- 2種の問題
- 既存手法で解答するのが難しい問題
- 患者の病態が一般的な症状のみで、なんらかの疾患・病態に特有なものでは無いとき
- 鑑別診断を絞りこんだ上で (1段目の推論)、適切な検査・治療 (2段目の推論)を答える問題
- 2段目の推論に必要な情報を IR system が取っていない
例:
- 類似のデータセット
- MedMCQA
- PubMedQA
感想
ChatGPTが流行ってからNLP方面に足をつっこんだ人間なので、質問応答の進歩の歴史が知れてよかった。LlamaIndex のあれが Information retrieval system だったんだと。
試験問題のデータ収集に利用したウェブサイトとして https://www.lecturio.com/medical/usmle-step-1/ などが載っていたが日本の医師国家試験は同様のサイトは無いのだろうか?
以下論文メモ
Introduction
- 質問に関連する文章が与えられる Question Answering(QA) は NLP の基礎的なタスク
- BERTなどのモデルがメジャーなデータセットで性能上限に到達している
- しかし現実のよくあるユースケースでは解答に関連する文章は与えられない
- OpenQA
- OpenQA用の既存のデータセットは子供の知識でも解けるような簡単なもの
- 医学問題を解くデータセットを作った
- 米国・中国・台湾の医師国家試験から収集した
- この問題を解くには医学の教科書から学習した内容を深く理解する必要がある
- 例 (Table1)
-
Chlamydia trachomatis
という正解に辿りつくには関連するエビデンスを検索する必要がある
-
- OpenQAの(当時の)最新手法を適用して性能を検証した
- 米国: 36.7%, 中国: 42.0%, 台湾: 70.1%
例 (Table1より)
Question:
A 27-year-old male presents to urgent care complaining of pain with urination. He reports that the pain started 3 days ago. He has never experienced these symptoms before. He denies gross hematuria or pelvic pain. He is sexually active with his girlfriend, and they consistently use condoms. When asked about recent travel, he admits to recently returning from a boys’ trip” in Cancun where he had unprotected sex 1 night with a girl he met at a bar. The patients medical history includes type I diabetes that is controlled with an insulin pump. His mother has rheumatoid arthritis. The patients temperature is 99 F (37.2 C), blood pressure is 112/74 mmHg, and pulse is 81/min. On physical examination, there are no lesions of the penis or other body rashes. No costovertebral tenderness is appreciated. A urinalysis reveals no blood, glucose, ketones, or proteins but is positive for leukocyte esterase. A urine microscopic evaluation shows a moderate number of white blood cells but no casts or crystals. A urine culture is negative. Which of the following is the most likely cause for the patient’s symptoms?Options:
A: Chlamydia trachomatis, B: Systemic lupus erythematosus, C: Mycobacterium tuberculosis, D: Treponema pallidumEvidence:
At least one-third of male patients with C. trachomatis urethral infection have no evident signs or symptoms of urethritis. ... Such patients generally have pyuria ..., a positive leukocyte
esterase test, ...
Related Work
- 既存の医療QAデータセット
- いずれも外部知識を必要としていない
データ
- タスクの定式化
- 質問、解答候補、文書コレクション
- データ収集
- 中国・台湾・米国の医師国家試験
- 知識、概念、原則を適用する能力と、患者中心の基本的なスキルを示す能力を評価
- Supplementary Material に収集に使ったスクリプトがある
- 教科書
- このタスクを解くのに必要な教科書を収集した、研究利用のみライセンスで公開する
- 元データはPDF、OCRでデジタルテキストに変換した
- 収集した教科書の知識で解答可能な割合を評価した
- 質問のタイプ
- Type1: 単一の知識を問う問題。 "次の症状のどれが統合失調症に属しますか?" など
- Type2: まず患者の状態を説明し、次に最も可能性の高い診断 or 最も適切な治療法 or 必要な検査 or その状態メカニズム or ある治療法で起こりうる転帰などを尋ねる質問
- 後者の方が難しく、マルチホップ推論を必要とする
既存手法による解放と実験結果
MedQAデータセットを解くための既存手法が解説されている。
- ルールベース手法
- Neural Model
- Document Retriver module
- Document Reader module
- 事前学習モデルのファインチューニング
- 既存手法で上手く答えられない問題
- 患者の症状が非常にcommonな物で、考えられる疾患が多岐に渡るもの
- 特定の疾患に関連のある病態ではないもの
- 診断を行なった上で、適切な治療・検査・メカニズムを問うもの
- 1段目の推論: 鑑別疾患の絞りこみ (IR systemが必要な情報を取得できる)
- 2段目の推論: 鑑別診断に対する次のアクションの決定 (IR systemが取ってこれていない)
- 患者の症状が非常にcommonな物で、考えられる疾患が多岐に渡るもの
Discussion
MedQA等の日本語訳(英文+和文)のウェブ公開を計画中です。
英日ファインチューニング(QLoRA)用、json形式(OASST1)へ変換しての公開を予定していますが、
何かリクエストありますか?
JAIM様。教えていただきありがとうございます。
まだファインチューニングの勘所が無くコメントできないのですが、利用させて頂きます。
クラウドファンディングでMedQAの機械翻訳のAPI代金を賄おうと思いましたが、大学側がクラウドファンディング応募の許可を拒否したため、研究部研究費で翻訳は半分以上は完了しました。現在、医療特化型LLM開発中なので、これで成果が上がったら、論文とともに公開します。現在、MedQAを使ってどのようにQloraすれば、医療に使えるかを評価・検討中です。まずは、ファインチューニングに、このデータセットが使えることを確認中です。上記、諸事情により公開はやや先になる可能性があります。すいませんが、よろしくお願い致します。なおDeepL APIにて20数万の費用がかかります。