日本語医療特化型LLMの現状と展望
はじめに
こんにちは、株式会社松尾研究所インターンのhashです。LLMや世界モデルの研究開発に興味があり、その知見や技術を応用する形でAI技術の社会実装に取り組んでいます。
近年、ChatGPTやClaude、Geminiといった様々な大規模言語モデル(LLM)が登場し、教育、金融、エンターテイメントなど多くの分野で革新的な変化をもたらしています。医療分野においても、LLMは診断支援、患者コミュニケーションの改善、医学研究の加速など、多岐にわたる応用が期待されています。例えば、膨大な医学論文の読解や、複雑な症例に対する情報提供などが挙げられます。しかしながら、医学知識の専門性の高さや、情報の正確性・安全性が極めて重要であるという特性から、一般的なLLMでは対応しきれない課題も存在します。このため、医療分野に特化したLLM、さらには各言語圏の医療事情に合わせたLLMの必要性が高まっています。
この記事では、医療特化型LLM、特に日本語モデルに焦点を当て、その開発背景、代表的なモデルと開発手法を紹介します。さらに、日本語医療特化型LLMが直面する課題と今後の展望について、関連する報告や研究も踏まえつつ、筆者の見解を述べたいと思います。
医療特化型LLMの概要
なぜ日本語医療特化型LLMが必要か
医療分野では、一般的なLLMでは十分に対応が難しい固有の課題が存在します。これらは、医療という領域が持つ特殊性に起因するものです。
- 専門用語の豊富さ: 疾患名、薬剤名、解剖学的構造など、一般的な言語データには少ない専門用語が多数存在します
- データ形式の多様性: 電子カルテ、医学論文、臨床試験データなど特有のフォーマットがあります
- 最新性の要求: 医学は常に発展しており、最新の知見を反映する必要があります
- 安全性・正確性の重要性: 間違った情報が患者の健康に直接影響する可能性があります
これらの課題に対し、高性能な汎用LLMであっても、医療ドメインの深い知識や機微なニュアンス、そして何よりも人命に関わる情報を取り扱う上での厳格な要求水準を完全に満たすことは困難な場合があります。そのため、医療領域に特化したLLMの開発が重要となります。
さらに、「日本語」の医療特化型LLMに目を向けると、以下の点がその必要性を裏付けています。
- 日本語の医療データの特性とアクセシビリティ: 英語圏と比較して、公開されている日本語の医療コーパスは量・種類ともに限定的です。そのため、日本語の医療文書や対話データを適切に学習したモデルが求められます。実際に、主要なLLMの多くが英語中心の医療データで学習されており、日本語の医療QAなどにおける有効性が限定的であるとの指摘があります[1]。このデータの壁は、日本語医療LLM開発における重要な課題の一つです。
- 日本特有の医療文化・制度への深い理解と対応: 日本の診療ガイドライン、薬剤承認状況、文化的な背景や制度を深く理解し、適切に対応できるLLMが必要です。例えば、患者への説明における敬語の適切な使用や、専門用語の分かりやすい言い換え、さらには日本人の価値観や感情に配慮した応答などが求められ、これは単純な言語処理能力を超えた対応力と言えるでしょう。
- 国内の法規制への厳格な準拠: 日本の薬機法、医療法、個人情報保護法といった法規制やガイドラインに厳格に準拠した開発・運用が不可欠です。特に次世代医療基盤法のような医療データの利活用に関する法律の適切な運用も課題として挙げられており[2]、これらの法制度への対応は医療LLMを実用化する上での必須条件となります。
これらの理由から、単に医療に特化するだけでなく、日本の医療環境と言語特性、さらには文化的背景や法制度に最適化された「日本語医療特化型LLM」の開発が必要となっています。
日本語医療特化型LLMの開発アプローチ
日本語医療特化型LLMを開発する主なアプローチは、大まかに二種類に分かれます。
- 継続事前学習やファインチューニングによる内部知識の強化
- RAG(Retrieval Augmented Generation)など外部知識データベースとの連携による拡張
LLMの事前学習には膨大な計算リソースとデータが必要となるため、特化型LLMを開発する際には、既存の強力な基盤モデルをベースに、ファインチューニングや外部知識拡張といった手法を組み合わせるアプローチが多く見られます。一方で、特定の目的に特化してフルスクラッチでモデルを開発する事例も存在します。基盤モデルによって、日本語への対応度合いや得意とするタスクが異なるため、適切なモデル選定も重要となります。
本記事では、LLM本体の能力向上に焦点を当てるため、主にファインチューニング手法について解説し、RAGなどの外部拡張手法については割愛させていただきます。
ファインチューニング開発ワークフローのイメージ:
代表的な日本語対応医療特化型LLM
医療特化型LLMは、様々なアプローチで開発されており、近年急速に性能が向上しています。ここでは、日本語の医療タスクに対応する代表的なモデルについて、その技術的特徴と開発手法を詳しく紹介します。
Llama3-Preferred-MedSwallow-70B (Preferred Networks)
Preferred Networks社が開発したLlama3-Preferred-MedSwallow-70Bは、以下の技術的特徴を持ちます[3]。
- ベースモデル: Llama-3-Swallow-70B(東京工業大学と産業技術総合研究所の合同グループによって開発された、日本語能力を強化したモデル)
- 学習手法: 継続事前学習とQLoRA(Quantized Low-Rank Adaptation)技術の組み合わせ
- データセット: 2017年以前の医師国家試験の解説を含む、PFN独自の医療データセット
- 学習計算リソース: NVIDIA A100 GPU 2台のみで効率的に学習
このモデルは、日本の医師国家試験を模したベンチマーク「IgakuQA」において平均395.2点を達成し、当時公開されていたモデルとしては初めてGPT-4(特定のバージョンや評価条件におけるスコア)を超え、医師国家試験の合格基準点(多くの年度で70%前後)に達する性能を示しました[3]。医療ドメインへの特化を図りつつ、一般的な言語能力(MMLU、ARC-C、HellaSwagなど)を維持している点も注目されます。
Preferred-MedLLM-Qwen-72B (Preferred Networks)
2024年5月にPreferred Networks社が公開したPreferred-MedLLM-Qwen-72Bは、さらなる性能向上を目指して開発されました[4]。その技術的アプローチは以下の通りです。
-
ベースモデル: Qwen2.5-72B (アリババによって開発された汎用大規模言語モデル)
-
学習手法:
- 継続事前学習(Continued Pretraining): Qwen2.5-72Bに対して独自の日本語医療コーパスを用いた追加学習により、医療ドメイン知識を注入
- 推論選好最適化 (RPO: Reasoning Preference Optimization): DPO(Direct Preference Optimization)を拡張したアラインメント手法で、推論能力を強化
-
データセット:
- 2017年までの日本医師国家試験をベースにした専用データセット
- 正解の最終回答と検証済みの説明文からなる「Ground Truth」を用意
- 「Ground Truth > Chosen > Rejected」という選好階層で学習
-
学習計算リソース:
- QLoRA(Quantized Low-Rank Adaptation)技術を活用
- モデルのパラメータを4ビットに量子化しつつ、低ランク行列(アダプター)のみを学習
- A100 GPU 4台での効率的な学習を実現
Preferred Networks社の報告によると、Preferred-MedLLM-Qwen-72Bは日本医師国家試験(IgakuQA)のサブセットにおいて431.2点を達成し、GPT-4o(2024年5月モデル)の410.4点を上回る結果を示しました[4]。二段階ファインチューニング、特にRPOの有効性がアブレーション分析によっても確認されています。
LLMの性能向上にはモデルパラメータ数の増加が寄与する一方で、利用可能な計算リソースには限りがあり、際限なくモデル規模を拡大することは困難です。このような状況において、RPOのような推論能力を直接的に向上させるアラインメント技術は、LLMの性能向上において非常に重要です。
また、記事作成時点(2025年5月29日)では、指示ファインチューニングを施したモデルも開発中とのことでした。
SIP-jmed-llm-2-8x13b-OP-instruct (SIPプロジェクト)
戦略的イノベーション創造プログラム(SIP)第3期課題「統合型ヘルスケアシステムの構築における生成AI活用」の一環として開発された、日本の医療特化型LLMです。その技術的特徴は以下の通りです。
- ベースモデル: llm-jp/llm-jp-3-8x13b(日本語に特化した基盤モデル)
-
学習手法:
- 追加事前学習: SIPプロジェクトで収集した0.3T汎用コーパスでの事前学習
- 医療ドメイン適応: 医療系コーパス(トークン数44.2B)を用いた追加学習
- 指示チューニング: 医療系指示チューニング用データセットでの最適化
-
データセット:
- 医学生物学論文フルテキスト
- 医学生物学論文アブストラクト
- 医療系Webクロールデータ
- 学術研究レポート
- 医学教科書
- 薬剤添付文書
- 専門機関発行文書:
- 学会発行の診療ガイドライン
- 医療機関・行政機関による医療関連文書
- 製薬企業等による医療情報・医薬品情報
- ベンチマークの学習用データセット:
- 医師国家試験過去問(2006年から2017年までの12年分)、USMLE(米国医師免許試験)過去問を含む
- 学習計算リソース: 未公開のため不明
このモデルは、Apache-2.0ライセンスで公開されており、研究開発目的での利用が想定されています。評価については、特定のベンチマークスコアは公開されていないものの、日本語での医療対話や情報提供タスクにおける基礎研究への貢献が期待されます。[5]
医療特化LLMの開発手法の比較
医療特化LLMの開発には様々なアプローチがありますが、主な手法とその特徴を比較すると以下のようになります。
開発手法 | 特徴 | 代表的なモデル例 |
---|---|---|
継続事前学習 | 既存LLMに大量の医療専門コーパスを追加学習させ、ドメイン知識を注入する。元のモデルの汎用性を維持しつつ専門性を高める。 | Preferred-MedLLM-Qwen-72B, Llama3-Preferred-MedSwallow-70B |
指示チューニング | 特定の医療タスク(例:質疑応答、要約、対話)向けに、指示と応答のペアデータセットでファインチューニングする。 | SIP-jmed-llm-2-8x13b-OP-instruct |
推論チューニング | RPO/DPOなどの手法を用い、モデルがより好ましい推論過程を経て回答を生成するようにアラインメントする。 | Preferred-MedLLM-Qwen-72B |
LoRA/QLoRA | モデル全体のパラメータを更新せず、一部の追加パラメータ(アダプター)のみを学習することで、計算効率良くファインチューニングする。 | Preferred-MedLLM-Qwen-72B, Llama3-Preferred-MedSwallow-70B |
これらの手法は単独で用いられることは少なく、多くの場合組み合わせて使用されます。例えば、Preferred-MedLLM-Qwen-72Bは、継続事前学習、RPO(推論チューニングの一種)、そしてQLoRAを組み合わせることで、高い専門性と効率的な学習を実現しています。
日本語医療LLMの課題と今後の展望
医療分野におけるLLMの活用は大きな期待を集める一方で、その性質上、一般的なAIシステム以上に厳格な要求を満たす必要があります。本章では、これらの主要な課題について、客観的な事実や一般的に認識されている点、関連する研究報告などを踏まえつつ分析し、解決に向けた現在の取り組みと今後の方向性を探ります。
日本でのLLMの応用は近年急速に発展していますが、日本語の医療特化LLMにおいては、特に以下のような課題が指摘されています。
主要な課題
日本語医療データの不足
英語圏ではPubMedQAやMedMCQAなど医療QA向けの公開データセットが比較的豊富ですが[6]、これに比べて公開されている日本語の医療コーパス、特にオープンなデータセットが圧倒的に少なく、日本語医療特化LLMの開発において、独自データセットの充実度から生じる格差も広がっています。また、患者との会話データなどはプライバシー保護の観点から収集が難しいという現状があるため[7]、データの不足と質の確保は医療LLMにおいて特に慎重な対応が求められます。
法規制と倫理的課題
日本の医療分野は薬機法、医療法、個人情報保護法など厳格な規制下にあり、LLMを医療機器プログラムとして実用化するにはPMDAの審査・承認が必要です。また、医療情報を扱うシステムは関連ガイドラインへの準拠も求められます。学習データのプライバシー保護(匿名化、差分プライバシー技術など)は最重要事項であり、次世代医療基盤法などの枠組みで安全かつ公正なデータ利活用が議論されています[2]。AIの判断におけるバイアス排除、公平性確保、説明可能性の担保も、患者の権利と尊厳を守る上で不可欠な倫理的課題です[7]。
日本特有の文化的要素への対応
日本の医療文化への深い理解も、筆者が重要と考える課題の一つです。日本の医療現場では、患者と医師の関係性、情報伝達スタイル、インフォームドコンセントのあり方など、文化的な背景を深く理解したコミュニケーション能力がLLMに求められます。高齢化社会に対応した平易な言葉遣い、敬語の適切な使用、医療専門用語の分かりやすい言い換えなど、日本語特有の繊細な表現力と、患者の価値観や感情に配慮した応答が必要です。
安全性の担保
誤った医療情報や不適切なアドバイスは患者に深刻な不利益をもたらす可能性があり、特にLLMがもっともらしい誤情報を生成する「ハルシネーション」は、診断支援や薬剤情報提供において重大な医療事故に繋がり得ます[8, 9]。医療LLMには一般的なLLMよりも格段に高い信頼性と検証可能性が要求され、出力の根拠を明示する機能やハルシネーションを検出し軽減する技術開発が不可欠です。
知識の最新性の維持
医学は日進月歩であり、新薬承認、治療ガイドライン改訂など知識の陳腐化が早いため、LLMも最新情報を反映し続ける必要があります。従来の事前学習モデルでは学習データカットオフ以降の情報追随が困難でしたが、RAGやTool-useといった技術で最新データベースと連携し、リアルタイムで情報を取得・提供するアプローチが検討されています[6]。国内の最新情報を迅速に反映させることも重要です。
マルチモーダル能力の必要性
医療現場ではテキスト情報に加え、医用画像(レントゲン、CT等)、検査結果、生体情報など多様なモダリティのデータが診断や治療方針決定に用いられます。テキスト処理に特化したLLMだけではこれらの情報を十分に活用できず、複数の異なる種類のデータを統合的に理解・解析できるマルチモーダルな能力を持つLLMの開発が重要と考えられます[10, 11]。
将来の方向性
上記の課題を踏まえ、医療特化型LLMの今後の発展として以下の領域での進歩が期待されます。
日本語医療データセットの整備
前述のように、日本語医療LLMの性能向上と信頼性確保には、大規模かつ質の高い日本語医療データセットの構築が不可欠です。これの解決に向けて、大学共同利用機関法人 情報・システム研究機構のデータサイエンス共同利用基盤施設の取り組みがあります[12]。これらの活動を通じて、臨床情報、検査データ、レセプト情報、DPCデータ、さらにはコホート研究データやオミックスデータといった多様な医療健康データが収集・標準化され、研究開発に利用しやすい形で提供されることが期待されます。
継続的学習システムの構築
最新の医学論文、臨床試験結果、薬事承認情報を自動的に取り込み、知識ベースを継続的に更新するシステムの構築が進展するでしょう。フェデレーテッドラーニングにより、プライバシーを保護しながら複数の医療機関のデータから学習する手法も実用化が期待されます[13]。このようなシステムは、新しい医学的知見や治療ガイドラインの変更に迅速に対応するために不可欠です。具体的な技術としては、新しいデータセットを用いた定期的なファインチューニング、新しい情報を学習する増分学習(Incremental Learning)やライフロングラーニングといったアプローチが検討されています[14]。フェデレーテッドラーニング[13]は、特に機微性の高い医療データを扱う上で、施設間のデータ共有なしに共同でモデルを改善できるため、その重要性が増しています[15]。
アラインメント技術の向上
患者向けチャットボットとして利用される場合、医療専門用語を適切に言い換え、患者の理解レベルに応じた説明を提供する能力が向上します。また、不安を和らげる配慮や、緊急時の適切な対応指示など、人間らしいコミュニケーション能力の実現が進むでしょう。LLMを医療現場で安全かつ効果的に活用するためには、その応答が医学的に正確であるだけでなく、倫理的価値観や人間の指示と整合(アラインメント)していることが極めて重要です。このために、人間のフィードバックに基づいた強化学習(RLHF: Reinforcement Learning from Human Feedback)や、特定の指示に従うようにモデルを訓練するインストラクションチューニングといった技術が用いられます[16]。これにより、LLMはより共感的で、患者の状況や感情を理解した上で、誤解を招かない平易な言葉で情報提供やアドバイスを行う能力を高めることが期待されます。
マルチモーダル医療LLMの発展
画像、時系列データ、ゲノムデータなどを統合した診断支援システムの実現により、より包括的な医療判断が可能になります。特に画像診断AIとの連携により、放射線科医の業務効率化と診断精度向上に繋ります。この分野では、テキスト、画像、電子カルテ、ゲノム情報といった多様なモダリティの情報を統合的に解釈する研究が進んでいます。例えば、GoogleのMed-PaLM Mのようなモデルは、医用画像と臨床テキストを組み合わせて質問応答やレポート生成を行う能力を示しています[17]。
まとめ
本稿では、日本語医療特化型LLMの現状と展望について述べました。
現在の日本語医療特化型LLMの開発では、継続事前学習やQLoRAなどの効率的なファインチューニングが重要な手法として採用されています。Preferred NetworksのLlama3-Preferred-MedSwallow-70BやPreferred-MedLLM-Qwen-72B、SIPプロジェクトのSIP-jmed-llm-2-8x13b-OP-instructなど、各研究機関・企業が独自のアプローチで医療知識の獲得と推論能力の向上に取り組んでいます。
しかしながら、日本語医療LLMの発展には依然として複数の重要な課題が残されています。英語圏と比較した日本語医療データの不足、インフォームドコンセントなど日本特有の医療文化への適応、そしてハルシネーションのリスクを最小化する安全性の確保などが主要な課題として挙げられます。さらに、医学知識の継続的な更新、画像診断などマルチモーダルデータへの対応、プライバシー保護と説明可能性の実現も重要な検討事項となっています。
これらの課題に対する解決策として、マルチモーダル医療LLMの開発、継続的学習システムの構築、患者の理解レベルに応じたアラインメント技術の向上、そして個別化医療への応用などが今後の発展方向として期待されています。日本語医療特化型LLMは、単なる情報提供ツールにとどまらず、医療従事者の意思決定支援システムとして、日本の医療の質向上に貢献する可能性を持っています。
参考文献
[1] Chen, Y. et al. "Exploring the Role of Knowledge Graph-Based RAG in Japanese Medical Question Answering with Small-Scale LLMs." arXiv preprint arXiv:2404.10982 (2024).
[2] Yoshida M, Tanaka K, Yamamoto R. An Examination of Japan's Legal System and Issues Related to Promoting the Use of Medical Data. Stud Health Technol Inform. 2025 May 15;327:1019-1020. doi: 10.3233/SHTI250535. PMID: 40380642.
[3] Preferred Networks, "医療・ヘルスケア領域における大規模言語モデルの構築に向けて", 2024. (https://tech.preferred.jp/ja/blog/medical-llm-interim-report/)
[4] Preferred Networks, "高い精度と安定した説明生成を両立する日本語医療LLM: Preferred-MedLLM-Qwen-72Bの開発", 2024年5月. (https://tech.preferred.jp/ja/blog/preferred-medllm-qwen-72b/)
[5] SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct · Hugging Face. huggingface.co/SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct.
[6] Wu, Junde, et al. "Medical graph rag: Towards safe medical large language model via graph retrieval-augmented generation." arXiv preprint arXiv:2408.04187 (2024).
[7] 日本医師会 生命倫理懇談会. "「医療 AI の加速度的な進展をふまえた 生命倫理の問題」について." (https://www.med.or.jp/dl-med/teireikaiken/20220309_3.pdf)
[8] Wang, X. et al. "Safety challenges of AI in medicine in the era of large language models." arXiv preprint arXiv:2309.18968 (2023).
[9] Zuo, K. et al. "MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models." arXiv preprint arXiv:2312.18947 (2023).
[10] Nakao, T. et al. "Capability of GPT-4V(ision) in the Japanese National Medical Licensing Examination: Evaluation Study." JMIR Med Educ 10:e54393 (2024).
[11] ASCII.jp. "医師とのタッグで挑む、医療用マルチモーダルAIの先駆け的研究." (https://ascii.jp/elem/000/004/207/4207365/)
[12] Jsdsr_Admin. "医療用LLM/LMMの研究開発を促進する医療データ基盤 - データサイエンス共同利用基盤施設." 大学共同利用機関法人 情報・システム研究機構, 21 May 2025, ds.rois.ac.jp/center8/%E5%8C%BB%E7%99%82%E3%83%87%E3%83%BC%E3%82%BF%E5%9F%BA%E7%9B%A4.
[13] Peng, L. et al. "An in-depth evaluation of federated learning on biomedical natural language processing for information extraction." npj Digit. Med. 7, 127 (2024). https://doi.org/10.1038/s41746-024-01126-4
[14] Jin, Xisen, et al. "Lifelong pretraining: Continually adapting language models to emerging corpora." arXiv preprint arXiv:2110.08534 (2021).
[15] Sheller, M. J., Edwards, B., Reina, G. A., et al. (2020). Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. Scientific reports, 10(1), 12295.
[16] Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.
[17] Tu, Tao, et al. "Towards generalist biomedical AI." Nejm Ai 1.3 (2024): AIoa2300138.
Discussion