🧠
【AWS-ML】ファインチューニング:ドメイン適応とインストラクションベースの違い
とても良い質問です!
この2つはどちらも LLM(大規模言語モデル)を特定の用途に合わせて調整する方法 ですが、目的とやり方がまったく違います。
初心者にもわかりやすく、たとえ話を使って説明しますね👇
🌏 全体像イメージ
-
ドメイン適応ファインチューニング:
- → 「特定の分野の“知識”を身につけさせる」
-
インストラクションベースファインチューニング:
- → 「指示(命令)を“理解して従う力”を身につけさせる」
🧠 1. ドメイン適応ファインチューニング(Domain Adaptation Fine-tuning)
🔹 目的
モデルに「特定分野の知識や用語、文体」を覚えさせる。
🔹 例えで言うと
英語を話せる人に「医療用語」や「金融業界の専門言葉」を教えるようなもの。
つまり、知識や語彙の拡張が目的です。
🔹 具体的な使い方例
- 医療分野の論文を読ませて「診断レポート風の回答」を生成できるようにする
- 保険業界のFAQや契約文書を使って「保険専門のチャットボット」を作る
- 法律分野の判例データを学ばせて「リーガルAI」を作る
🔹 データ内容
- 専門分野のテキストや文書(QA形式でなくてもOK)
- 例:医療論文、金融レポート、保険契約書など
🔹 得られる効果
- 用語理解の精度が上がる
- 専門文書の自然な文体で出力できる
- 一般モデルよりも専門知識に強い
🗣️ 2. インストラクションベースファインチューニング(Instruction-based Fine-tuning)
🔹 目的
モデルに「人の指示を理解して正しく応答するスキル」を覚えさせる。
🔹 例えで言うと
「質問に答える練習」「命令に従う練習」を繰り返すことで、会話能力を鍛えるようなもの。
🔹 具体的な使い方例
- 「この文を要約してください」→「はい、以下が要約です」
- 「このコードにコメントを追加してください」→「了解です。修正版はこちらです」
- 「次の文章を日本語に翻訳して」→「翻訳結果はこちらです」
こうした「指示 → 応答」のペア(instruction → response)を大量に学習させます。
🔹 データ内容
- “命令+模範回答” のセット(QA形式)
- 例:
入力: 「次の文章を要約してください: ...」 出力: 「要約: ...」
🔹 得られる効果
- 質問への理解力・応答精度が上がる
- より人間らしい会話ができる
- 複雑な指示にも従いやすくなる
⚖️ 比較まとめ表
| 項目 | ドメイン適応FT | インストラクションFT |
|---|---|---|
| 主目的 | 専門知識を学習 | 指示理解・応答力を強化 |
| データ形式 | 通常テキスト(論文・レポート等) | QA形式(指示+回答) |
| 主な用途 | 医療AI、金融AIなど | 会話AI、チャットボット |
| 効果 | 知識の深さ | 会話・応答の自然さ |
| 例え | 医療専門家を育てる | コーチングで話し方を教える |
💡 実際の活用例(AWSなど)
-
Amazon BedrockやSageMaker では、
- 「ドメイン適応FT」= 特定業界のデータでモデルを再学習
- 「インストラクションFT」= 独自QAデータで指示応答性能を向上
→ 両方組み合わせて使うことが多いです。
✅ まとめ
- ドメイン適応:知識を深める(何を知っているか)
-
インストラクションベース:指示を理解する(どう振る舞うか)
→ 両方組み合わせると、「専門知識を持ち、会話もうまいAI」が作れます。
とても鋭い質問です。
はい、基本的には「ドメイン適応ファインチューニング」はラベルなしデータでも可能です。
ここを正確に理解するのが大事なので、順を追って説明します👇
🧠 ドメイン適応ファインチューニングとは(復習)
目的は「モデルに特定分野の知識・文体・用語を覚えさせる」ことです。
そのため、必ずしも「正解ラベル(=教師信号)」がなくても学習できます。
つまり、「ラベルなしのテキスト」を与えるだけでも効果があるのです。
📘 1. ラベルなしデータでの学習(自己教師あり的アプローチ)
🔹 例
医療・保険・法律など、専門的な文書を大量に集めてモデルに「次の単語を予測する」形式で再学習します。
これは、もともとLLMが行う言語モデリング(Language Modeling)と同じ学習方法で、
正解ラベルを別途つけなくても、「文脈から次の単語を予測する」ことで自然に学習できます。
🔹 この場合の学習目的
- 専門用語や言い回しのパターンを学ぶ
- 分野特有の文章構造(例:診断書、契約文、議事録など)を理解する
🔹 この方法の呼び方
- 「継続事前学習(continued pretraining)」
- 「ドメインアダプテーション(domain adaptation)」
- 「unsupervised fine-tuning(教師なしファインチューニング)」
🏷️ 2. ラベル付きデータを使うケース(応用編)
ただし、状況によってはラベル付きデータも使います。目的が「専門知識を活かして特定タスクを解く」場合です。
🔹 例
- 医療分野で「症状→診断名」を出すモデル
- 金融分野で「ニュース→株価予測」をするモデル
- 保険文書から「契約条件」や「免責項目」を抽出するモデル
これらは「入力→出力(正解)」の対応関係があるので、ラベル付きデータ(教師あり)が必要になります。
🔹 この場合の呼び方
- 「タスク適応ファインチューニング(Task-specific fine-tuning)」
- 「Supervised Fine-tuning(SFT)」
⚖️ 3. 整理すると…
| 観点 | ドメイン適応FT | タスク適応FT |
|---|---|---|
| 主な目的 | 特定分野の知識を学ぶ | 特定タスクを解けるようにする |
| データ形式 | ラベルなしでもOK(文章だけ) | 入出力ペア(ラベル付き) |
| 例 | 医療論文・契約書・マニュアルなど | 「質問→回答」「文章→分類ラベル」など |
| 学習方式 | 自己教師あり(next-token予測) | 教師あり(SFT, instruction-based) |
💡 まとめ
- ✅ ドメイン適応ファインチューニングは基本的にラベルなしデータで可能
- 🔹 目的は「知識や表現の適応」
- 🔹 一方、特定タスクを解くためにはラベル付きデータが必要(SFTやinstruction FT)
Discussion