Llama3.1から生まれるImitation modelとその課題
はじめに
ストリーツ株式会社の@hanamaです。
2024年7月24日に、MetaはLlama3.1 405Bをオープンソースとして公開しました。このモデルは出力を他のモデルの学習に利用できるライセンスのもと公開されたOSSモデルです。
Llama3.1の利用規約から抜粋
If you use the Llama Materials or any outputs or results of the Llama Materials to create, train, fine tune, or otherwise improve an AI model, which is distributed or made available, you shall also include "Llama" at the beginning of any such AI model name.
全文はこちら
この規約から、Llama3.1の出力を模倣したモデル(Imitation model)が今後増加すると予想されます。
Imitation modelとは
Imitation modelは、既存の高性能AIモデルの出力を学習データとして使用し、そのモデルの振る舞いを再現しようとする手法です。この手法により、大規模な計算資源やデータセットを持たない組織や個人でも、先進的なAIモデルの能力を部分的に再現できる可能性があります。
Imitation modelの課題
論文「The False Promise of Imitating Proprietary LLMs」(Gudibande et al., 2023)では、Imitation modelに関する以下の問題点が指摘されています:
- 学習データに含まれるタスクに対しては高い模倣性を示す
- 学習データに含まれないタスクに対しては、ベースモデルからの性能向上が見られない
- 著者らは、モデル模倣を「偽りの約束(a false promise)」と結論づけている
つまり、あるLLMから生成されたデータを使って学習したモデルは、学習データに含まれるタスクに限り親のモデルの振る舞いを再現するものになってしまうということです。
模倣学習ではモデルの真の賢さを引き出すことは難しいため、Imitation modelを利用する際には注意が必要です。
論文中では「ChatGPTを模倣するモデルは、流暢で自信に満ちた、構造的な答えを返すため、人間による評価は高い傾向にある一方、言い方を変えるとChatGPTのような口ぶりで全くもって間違った答えを返すモデルだ。」と指摘されており、筆者たちはImitation modelはAIアシスタントの最も悪い一面を体現していると述べています。
引用した原文
Finally, we investigate why there is a strong discrepancy between crowdworker evaluations, where imitation models appear quite strong, and results on NLP benchmarks, where imitation models appear no better than base LMs.
We find that imitation models perform well according to human evaluations because they are adept at mimicking ChatGPT’s style—they output fluent, confident, and well-structured answers.In particular, we show in Table 2 that as we add more imitation data, ChatGPT and our imitation models produce outputs with a similar length, similar word choice, similar use of an authoritative tone, and similar low-level structure (e.g., use of lists).
However, as shown in our previous automatic evaluations, the imitation models have weak factuality. In other words, imitation models actually embody some of the worst aspects of AI assistants: their answers sound confident but are less factual than ChatGPT.
This is perhaps best elucidated in Figure 2, where the imitation model outputs an answer that is similar in style to ChatGPT’s answer but is completely incorrect.
Imitation modelの利用における注意点
Imitation modelを利用する際は、以下の点に注意が必要だと考えます。
- タスクの一致性:利用目的のタスクと、学習データに含まれるタスクの一致を確認する
- ベンチマークの解釈:特定のベンチマークで高性能を示すモデルでも、実際のタスクでは性能が向上していない可能性がある(Imitation modelでは顕著にその傾向が現れる懸念がある)
- 学習プロセスの透明性:学習データ生成時のプロンプトや参照した外部データが公開されているモデルを選択する
Imitation modelの適切な利用方法
Imitation modelを効果的に活用するために以下の手順を踏むことをお勧めします。
- 利用目的の明確化:Imitation modelを使用する目的・タスクを具体的に定義する
- タスク適合性の確認:目的のタスクに特化した学習データで訓練されたモデルを選択する
- 性能評価:目的のタスクにおけるモデルの性能を手元で評価し、実際のタスクでの有効性を確認する
結論
Imitation modelは、AIモデルの能力を広く利用可能にする可能性を持つ技術です。しかし、その効果は限定的であり、利用には慎重な検討を要します。特に、学習データとタスクの一致性を確認し、imitation modelはあくまでも「imitation」であることを認識しておくことが重要です。
参考文献
The False Promise of Imitating Proprietary LLMs
Authors: Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song
Year: 2023
ePrint: 2305.15717
Archive Prefix: arXiv
Primary Class: cs.CL
Discussion