🌊
LLMにとってやばい要素リスト(2024年11月版)
LLMをやっているなかで実感ベースで学んだ、「この要素が2個か3個くらいあると、その案件はやばいかもしれない」と感じるリストです。自分の備忘もかねて書き残しておきます。また、今後も育てていきたいです。あと何があるかな?
1.トークン数を超える入力を必要とするタスク
→インプットデータをベクトルDB化しないといけないため精度が下がる
2.複数ファイルのインプットを必要とするタスク
→ファイル間の関係を正確に把握できないため、ハルシネーション発生率が上がる
3.業務や工程を横断するタスク
→異なる文脈を正確に把握できないため、ハルシネーション発生率が上がる
4.インプットの形式/様式が複雑なタスク
→画像や図などは精度が下がる(インテリジェントなOCRやマルチモーダルLLMでも、けっこう厳しい戦いがある)
5.プロジェクトで使えるLLMのモデルがレガシーモデル(GPT4以下)である
→モデル自体が業務に耐えられない可能性が高い
6.正確な数値計算やデータ処理を必要とするタスク
→普通のLLM(=o1 preview以前のモデル)は計算ミスやデータの不正確さが生じやすく、結果の信頼性が低下する可能性がある
7.特定の専門領域やニッチな分野の知識が必要なタスク
→RAGとファインチューニングで学習させる必要があるが、もともとのLLMのサイズとファインチューニングによって効果が得られる学習データ量の関係は未知数(樋口の理解では学術的にも決着がついていない)
8.長期的な文脈や状態を保持する必要があるタスク
→数年前のデータと現在のデータを比較するなどの時間把握を正確にできないため、精度が下がる
Discussion