💻

Phi-4をサラッと紹介

2024/12/27に公開

この記事の対象

時間がないので、Phi-4について、論文の内容をサラッと知りたい方
SLM(小規模言語モデル)に興味がある方
https://arxiv.org/abs/2412.08905

Phi-4とは?

  • 12月13日(米国現地時間)に発表されたSLM
  • パラメータ数は14B(140億)で、Phi-3 mediumと同じ
  • Phi-4のライセンスは『Microsoft Research License Agreement』で商用利用不可
    ※Phi-3はMITライセンスで無料で商用利用可能
  • STEM分野のQ&Aタスクに優れていおり、GPQA(大学院レベルのSTEM問題)やMATH(数学のコンペティション)では、教師モデルのGPT-4oをも上回った
  • コーディング能力も優れており、HumanEval と HumanEval+ で測定したコーディングでは、他のどのオープンウェイトモデル (LLMのLlamaモデルを含む) よりも高いスコアを獲得

どういう風に学習させたの?

合成データの導入

  • 事前学習フェーズでは、合成データセットに大きく依存
  • 事前学習フェーズでは、『スプーンフィーディング』的に学習させるのがよく、合成データは都合が良い
  • 合成データを生成するため、『多様性』『ニュアンスと複雑さ』『正確性』『思考の連鎖』の4原則を規定した
  • データソースは『Webおよびコードベースのシード』『質問データセット』『言語モデルにより自然検索データソースから生成した質問と回答のペア』の3種類
  • マルチエージェントプロンプト、自己改訂ワークフロー、命令反転など、さまざまな手法を使用して生成

トレーニングカリキュラムとデータ混合の最適化

  • 以下の図に則り、事前学習を実施

中間学習

  • 中間学習フェーズで、コンテキストの長さを4Kto16Kに拡張するよう学習

事後学習

  • ユーザーが安全に対話できるAIアシスタントに変換することを目的として、 chatml 形式を使用してモデルをファインチューニングする

新技術『Pivotal Token Search』の導入

  • モデルから出力された全トークンを走査的に見た際に、どこのトークンがモデルの正答確率に大きく寄与するかをチェックし、重要なトークン(=Pivotal Token)を検索する『Pivotal Token Search』を導入した

Phi-4の弱点

  • ハルシネーションは完全に防ぐことは出来ない
  • 詳細な指示、特に特定のフォーマット要件を含む指示に厳密に従うことにはあまり熟練していない
  • 「9.9 と 9.11 のどちら小さい数値か」のような単純な比較でも、モデルは「9.9 は 9.11 より小さい」と誤って結論付けてしまう場合がある
  • 思考の連鎖の例で学習しているため、単純な問題でも長い質問で答えてしまうことがある
ヘッドウォータース

Discussion