🎃

ChatGPT・Gemini・Claudeどれ選ぶ? 私のLLM選定の判断基準

2024/12/10に公開

こんにちは。MLエンジニアのふるです。

o1やo1-proといった新しいモデルの登場により、LLM選定の基準は変化しつつあります。ここでは、最新の動向を踏まえた上で、実践的なモデル選定のポイントを、図表を交えて解説します。

1. 3つの主要な判断軸:精度・推論速度・可用性

モデル選定においては、以下の3つの軸をバランス良く考慮することが重要です。

観点 説明 重視される場面の例
精度 タスクに対する出力の正確さ、適切さ 企画立案、アイデア発想、高精度な情報抽出
推論速度 応答の速さ、処理の効率性 リアルタイム性が求められる対話システム、コーディング支援ツール(例:Cursor)
可用性 サービスとしての安定性、継続性、サポート体制、ライセンス条件など 製品へのLLM組み込み、長期間の運用

これらの観点は、用途によって重要度が変わります。以下は、それぞれの観点を重視する場面の具体例です。

  • 精度重視:

    • 企画立案、アイデア発想など、曖昧な課題設定が多いケース
    • 創造的なアイデアが求められる場合
    • 曖昧な要求を言語化して具体化する場面
  • 推論速度重視:

    • コーディング支援ツール(例:Cursor)
    • リアルタイムな応答が求められるチャットボット
    • コード補完のように、遅延が生産性に直結するタスク
  • 可用性重視:

    • 製品へのLLM組み込み
    • サービスレベル目標(SLO)が設定されているシステム
    • 長期間の運用が前提となるプロジェクト

2. 「精度」の多面的な評価

「精度」と一言で言っても、多様な側面が存在します。用途に合わせて、評価すべき「精度」の側面を明確化しましょう。

2.1 画像認識に関する精度

画像入力を含むタスクでは、画像処理に特化したモデルが有効であり、地味に日本語能力も重要です。実は日本語能力においては、gemini-exp-1206の最新モデルでは従来のgemini-1.5-pro-002よりも低いため注意が必要です。必ずしも最新のモデルが精度が良いとは限らない良い例です。

例:

  • gemini-exp-1121: OCR(光学文字認識)性能に優れ、画像内のテキスト抽出に強みを持つ。

2.2 言語表現力(日本語)

日本語の自然さ、文脈理解力が求められるタスクでは、日本語に特化した評価が必要です。特にgeminiは人間らしい出力が強くgemini-exp-1206はコンテクストも多いため、利用しやすいです。ただし、可用性は現在は担保していないので、可用性重視の用途で利用する場合は注意が必要です。

例:

  • gemini-exp-1206: 日本語の表現力が高く、日記生成など、自然な日本語出力が求められるタスクに適しています。

2.3 コーディング能力

コード生成やデバッグなど、プログラミング関連タスクでは、コーディング能力に優れたモデルが適しています。ただし、開発自体のUXも重要なので、推論速度も重要であることに気をつけましょう。

例:

  • o1-mini: コーディング能力は高く、CoTによる推論で多くコードを正確に認識することが可能です。ただし、読み込み箇所が少なく、コードの短い箇所を微調整したいといった場合には、適さない場合があります。
  • Claude 3.5 Sonnet (20241022): コーディング性能・推論速度のバランスが良く、Cursorなどのコーディングで最もよく使われているモデルです。特にWEBクローラーのような用途に特化していることからUI周りの画像からのコード生成などに強いことが特徴です。(そのためv0やboltなどに利用されているとも言われている。)

3. ベンチマークの活用:Chatbot Arena Leaderboard

モデルの性能を客観的に評価する指標として、lmarena.aiのChatbot Arena Leaderboardが参考になります。  Chatbot Arena OverviewページとArena(Vision)のページは非常に参考になるため、常にチェックすることをおすすめとします。

4. タスク別モデル選定の具体例

タスク 推奨モデル 理由
日記生成、自然な日本語表現が重要なタスク gemini-exp-1206 日本語表現力が最も優れているため。
画像内のテキスト抽出(OCR) gemini-exp-1121 OCR性能が最も高いため。
コーディング支援 claude-3-5-sonnet-20241022, o1-mini コーディング能力のバランスが取れているものを使用。精度や正確な認識が必要な場面でo1-miniを利用。

5. リリース時期とモデルのアップデート

  • 同系統のモデル(例:Gemini, GPT, Claude)でも、リリース時期によって性能や特性が異なります。
  • 新しいモデルは、機能や精度の向上が期待できます。
  • ただし、最新モデルが常に最速とは限らないため、ベンチマーク結果やユーザーの報告を参考に、慎重に選定しましょう。

6. モデル選定例:DiaryGraphでの事例

私が提供する、ユーザーとAIが対話を通じて日記を共創するプラットフォームDiaryGraphでは、自然な日本語表現が求められるため、当初はgemini-exp-1206を候補として検討していました。しかし、現時点でgemini-exp-1206は可用性(安定稼働・長期運用へのサポート)が不十分な側面がありました。そのため、精度・表現力ではやや劣るものの、可用性と安定稼働が担保されているgemini-1.5-proを採用しています。

このように、実際のサービス運用では、理想的な精度と安定的な可用性のトレードオフを考慮する必要があります。用途や運用体制に応じてモデル選定を行うことが、長期的な成功につながります。

今後の展望

LLMは今後も進化し、コンテキスト処理能力・画像認識の性能・回答精度のさらなる向上が見込まれます。最新の動向や研究成果にアンテナを張りながら、自分のタスクに最適なモデル選定を行うことが重要です。

最後まで読んでいただきありがとうございました。

Discussion