🐙

ChatGPT・Gemini・Claudeどれ選ぶ？　私のLLM選定の判断基準　〜Gemini2.0加筆版〜

2024/12/12に公開

こんにちは。MLエンジニアのふるです。
gemini-2.0-flash-expといった新しいモデルの登場によるモデル選定のアップデートを実施しようと思います。

 1. 3つの主要な判断軸：精度・推論速度・可用性モデル選定においては、以下の3つの軸をバランス良く考慮することが重要です。


観点
説明
重視される場面の例


精度
タスクに対する出力の正確さ、適切さ
企画立案、アイデア発想、高精度な情報抽出

推論速度
応答の速さ、処理の効率性
リアルタイム性が求められる対話システム、コーディング支援ツール（例：Cursor）

可用性
サービスとしての安定性、継続性、サポート体制、ライセンス条件など
製品へのLLM組み込み、長期間の運用

これらの観点は、用途によって重要度が変わります。以下は、それぞれの観点を重視する場面の具体例です。
精度重視:
企画立案、アイデア発想など、曖昧な課題設定が多いケース
創造的なアイデアが求められる場合
曖昧な要求を言語化して具体化する場面
推論速度重視:
コーディング支援ツール（例：Cursor）
リアルタイムな応答が求められるチャットボット
コード補完のように、遅延が生産性に直結するタスク
可用性重視:
製品へのLLM組み込み
サービスレベル目標（SLO）が設定されているシステム
長期間の運用が前提となるプロジェクト

 2. 「精度」の多面的な評価「精度」と一言で言っても、多様な側面が存在します。用途に合わせて、評価すべき「精度」の側面を明確化しましょう。

 2.1 画像認識に関する精度画像入力タスクでは、OCR性能や画像内容理解が求められます。

geminiシリーズは画像処理で強みを持つモデルがあり、gemini-exp-1121が最高精度でスピードを気にしない場合は最も良いモデル選定です。ただし、推論速度が必要なユースケース(フロントエンドにおけるUIUXからのコード生成など)においてはgemini-2.0-flash-expなどを利用するのが良いでしょう。
例：

gemini-exp-1121: OCR（光学文字認識）性能に優れ、画像内のテキスト抽出に強みを持つ。

gemini-2.0-flash-exp: OCR（光学文字認識）性能がgemini-exp-1121に劣らずに高速な推論スピードを持つモデル。日常的な利用はこちらで良いと思われます。

 2.2 言語表現力（日本語）日本語の自然さ、文脈理解力が求められるタスクでは、日本語に特化した評価が必要です。特にgeminiは人間らしい出力が強くgemini-exp-1206はコンテクストも多いため、利用しやすいです。ただし、可用性は現在は担保していないので、可用性重視の用途で利用する場合は注意が必要です。
例：

gemini-exp-1206: 日本語の表現力が高く、日記生成など、自然な日本語出力が求められるタスクに適しています。

 2.3 コーディング能力コード生成やデバッグなど、プログラミング関連タスクでは、コーディング能力に優れたモデルが適しています。ただし、開発自体のUXも重要なので、推論速度も重要であることに気をつけましょう。2024年12月12日現在では、推論速度が最適化されているgemini-2.0-flash-expがclaude3.5よりも良いと考えて問題なさそうです。とりあえず快適な開発体験を求める場合はgemini-2.0-flash-exp固定でも問題ないでしょう。
例：

o1-mini: コーディング能力は高く、CoTによる推論で多くコードを正確に認識することが可能です。ただし、読み込み箇所が少なく、コードの短い箇所を微調整したいといった場合には、適さない場合があります。

gemini-2.0-flash-exp: コーディング性能・推論速度のバランス面でずば抜けており、Cursorなどのコーディングで最も利用が推奨されるモデルです。

 3. ベンチマークの活用：Chatbot Arena Leaderboardモデルの性能を客観的に評価する指標として、lmarena.aiのChatbot Arena Leaderboardが参考になります。  Chatbot Arena OverviewページとArena(Vision)のページは非常に参考になるため、常にチェックすることをおすすめとします。

 4. タスク別モデル選定の具体例

タスク
推奨モデル
理由


日記生成、自然な日本語表現が重要なタスク
gemini-exp-1206
日本語表現力が最も優れているため。

画像内のテキスト抽出（OCR）
gemini-exp-1121
OCR性能が最も高いため。

コーディング支援
gemini-2.0-flash-exp, o1-mini
コーディング能力のバランスが取れているものを使用。精度や正確な認識が必要な場面でo1-miniを利用。

これらのタスクでは、従来「Claude 3.5」などを選択肢として考慮していた場面でも、gemini-2.0-flash-expの総合力によって置き換えられつつあります。しかしClaude側のアップデートによってこれらの順位が入れ替わる可能性も十分ありうるので、年末までのリリースに期待しましょう。

 5. リリース時期とモデルのアップデート同系統のモデル（例：Gemini, GPT, Claude）でも、リリース時期によって性能や特性が異なります。
新しいモデルは、機能や精度の向上が期待できます。
ただし、最新モデルが常に最速とは限らないため、ベンチマーク結果やユーザーの報告を参考に、慎重に選定しましょう。

 6. モデル選定例：DiaryGraphでの事例私が提供する、ユーザーとAIが対話を通じて日記を共創するプラットフォームDiaryGraphでは、自然な日本語表現が求められるため、当初はgemini-exp-1206を候補として検討していました。しかし、現時点でgemini-exp-1206は可用性（安定稼働・長期運用へのサポート）が不十分な側面がありました。そのため、精度・表現力ではやや劣るものの、可用性と安定稼働が担保されているgemini-1.5-proを採用しています。
このように、実際のサービス運用では、理想的な精度と安定的な可用性のトレードオフを考慮する必要があります。用途や運用体制に応じてモデル選定を行うことが、長期的な成功につながります。

 今後の展望LLMは今後も進化し、コンテキスト処理能力・画像認識の性能・回答精度のさらなる向上が見込まれます。特に最近では１週間単位で大きなアップデートもあるためこの記事もその都度更新できるよう努めようと思います。
最後まで読んでいただきありがとうございました。

観点	説明	重視される場面の例
精度	タスクに対する出力の正確さ、適切さ	企画立案、アイデア発想、高精度な情報抽出
推論速度	応答の速さ、処理の効率性	リアルタイム性が求められる対話システム、コーディング支援ツール（例：Cursor）
可用性	サービスとしての安定性、継続性、サポート体制、ライセンス条件など	製品へのLLM組み込み、長期間の運用

タスク	推奨モデル	理由
日記生成、自然な日本語表現が重要なタスク	gemini-exp-1206	日本語表現力が最も優れているため。
画像内のテキスト抽出（OCR）	gemini-exp-1121	OCR性能が最も高いため。
コーディング支援	gemini-2.0-flash-exp, o1-mini	コーディング能力のバランスが取れているものを使用。精度や正確な認識が必要な場面でo1-miniを利用。

1. 3つの主要な判断軸：精度・推論速度・可用性

2. 「精度」の多面的な評価

2.1 画像認識に関する精度

2.2 言語表現力（日本語）

2.3 コーディング能力

3. ベンチマークの活用：Chatbot Arena Leaderboard

4. タスク別モデル選定の具体例

5. リリース時期とモデルのアップデート

6. モデル選定例：DiaryGraphでの事例

今後の展望

Discussion