Gemini 2.0が全ユーザーに向けて提供開始
概要
Google DeepMindは、Geminiファミリーの重要なアップデートを発表しました。開発者向けの高性能モデル「2.0 Flash」の一般提供開始、最高のコーディング性能を誇る「2.0 Pro」の実験版リリース、そしてコスト効率を重視した新モデル「2.0 Flash-Lite」の導入が含まれています。特筆すべきは、2.0 Proが搭載する200万トークンのコンテキストウィンドウと、Flash-Liteの高いコストパフォーマンスです。
主要な発表内容
Google DeepMindは以下の3つの重要な更新を発表しました:
- Gemini 2.0 Flashが一般提供を開始
- Gemini 2.0 Proの実験版をリリース
- コスト効率を重視した新モデルGemini 2.0 Flash-Liteを導入
Gemini 2.0 Proの革新的な機能
Gemini 2.0 Proは、これまでで最も高度なコーディング性能と複雑なプロンプト処理能力を備えています。主な特徴として:
- 200万トークンの広大なコンテキストウィンドウ
- Google検索やコード実行との連携機能
- より深い世界知識の理解と推論能力
このモデルは、Google AI StudioとVertex AIの開発者向け、およびGemini Advancedユーザー向けに提供されています。
Flash-Liteがもたらすコスト効率の革新
新しく導入されたGemini 2.0 Flash-Liteは、高性能と経済性を両立した注目のモデルです。
- 1.5 Flashと同等の速度とコストを維持
- 大多数のベンチマークで1.5 Flashを上回るパフォーマンス
- 100万トークンのコンテキストウィンドウを搭載
- 例:約4万枚の写真に対して1ドル未満でキャプション生成が可能
パフォーマンスの向上
最新のベンチマークテストでは、以下のような印象的な結果を示しています:
- 一般知識(MMLU-Pro): 77.6%
- コード生成(LiveCodeBench): 34.5%
- 数学問題解決(MATH): 90.9%
- 科学的推論(GPQA): 60.1%
パフォーマンス比較表
能力 | ベンチマーク | 説明 | Gemini 2.0 Flash-Lite | Gemini 2.0 Flash | Gemini 2.0 Pro |
---|---|---|---|---|---|
一般 | MMLU-Pro | 高難度の多分野質問対応 | 71.6% | 77.6% | 79.1% |
コード | LiveCodeBench (v5) | Pythonコード生成 | 28.9% | 34.5% | 36.0% |
コード | Bird-SQL (Dev) | 自然言語からSQL生成 | 57.4% | 58.7% | 59.3% |
推論 | GPQA (diamond) | 専門家レベルの科学的質問 | 51.5% | 60.1% | 64.7% |
事実性 | SimpleQA | 検索なしでの知識回答 | 21.7% | 29.9% | 44.3% |
多言語 | Global MMLU (Lite) | 15言語での翻訳評価 | 78.2% | 83.4% | 86.5% |
数学 | MATH | 高度な数学問題 | 86.8% | 90.9% | 91.8% |
画像 | MMMU | マルチモーダル理解 | 68.0% | 71.7% | 72.7% |
動画 | EgoSchema (test) | 複数ドメインの動画分析 | 67.2% | 71.1% | 71.9% |
この表から、Gemini 2.0 Proが全てのベンチマークで最高性能を示していることが分かります。
一方、Flash-Liteは効率性を重視しながらも、十分な性能を維持していることが見て取れます。
安全性への継続的な取り組み
能力の向上に伴い、安全性確保にも注力しています:
- Gemini自身による応答の自己評価システムを導入
- 自動化された赤チーム評価によるセキュリティ確保
- 間接的なプロンプトインジェクション攻撃への対策強化
今後の展開
現在はテキスト出力のマルチモーダル入力に対応していますが、今後数ヶ月でさらに多くの機能が追加される予定です。Google DeepMindは、開発者コミュニティからのフィードバックを活かしながら、Geminiファミリーの継続的な改善を進めていきます。
この記事は2025年2月5日にGoogle DeepMindブログで公開された記事を基に作成されています。
Discussion