Next'25 速報 - What's new with Gemini 2.5
はじめに
現在ラスベガスで開催されている Google Cloud の旗艦イベント「Google Cloud Next'25(以下、Next'25)」に現地参加中の kazz / 小堀内 / Shanks / 岸本 です。
Next'25 で発表された 最新情報 を現地からお届けしています!
この記事では、Next'25 のセッション「What's new with Gemini 2.5」で発表、解説された内容を速報としてお届けいたします。
TL;DR
-
Gemini 2.5 Pro
- 思考能力の進化: 制御された推論 (Deliberation / Dynamic Thinking) により、モデルが応答生成前に内省し、より複雑でニュアンス豊か、かつ高品質な応答を生成可能になりました。
- 開発者体験の向上: コーディング能力が大幅に向上し、Web アプリ開発や IDE での利用において高いパフォーマンスを発揮します。
- 大規模コンテキストと精度: 最大 100 万トークン (プレビュー版、GA時には最大 200 万トークン予定) のコンテキストウィンドウに対応し、長文ドキュメントや動画全体から高精度な情報抽出が可能です。
-
Gemini 2.5 Flash
- 速度とコスト効率: 速度とコスト効率に優れた新モデル。思考バジェット機能により、レイテンシやコストを考慮した柔軟な思考量制御が可能になります。
-
ライブ API
- 自然でインタラクティブな対話: Shopify のデモで示されたように、新しいライブ API を活用することで、自然でインタラクティブなリアルタイム音声対話が可能になります。
セッション詳細
Gemini 2.5 Pro
先日、Gemini 2.5 Pro が発表されました。2.0 から大幅な進化を遂げたモデルです。その性能に圧倒された方も多いのではないでしょうか。
今回の Next'25 では、改めて Gemini 2.5 Pro の新機能について解説されました。
1. 制御された推論 (Deliberation / Dynamic Thinking)
Gemini 2.5 Pro の大きなブレークスルーの一つが、制御された推論 (Deliberation / Dynamic Thinking と呼ばれる機能) の導入です。これは、モデルが単純に即座に応答を返すのではなく、応答を生成する前に「考える」時間を与え、内部で思考プロセスを経る能力を指します。例えば、複雑な質問に対して、複数のステップで考えたり、異なる可能性を検討したりしてから最終的な答えを組み立てるようなイメージです。これにより、以前のモデルよりも複雑でニュアンスのある、より質の高い応答が可能になりました。この能力は、Chatbot Arena などのベンチマークでも高い評価を得ており、より自然な会話ができるようになるでしょう。
2. コーディング能力の向上
開発者からのフィードバックに基づき、コーディング能力が大幅に強化されました。特に Web アプリ開発や IDE (統合開発環境) でのコード編集、変換タスクにおいて、Gemini 2.5 Pro は高いパフォーマンスを発揮します。単一プロンプトでのリッチな体験生成や、エンドツーエンドのソフトウェアエンジニアリングワークフローの支援などが可能になっています。
3. コンテキストウィンドウの拡大と精度
Gemini 2.5 Pro は現在プレビュー版で 100 万トークン のコンテキストウィンドウを提供しており、一般提供 (GA) 時には 最大 200 万トークン に拡張される予定です。これは、書籍数冊分や数時間に及ぶ動画、大量のコードといった膨大な情報を一度に入力できることを意味しています。これにより、長大なドキュメントの要約・分析、コードリポジトリ全体の理解、動画コンテンツの詳細な分析 (例: 法務調査、動画のタイムスタンプ付け) など、これまで困難だったタスクが可能になります。さらに重要なのは、単に長いコンテキストを扱えるだけでなく、その広大な情報の中から特定の情報を高い精度で見つけ出す能力も向上している点です。
4. マルチモーダル機能
音声、動画、画像など、複数のモダリティを理解する能力が向上し続けています。音声と動画が混在した入力を理解したり、長編動画の内容について詳細な質問に答えたりする能力が強化されています。また、実験段階ではありますが、画像を入力として受け取り、画像を編集したり生成したりするマルチモーダル生成も可能になっています。
5. 高速スループットと低レイテンシ
高品質な応答だけでなく、速度も重要です。Gemini 2.5 Pro は、最初のトークンが返るまでの時間 (Time to First Token) が短く、かつ応答全体の生成速度 (スループット) も高速です。これにより、ユーザーにとってストレスなくインタラクティブな体験を得られるようになります。
6. ツール使用 (Tool Use)
モデルが外部ツールや API をいつ、どのように使うべきかを判断する能力は、自律的な AI エージェントを開発する上で不可欠です。Gemini 2.5 Pro はツール使用能力が向上しており、高度な推論能力と組み合わせることで、より複雑なタスクを自動化するエージェントの実現に近づいています。
Gemini 2.5 Flash
Next'25 では、Gemini 2.5 Flash が発表されました。
Gemini 2.5 シリーズとして、高い性能を持ちながらも、より低コストで利用可能なモデルです。
1. 思考バジェット (Thinking Budget)
Flash モデルのユニークな特徴が 思考バジェット (Thinking Budget) 機能です。これは、前述の「制御された推論」で使用する計算リソース(トークン数で表現)の上限をユーザーが設定できる機能です。例えば、「思考時間は最小限にして、とにかく速く応答してほしい」場合は思考をオフにしたり、「少し時間はかかってもいいから、より深く考えてほしい」場合は思考に使うトークン数を増やしたり、あるいはモデルに状況に応じて思考量を動的に調整させたりできます。これにより、アプリケーションの要件(応答速度、精度、コスト)に応じて、品質、レイテンシ、コストの最適なバランスを細かく調整できます。
2. 主力モデルとしての位置づけ
Flash は、その速度と効率性から、広範なユースケースに対応する主力モデルとして期待されています。100 万トークンのコンテキストウィンドウを持ち、マルチモーダル理解、推論、コーディングなど、多くのタスクで優れたパフォーマンスを発揮します。特に、チャットボットやリアルタイム性が求められるアプリケーションに適しています。
ライブ API
ライブ API は、リアルタイムでの双方向ストリーミング通信を可能にする API です。従来の API が「ユーザーが話し終わる→AIが処理→AIが応答」というターン制だったのに対し、ライブ API では、ユーザーが話している途中でも AI が理解を始めて応答を開始したり、逆に AI の応答中にユーザーが割り込んで質問を変えたりといった、より人間同士の自然な会話に近いインタラクションを実現します。これにより、待ち時間が少なく、スムーズな対話が可能になります。
モデル開発の舞台裏
セッションでは、Gemini モデル開発の裏側についても触れられました。
1. 評価駆動開発
モデル開発は、評価 (Evaluation) を中心とした継続的な反復プロセスです。まず「どのような応答が良い結果と言えるか」を定義する評価基準や評価データセットを作成し、それに基づいてモデルの性能を測定し、改善(ヒルクライミング)を繰り返します。これは、ユーザー自身が自社のユースケースに最適なモデルを選定したり、チューニングしたりする際にも重要な考え方となります。
2. フィードバックループ
顧客からの実際の利用データやフィードバック (例: 「このプロンプトでは期待通りの結果が得られない」) は、評価基準の見直しや新たな評価データセット、チューニング用データの作成に繋がり、モデル改善のための重要なインプットとなります。
3. マルチモーダル評価の課題
テキストベースのタスク(要約、翻訳など)の評価手法は比較的確立されていますが、マルチモーダル(特に画面共有やリアルタイム音声対話のような複雑なインタラクション)の評価はまだ発展途上です。「良い応答」を客観的に定義し、評価するためのゴールデンデータセットを構築することが大きな課題となっています。Google では、単純な正誤判定だけでなく、応答の流暢さ、関連性、安全性など、複数の側面から評価する多次元的なアプローチへと移行しているとのことです。
おわりに
Gemini 2.5 Pro/Flashの登場で、生成 AI アプリケーションは更なるレベルへ進んでいることを実感しました。
今回の Next'25 では、単に性能の高いモデルを提供するだけでなく、評価駆動開発やフィードバックループの重要性を強調していることも印象的でした。これは、AI 技術が成熟していく過程で、技術だけでなく、その活用方法や評価手法も同時に進化していっていることを示していると感じます。
皆様のビジネスやプロジェクトにどのように取り入れていくか、ぜひ検討してみてください。
Discussion