Google I/O 2025 Gemini・Gemma周り まとめ
公式ブログ
Geminiに要約してもらった
GoogleはGoogle I/Oにおいて、AIアプリケーション構築を強化する開発者向け製品の複数の新機能を2025年5月20日に発表しました。主な内容は以下の通りです。
Geminiモデルのアップデート
- Gemini 2.5 Flash Preview: コーディングと複雑な推論タスクの性能を強化し、速度と効率を最適化。思考サマリーを提供。Google AI StudioとVertex AIでプレビュー提供を開始し、一般提供はFlashが6月初旬、Proは後日予定。
- Gemini 2.5 Pro Preview: コスト管理と応答制御を支援する思考バジェット機能を近日提供予定。
新モデル
- Gemma 3n: スマートフォン、ラップトップ、タブレットでスムーズに動作する、高速かつ効率的なオープンマルチモーダルモデル。音声、テキスト、画像、動画を処理。Google AI StudioとGoogle AI Edgeでプレビュー提供開始。
- Gemini Diffusion: 高速なテキストモデル。既存最速モデルの5倍の速度で同等のコーディング性能を実現。アクセスはウェイトリストで受付中。
- Lyria RealTime: リアルタイムでインタラクティブに音楽を生成・制御・演奏できる実験的モデル。Gemini API経由で利用可能、Google AI Studioのスターターアプリで試用可能。
Gemmaファミリーの追加バリアント
- MedGemma: 医療テキストと画像のマルチモーダル理解に特化したオープンモデル。医療画像の分析などに活用可能。Health AI Developer Foundationsの一部として利用開始。
- SignGemma: 手話をテキストに翻訳するオープンモデル。聴覚障碍者向けアプリ開発を支援。近日公開予定。
AI開発支援ツール
- 新しいColab: 目標を指示するだけで、エラー修正やコード変換などを行うエージェント的な体験を近日提供予定。
- Gemini Code Assist: 個人向け無料AIコーディングアシスタントとGitHub向けコードレビューエージェントが一般提供開始。Gemini 2.5を搭載し、StandardおよびEnterprise向けにはVertex AIで利用可能になり次第、200万トークンのコンテキストウィンドウを提供予定。
- Firebase Studio: クラウドベースのAIワークスペース。Figmaデザインの取り込みや、アプリに必要なバックエンドの自動検出・プロビジョニング機能(順次展開)を提供。
- Jules: 非同期コーディングエージェント。バグ修正、複数タスク処理、新機能の初期構築などを実行。GitHubと連携。一般提供開始。
- Stitch: 自然言語や画像プロンプトから高品質なUIデザインと対応するフロントエンドコード(デスクトップ/モバイル向け)を生成するAIツール。CSS/HTMLやFigmaにエクスポート可能。
Gemini APIの機能拡張
- Google AI Studioアップデート: Gemini 2.5モデル、ImagenやVeoなどの生成メディアモデル、ネイティブ画像生成機能を利用可能。Gemini 2.5 Proをネイティブコードエディタに統合。
- Native Audio Output & Live API: Gemini 2.5 Flashモデルのプレビューに、プロアクティブビデオ(重要イベントの検出・記憶)、プロアクティブオーディオ(無関係な音声信号への非応答)、アフェクティブダイアログ(ユーザーのトーンに応答)の新機能を追加(順次展開)。
- Native Audio Dialogue: Gemini 2.5 Flashおよび2.5 Proのテキスト読み上げ(TTS)機能のプレビュー提供開始。音声スタイル、アクセント、ペースを制御可能。
- Asynchronous Function Calling: 長時間実行される関数やツールをバックグラウンドで呼び出し可能に。
- Computer Use API: Webブラウジングや他ソフトウェアツールを指示に基づき操作するアプリ構築用API。Trusted Tester向けに提供開始、年内に拡大予定。
- URL Context: URLからページ全体のコンテキストを取得する実験的ツール。
- Model Context Protocol (MCP): Gemini APIとSDKがMCPをサポートし、オープンソースツールの利用を容易に。
Googleは2025年5月20日、Gemini 2.5モデルシリーズのアップデートを発表しました。主な内容は以下の通りです。
Gemini 2.5 Proの進化
- WebDev ArenaでELOスコア1415を記録し首位、LMArenaの全リーダーボードでも首位を獲得。100万トークンのコンテキストウィンドウを備え、LearnLM統合により教育分野でも主要モデルとなっています。
- 実験的な強化推論モード「Deep Think」を導入。これは2025 USAMO(数学)、LiveCodeBench(コーディング)、MMMU(マルチモーダル推論、スコア84.0%)などの高難易度ベンチマークで優れた性能を示します。Deep ThinkはGemini API経由でTrusted Testerに提供開始。
- 2.5 Proの一般提供は、2.5 Flashに続き間もなく予定されています。
Gemini 2.5 Flashの改善
- 推論、マルチモーダル、コード、長文コンテキストの主要ベンチマークで性能が向上し、評価ではトークン使用量を20-30%削減。
- 開発者向けGoogle AI Studio、企業向けVertex AI、およびGeminiアプリでプレビュー提供中。2025年6月初旬に一般提供開始。
Gemini 2.5の新機能(ProおよびFlash共通)
- Native audio outputとLive APIの改善: より自然な音声対話を実現。トーン、アクセント、スタイルの制御、ツール使用、感情認識(Affective Dialogue)、背景雑音の無視(Proactive Audio)、複雑なタスクをサポートする思考能力(Thinking in the Live API)などが可能に。複数話者対応のテキスト読み上げ(TTS)は24以上の言語に対応し、記事公開日よりGemini APIで利用可能。
- Computer use: Project Marinerのコンピュータ操作機能をGemini APIとVertex AIに統合。2025年夏に開発者向けに提供拡大予定。
- セキュリティ向上: 間接プロンプトインジェクションなどの脅威に対する保護を大幅に強化。Gemini 2.5はこれまでで最も安全なモデルファミリーとなります。
開発者体験の強化
- Thought summaries: Gemini APIとVertex AIで提供。モデルの思考プロセスを整理し、理解とデバッグを容易にします。
- Thinking budgets: 2.5 Proにも拡張。モデルが応答前に思考に使用するトークン数を制御可能に。数週間以内に一般提供予定。
- MCP support: Gemini APIでModel Context Protocol (MCP) のネイティブSDKサポートを追加し、オープンソースツールとの統合を簡素化。
Googleは2025年5月20日、スマートフォン、タブレット、ラップトップなどのデバイス上で動作する、強力かつ効率的なモバイルファーストAIモデル「Gemma 3n」のプレビュー版を発表しました。このモデルは、Qualcomm Technologies、MediaTek、Samsung System LSIとの協力により開発され、次世代のGemini Nanoにも採用される共通の先進アーキテクチャを基盤としています。
Chatbot ArenaのEloスコアでは、他の主要なプロプライエタリモデルやオープンモデルと比較しても高いユーザー評価を得ています。
Gemma 3nの主な特徴と機能:
- 革新的なアーキテクチャとメモリ効率: Google DeepMindの「Per-Layer Embeddings (PLE)」技術によりRAM使用量を大幅に削減。50億および80億パラメータモデルが、それぞれ2GBおよび3GBという20億および40億パラメータモデルに匹敵する動的メモリフットプリントで動作可能です。
- オンデバイス性能と効率: Gemma 3 4Bと比較して、モバイルデバイス上で約1.5倍高速な応答速度と大幅に向上した品質を実現。KVC共有や高度なアクティベーション量子化といった技術も採用しています。
- Many-in-1 Flexibility: 「MatFormer」トレーニングにより、40億アクティブメモリフットプリントモデル内に、最先端の20億アクティブメモリフットプリントのサブモデルを内包。さらに「mix'n'match」機能を導入し、40億モデルから特定のユースケースに最適なサブモデルを動的に作成でき、品質とレイテンシのトレードオフを調整可能です(詳細は今後のテクニカルレポートで発表予定)。MMLUベンチマークでは、このmix'n'match機能(事前学習済み)のサイズに対する性能の高さが示されています。
- 拡張されたマルチモーダル理解: 音声、テキスト、画像を処理し、動画理解も大幅に強化。高品質な自動音声認識(ASR)と翻訳(音声から翻訳テキストへ)が可能です。異なるモダリティを組み合わせた入力(interleaved inputs)も理解できます(公開実装は近日予定)。
- 多言語対応の向上: 日本語、ドイツ語、韓国語、スペイン語、フランス語での性能が向上。多言語ベンチマークWMT24++ (ChrF)で50.1%を達成しています。
- プライバシーファーストとオフライン対応: ローカル実行により、ユーザープライバシーを尊重し、オフラインでも機能します。
責任ある開発:
Gemmaモデル群と同様に、Gemma 3nも厳格な安全性評価、データガバナンス、安全ポリシーに沿ったファインチューニングアライメントが行われています。プレビュー版の利用方法:
- Google AI Studio: ブラウザ上でセットアップ不要でGemma 3nを直接試用可能。テキスト入力機能を即座に利用できます。
- Google AI Edge: ローカル環境でGemma 3nを統合したい開発者向けに、ツールとライブラリを提供。テキストと画像の理解・生成機能を試用できます。
Gemma 3nは、このプレビュー提供を皮切りに、将来的にはAndroidやChromeなどの主要プラットフォームでGemini Nanoを通じて利用可能になる予定です。
モデルはHuggingFaceにすでにあるがプレビュー版らしく、テキスト入力・視覚入力のみらしい。
Native audio output、とりあえずまだドキュメントも何も見当たらない気がするので、使えるようになったら試す
ここで試した