🐰

うさぎでもわかるGemini 2.5 Pro Preview 05-06の最新機能

に公開

うさぎでもわかるGemini 2.5 Pro Preview 05-06

https://youtu.be/XGeM6zLmiTE

こんにちは🐰 みなさん!Googleから最新のAIモデル「Gemini 2.5 Pro Preview 05-06」(通称:I/O Edition)がリリースされたうさ!今回はこの新しいモデルの特徴や改善点を、うさぎでもわかるように解説するうさよ。

Gemini 2.5 Pro Preview 05-06の主な機能

はじめに

2025年5月6日、Googleは「Gemini 2.5 Pro Preview 05-06」をリリースしました。これは「I/O Edition」とも呼ばれる特別バージョンで、本来は数週間後に開催されるGoogle I/Oで発表予定だったものを、開発者からの熱意に応えて前倒しでリリースしたものです。

特筆すべきは、この新バージョンがコーディング能力を大幅に強化している点です。特にフロントエンド開発とUI開発における性能が向上し、WebDev Arena Leaderboardでは現在1位の評価を獲得しています。Claude 3.7 Sonnetを上回るパフォーマンスを示していることが注目点です。

Gemini 2.5 Pro Preview 05-06の主な特徴

フロントエンド/UI開発能力の大幅向上

Gemini 2.5 Pro Preview 05-06は、特にWebフロントエンド開発において優れた能力を発揮します。デザインファイルから色、フォント、パディング、マージン、ボーダーなどのスタイルプロパティを正確に把握し、必要なCSSコードを生成できるようになりました。

開発者はもはや手動でこれらの視覚的な要素を実装する必要がなく、Gemini 2.5 Pro PreviewをIDEで使用することで、ビデオプレーヤーの追加などの新機能を既存のアプリのスタイルに合わせて自動的に実装できます。

コード変換と編集機能の改善

コードの変換(特定の目標を達成するためのコード修正)や編集機能も大幅に向上しています。開発者は既存のコードベースに対して、より複雑な変更をGemini 2.5 Pro Preview 05-06に依頼できるようになりました。

関数呼び出しの信頼性向上

前バージョンのユーザーからのフィードバックに応えて、関数呼び出しにおけるエラーの削減と呼び出しトリガー率の向上が図られています。これにより、開発者はより信頼性の高いコード生成が可能になりました。

エージェント的ワークフローの強化

複雑なタスクを自律的に処理するエージェント的なワークフローの作成能力が強化されています。これにより、開発者は複数のステップを必要とする複雑なタスクの自動化が容易になりました。

ビデオ理解能力の飛躍的向上

Gemini 2.5 Pro Previewは、VideoMMEベンチマークで84.8%という高いスコアを記録し、最先端のビデオ理解能力を持っています。この能力をコーディング能力と組み合わせることで、以前のバージョンでは不可能だった新たなワークフローが実現可能になりました。

YouTube動画からの学習アプリ自動生成

最も注目すべき新機能の一つが「Video to Learning App」です。Google AI Studioでデモンストレーションされているこの機能を使うと、単一のYouTube動画から対話型の学習アプリを作成できます。ビデオの内容を理解し、完全なUIを備えた学習アプリを生成する能力は、教育コンテンツ制作者にとって革命的なツールとなります。

従来版(03-25)との比較

ベンチマークスコアの向上

WebDev Arena Leaderboardによると、Gemini 2.5 Pro Preview 05-06は1499.95のスコアを獲得し、以前の首位だったClaude 3.7 Sonnetの1377.10を大きく上回りました。前バージョンのGemini 2.5 Pro(03-25)は1278.96でしたので、新バージョンは221ポイントもスコアを伸ばしたことになります。

これはOpenAIのGPT-4o("o3")でさえもClaude 3.7 Sonnetを上回ることができなかったことを考えると、非常に大きな進歩です。

WebDev Arena Leaderboardで1位獲得

WebDev Arena Leaderboardは、視覚的に魅力的で機能的なWebアプリケーションを生成する能力に基づいてモデルをランク付けする第三者メトリックです。Gemini 2.5 Pro Preview(05-06)は、このリーダーボードでAnthropicのClaude 3.7 Sonnetを上回って1位を獲得しました。

技術的仕様

対応ファイル形式と制限

Gemini 2.5 Pro Previewは以下のような幅広いファイル形式をサポートしています:

ビデオ

  • 最大ビデオ長(音声あり):約45分
  • 最大ビデオ長(音声なし):約1時間
  • プロンプトあたりの最大ビデオ数:10
  • サポートされるMIMEタイプ:video/x-flv, video/quicktime, video/mpeg, video/mp4, video/webm など

画像

  • プロンプトあたりの最大画像数:3,000
  • 最大画像サイズ:7 MB
  • サポートされるMIMEタイプ:image/png, image/jpeg, image/webp

ドキュメント

  • プロンプトあたりの最大ファイル数:3,000
  • ファイルあたりの最大ページ数:1,000
  • ファイルあたりの最大サイズ:50 MB
  • サポートされるMIMEタイプ:application/pdf, text/plain

APIの利用方法

開発者は、Google AI StudioまたはVertex AIのGemini APIを通じてGemini 2.5 Pro Previewを利用できます。前バージョン(03-25)のユーザーは自動的に新バージョン(05-06)にルーティングされるため、特別な操作は必要ありません。

料金

新バージョンは前バージョンと同じ価格で提供されています。これは、性能向上にもかかわらず価格が据え置かれたことを意味し、開発者にとって嬉しいニュースです。

利用方法と導入事例

Google AI Studioからのアクセス方法

個人開発者はGoogle AI Studioを通じてGemini 2.5 Pro Previewにアクセスできます。AI Studioでは、さまざまなプロンプトを試したり、APIを通じてアプリケーションを構築したりできます。

// Google AI Studioでの利用例
const genAI = new GoogleGenerativeAI(API_KEY);
const model = genAI.getGenerativeModel({ model: "gemini-2.5-pro-preview-05-06" });

const result = await model.generateContent(`
  以下のHTMLとCSSを改良して、モバイルレスポンシブでアニメーション効果のあるナビゲーションバーに変更してください:
  
  <nav>
    <ul>
      <li><a href="#">ホーム</a></li>
      <li><a href="#">製品</a></li>
      <li><a href="#">お問い合わせ</a></li>
    </ul>
  </nav>
  
  nav {
    background-color: #333;
  }
  
  nav ul {
    list-style-type: none;
    padding: 0;
  }
  
  nav li {
    display: inline;
    margin-right: 10px;
  }
  
  nav a {
    color: white;
    text-decoration: none;
  }
`);

Vertex AIでの利用

企業ユーザーはVertex AI経由でGemini 2.5 Pro Previewを利用できます。Vertex AIは、大規模なAPIリクエストや複雑なワークフローに対応したエンタープライズグレードのソリューションを提供します。

Geminiアプリでの機能

一般ユーザー向けには、Geminiアプリを通じてGemini 2.5 Pro Previewの機能にアクセスできます。特にCanvas機能などは、シングルプロンプトでインタラクティブなWebアプリを構築するのに役立ちます。

実践的ユースケース

フロントエンド開発での活用例

Gemini 2.5 Pro Previewは、フロントエンド開発で以下のような活用が可能です:

  • 完全な録音アプリの構築(波形アニメーションやレスポンシブデザインを含む)
  • コードだけでなく、ユーザー体験全体を考慮したデザイン
  • クリーンな抽象化層を持つコード設計
  • レスポンシブレイアウトの自動生成
  • アニメーションやホバーエフェクトを含む機能的なUI

ビデオコンテンツからのアプリ生成例

Gemini 2.5 Pro Previewを使ったVideo to Learning Appでは:

  • 単一のYouTube教育ビデオから完全な対話型学習プラットフォームを生成
  • ビデオコンテンツに基づいた学習構造とUIの自動作成
  • 学習者のエンゲージメントを高めるインタラクティブな要素の追加

エージェント開発への応用

複雑なタスクを自律的に処理するエージェントの開発も容易になりました:

  • 複数のシステムにまたがるワークフロー自動化
  • コード生成と実行を含む複雑なタスクの自動化
  • ビデオ理解能力を活かした高度なコンテンツ分析・処理

まとめ

Gemini 2.5 Pro Preview 05-06(I/O Edition)は、特にフロントエンド開発とビデオ理解能力において大きな進歩を遂げています。WebDev Arena Leaderboardで1位を獲得するなど、コーディング能力においては現在最も優れたAIモデルと評価されています。

Google I/Oでは、さらにこのモデルの機能や応用例が紹介される可能性が高く、開発者コミュニティからの期待も高まっています。既存のGemini 2.5 Pro(03-25)ユーザーは、追加の設定なしで自動的に新バージョンにアクセスできるため、すぐにこれらの改善された機能を試すことができます。

AIによるコード生成とフロントエンド開発の未来は、Gemini 2.5 Pro Preview 05-06によってさらに明るくなったと言えるでしょう。


参考リンク:

Discussion