😃

【Gemini】Deep ResearchとGemini 2.0 Flash、Stream Realtime

2024/12/12に公開

はじめに

現地時間2024年12月11日、GoogleからGeminiについて発表がありました。
https://blog.google/products/gemini/google-gemini-deep-research/

端的にいうと、下記3点でした。

  • Deep Research (NotebookLMとPerplexityを掛け合わせたイメージ?)
  • Gemini 2.0 Flash (1.5 Proより高いパフォーマンス)
  • Real Stream (Advanced voiceモード+カメラ、画面共有できる)

Deep Research

概要

Deep Researchはユーザに変わり、複雑なトピックを調べてレポートを作成する機能です。
レポートはワンクリックでGoogle Docに変換できます。

複雑なトピックを掘り下げて、関連するソースへのリンクを含むレポートを作成できそうです。
https://x.com/sundarpichai/status/1866868489140772928
このリサーチですが実行前にリサーチプランを編集することができるようです。
PerplexityやGenspark、Feloは自動的にリサーチプランを作ってそのままWebを検索していきましたが、事前に編集できるのは柔軟性があって良いですね。
https://x.com/testingcatalog/status/1866920641720459494

リサーチ対象は、LLMが持つナレッジ以外にもWeb検索も含まれています。
現状、レポート作成まで2,3分時間を要するようですが、速度は今後改善していくと予想しています。
検索AIはPerplexity、GenSpark、Feloとありますが、新しい選択肢が増えそうです。

いつから使えるか?

2024年12月12日時点では、下記条件で使用できるようにです。
ただ、少なくとも私のアカウントではまだ使えるようになっていません。
段階的にリリースされているようで、現時点で使えないユーザがいるようなので、ちょい待ちですかね。

  • GeminiのWeb App上
  • 英語モード
  • Gemini Advancedユーザ

Gemini 2.0 Flash

Gemini 2.0 Flashは現時点で早期レビュー版ですが、全てのGeminiユーザが使えるようになっています。
Gemini 2.0 Flashは1.5 Proを上回るベンチマークを達成しているそうです。
また、これまでマルチモーダル(画像や音声など)をインプットすることができましたが、画像生成や多言語音声出力もサポートしていくそうです。
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
吉田のGoogleアカウントでも使えるようになっています。

Stream Realtime

加えて、マルチモーダルAPIがリリースされたようで「リアルタイム音声」「ビデオストリーミング」ができるようになりました。
Google AI Studioにアクセスして左の「Stream Realtime」で使えます。
https://aistudio.google.com/

印象としては、OpenAIのAdvanced Voice Modeと同じレベルの返答速度でした。日本語の音声が若干なまっていましたが、今後改善されるはず。
音声だけではなく、「ビデオストリーミング」によりビデオ通話しながらGeminiと話せるので、ビデオに映った情報を使って会話もできそうです。

あと、「デスクトップ共有」もできましたね。自分のPCをデスクトップ共有しながら、Geminiと話せました。PC操作しながら困ったことがあったらGeminiと相談しながら課題解決できるようになりそう。

さいごに

いかがでしたが、Deep Researchは残念ながらまだ使えなかったものの、Gemini 2.0についてはいくつか使ってみました。Deep Researchも使えるようになり次第試してみようと思います!

Accenture Japan (有志)

Discussion