【Gemini】Deep ResearchとGemini 2.0 Flash、Stream Realtime
はじめに
現地時間2024年12月11日、GoogleからGeminiについて発表がありました。
端的にいうと、下記3点でした。
- Deep Research (NotebookLMとPerplexityを掛け合わせたイメージ?)
- Gemini 2.0 Flash (1.5 Proより高いパフォーマンス)
- Real Stream (Advanced voiceモード+カメラ、画面共有できる)
Deep Research
概要
Deep Researchはユーザに変わり、複雑なトピックを調べてレポートを作成する機能です。
レポートはワンクリックでGoogle Docに変換できます。
複雑なトピックを掘り下げて、関連するソースへのリンクを含むレポートを作成できそうです。
PerplexityやGenspark、Feloは自動的にリサーチプランを作ってそのままWebを検索していきましたが、事前に編集できるのは柔軟性があって良いですね。
リサーチ対象は、LLMが持つナレッジ以外にもWeb検索も含まれています。
現状、レポート作成まで2,3分時間を要するようですが、速度は今後改善していくと予想しています。
検索AIはPerplexity、GenSpark、Feloとありますが、新しい選択肢が増えそうです。
いつから使えるか?
2024年12月12日時点では、下記条件で使用できるようにです。
ただ、少なくとも私のアカウントではまだ使えるようになっていません。
段階的にリリースされているようで、現時点で使えないユーザがいるようなので、ちょい待ちですかね。
- GeminiのWeb App上
- 英語モード
- Gemini Advancedユーザ
Gemini 2.0 Flash
Gemini 2.0 Flashは現時点で早期レビュー版ですが、全てのGeminiユーザが使えるようになっています。
Gemini 2.0 Flashは1.5 Proを上回るベンチマークを達成しているそうです。
また、これまでマルチモーダル(画像や音声など)をインプットすることができましたが、画像生成や多言語音声出力もサポートしていくそうです。
吉田のGoogleアカウントでも使えるようになっています。
Stream Realtime
加えて、マルチモーダルAPIがリリースされたようで「リアルタイム音声」「ビデオストリーミング」ができるようになりました。
Google AI Studioにアクセスして左の「Stream Realtime」で使えます。
印象としては、OpenAIのAdvanced Voice Modeと同じレベルの返答速度でした。日本語の音声が若干なまっていましたが、今後改善されるはず。
音声だけではなく、「ビデオストリーミング」によりビデオ通話しながらGeminiと話せるので、ビデオに映った情報を使って会話もできそうです。
あと、「デスクトップ共有」もできましたね。自分のPCをデスクトップ共有しながら、Geminiと話せました。PC操作しながら困ったことがあったらGeminiと相談しながら課題解決できるようになりそう。
さいごに
いかがでしたが、Deep Researchは残念ながらまだ使えなかったものの、Gemini 2.0についてはいくつか使ってみました。Deep Researchも使えるようになり次第試してみようと思います!
Discussion