噂の Gemini Multimodal Live API を使ったサンプルアプリとは
Google から、Gemini の Multimodal Live API を WebSocket 経由で利用するための、React 製スターターキットが GitHub で提供されています。
このスターターキットには、音声ストリーミング、メディア録画、ログ表示といった機能が備わっており、Multimodal Live API を活用したアプリケーション開発のイメージをつかむのに役立つと思います。
実際にサンプルアプリケーションを動かして、機能を試してみたいと思います。
まず、Google Cloud Shell にアクセスしてください。
次に、ターミナルで以下のコマンドを実行し、サンプルアプリケーションのリポジトリをクローンします。
git clone https://github.com/google-gemini/multimodal-live-api-web-console.git
cd multimodal-live-api-web-console/
リポジトリには複数のサンプルアプリケーションが用意されています。以下のコマンドで確認してみましょう。
git branch -a
* main
remotes/origin/HEAD -> origin/main
remotes/origin/demos/genexplainer
remotes/origin/demos/genlist
remotes/origin/demos/genweather
remotes/origin/dependabot/npm_and_yarn/multi-6bc014718a
remotes/origin/dependabot/npm_and_yarn/nanoid-3.3.8
remotes/origin/main
今回は demos/genlist を試してみます。
ブランチを切り替えるには、以下のコマンドを実行します。
git checkout demos/genlist
次に、Google AI Studio で、Gemini API の無料キーを作成し、.env ファイルに追加してください。
準備が整ったら、以下のコマンドを実行してアプリケーションを起動します。
npm install
npm start
(初回起動時にエラーが発生する場合があります。その際は、もう一度起動してみてください。)
最後に、Cloud Shell の右上にある「Web でプレビュー」ボタンをクリックし、表示されたポート番号を入力すれば、サンプルアプリケーションにアクセスできます。
genlist は、todo のようなアプリです。音声に従って todo リストを作成してくれます。また、ログも作成してくれるようです。
いかがでしたでしょうか? Multimodal Live API を使ったアプリケーション開発のイメージがつかめたのであれば幸いです。
他にも様々なデモ動画が Google for Developers にあるのでみてください。
Discussion