🥞

噂の Gemini Multimodal Live API を使ったサンプルアプリとは

2024/12/28に公開

Google から、Gemini の Multimodal Live API を WebSocket 経由で利用するための、React 製スターターキットが GitHub で提供されています。

このスターターキットには、音声ストリーミング、メディア録画、ログ表示といった機能が備わっており、Multimodal Live API を活用したアプリケーション開発のイメージをつかむのに役立つと思います。

実際にサンプルアプリケーションを動かして、機能を試してみたいと思います。

まず、Google Cloud Shell にアクセスしてください。

次に、ターミナルで以下のコマンドを実行し、サンプルアプリケーションのリポジトリをクローンします。

git clone https://github.com/google-gemini/multimodal-live-api-web-console.git
cd multimodal-live-api-web-console/

リポジトリには複数のサンプルアプリケーションが用意されています。以下のコマンドで確認してみましょう。

git branch -a
* main
  remotes/origin/HEAD -> origin/main
  remotes/origin/demos/genexplainer
  remotes/origin/demos/genlist
  remotes/origin/demos/genweather
  remotes/origin/dependabot/npm_and_yarn/multi-6bc014718a
  remotes/origin/dependabot/npm_and_yarn/nanoid-3.3.8
  remotes/origin/main

今回は demos/genlist を試してみます。

ブランチを切り替えるには、以下のコマンドを実行します。

git checkout demos/genlist

次に、Google AI Studio で、Gemini API の無料キーを作成し、.env ファイルに追加してください。

準備が整ったら、以下のコマンドを実行してアプリケーションを起動します。

npm install
npm start

(初回起動時にエラーが発生する場合があります。その際は、もう一度起動してみてください。)

最後に、Cloud Shell の右上にある「Web でプレビュー」ボタンをクリックし、表示されたポート番号を入力すれば、サンプルアプリケーションにアクセスできます。

genlist は、todo のようなアプリです。音声に従って todo リストを作成してくれます。また、ログも作成してくれるようです。

https://www.youtube.com/watch?v=VRCN0Hfl2Y0

いかがでしたでしょうか? Multimodal Live API を使ったアプリケーション開発のイメージがつかめたのであれば幸いです。

他にも様々なデモ動画が Google for Developers にあるのでみてください。
https://www.youtube.com/@GoogleDevelopers/videos

Discussion