🍉

GenU の「音声チャット」を試す

に公開

AWS GenU 機能紹介 目次

  1. チャット
  2. 音声チャット
  3. 文章生成
  4. 要約
  5. 執筆
  6. 翻訳
  7. Web コンテンツ抽出
  8. 画像生成
  9. 動画生成
  10. 映像分析
  11. ダイアグラム生成
  12. 音声認識

はじめに

プログデンスの圓佛です。 AWS が公開している生成 AI アプリケーションのサンプルである GenU (Generative AI Use Cases) のうち、この記事では「音声チャット」機能について説明します。

現時点では「英語」「Nova Sonic」のみ、対応

現時点で音声チャット機能は以下の制限があります。

  1. 対応言語は英語のみ
  2. 対応 LLM は Nova Sonic のみ

対応言語については GenU の音声チャット機能画面にも以下のような注意文が表示されています。

音声チャットはまだ実験的な段階です。アーキテクチャ等は今後変更される可能性があります。会話履歴は保存されません。対応言語は英語のみです。

image

Nova Sonic については Amazon Nova 基盤モデル で以下のように紹介されています。

Amazon Nova Sonic は、業界をリードするコストパフォーマンスで、人間のようなリアルタイムの音声会話を実現する最先端の音声理解および生成モデルです。このモデルは、スムーズな対話と話者交替、低レイテンシーのマルチターン会話、関数呼び出し、RAG とエンタープライズデータを利用した知識グラウンディングをサポートします。Amazon Nova Sonic は、男性的な声と女性的な声の両方を含む、表現力豊かな声をサポートします。

最大トークン: 300k

言語: 英語 (アメリカ英語とイギリス英語のアクセントを含む)。近日中に、より多くの言語に対応予定です。

英語で音声チャットを試してみる

音声チャットを開始するには セッションを始める をクリックします。

image

しばらくすると音声入力待ち状態になります。 今回はマイクへ What is the highest mountain in the world? と発声して、プロンプトを入力してみました。

image

すると生成 AI から以下の回答が得られました。 文字の表示と共に、音声で回答文を読み上げてくれます。 質問を継続したい場合はそのまま、マイクへ発声してプロンプト入力を続けます。 終了したい場合は セッションを終了する をクリックします。

image

(敢えて) 日本語で音声チャットを試してみる

冒頭に記載した通り、現時点で音声チャット機能は「対応言語は英語のみ」です。 ですが敢えて日本語でマイクへ「世界で最も高い山は?」と発声してプロンプト入力してみたところ、生成 AI から以下の回答を得られました。 "Sekai de mottomo takai yama wa" translates to "The highest mountain in the world" in English. と回答していますので、「日本語で質問された」ことは理解しているようです。

image

株式会社プログデンス
設定によりコメント欄が無効化されています