AWSかGCP使ってSiriみたいなことできないか調査する

蔀

ミッションは

ユーザーがアプリに対して音声で命令する
音声データをアプリからパブリッククラウドに連携する
解析して、何らかの処理をする
何らかのレスポンスをユーザーに返す

蔀

何で検索したらいいのかもよくわからなかったけど、キーワードは音声認識 + Chatbotでいいのかな

蔀

Amazon Lexが良さそう

https://aws.amazon.com/jp/lex/

蔀

Amazon LexはAlexaライクなサービス。詳細な解説は下記

蔀

また、東京リージョンを使うと日本語が使えるらしい

蔀

音声データを受けて、解析するところはLexで何とかなる。
アウトプットについては、Amazon Pollyを使うと、読み上げてくれるとのこと。
日本人音声もあって、自然なイントネーションではある。

https://aws.amazon.com/jp/polly/

蔀

Lexで簡単にチャットボットがつくれることは理解できたけど、アプリから音声データをどうやって渡すんだ？
というか渡せるのか？

蔀

理想はAPI的にアプリから叩くと音声渡せるみたいなのがいいが……

蔀

Lexへの音声データ渡しがどうなるのかわからないけど、もし文字列で渡した方がよかったら、Amazon Transcribeを噛ます必要があるのかな

https://aws.amazon.com/jp/transcribe/

蔀

GCP

蔀

Dialogflow

https://cloud.google.com/dialogflow

蔀

そうそう、こういうことがやりたいんですよ

蔀

音声→テキストのサービスはSpeech-to-Text

蔀

GCPの方がDeveloperフレンドリーで、音声認識の精度は高い（という噂）っぽい。
一方AWSは情報が多いので、そこの嬉しさはあるか。

蔀

日本語対応、無料クレジットは両社ともしてそう。
強いて言えばAmazonの方がサービス良さそう。

蔀

調査終わり。
音声データ連携のところ、気が向いたらもう少し深掘りする。

蔀

音声データ連携のところ、気が向いたらもう少し深掘りする。

APIにどういう形式で音声データ渡したらいいか、そもそも渡せなくてテキストに変換する必要があるのかをもうちょっと調べます

蔀

DialogflowのAPI仕様は見つけた。
APIリファレンス > Sessions 型 > detectIntent > QueryInputとネストが深かった

蔀

テキストはもちろん可能で、その他にインテントクエリ、自然言語の音声データ、トリガーされたイベントが指定可能。
インテントクエリとトリガーされたイベントは具体的に何指してるのかわからないが、何かしらGCPコンソールで設定して、そのIDを指定することになるのかな？

Represents the query input. It can contain one of:

A conversational query in the form of text.
An intent query that specifies which intent to trigger.
Natural language speech audio to be processed.
An event to be triggered.

蔀

音声データを渡している事例がググっても出てこないなあ

蔀

ちょっと古い記事（2018）だけどわかりやすい

蔀

Amazon Lexも音声データを送信可能だった。
このチュートリアルを見た。

AudioInputEvent, TextInputEvent, DTMFInputEventがあるそう。
DTMFってなんだ