Open2
Speech-to-Text(GCP)

概要
Speech-to-Text API サービスに音声を送信すると、文字変換されたテキストを受け取ることができます
サービスの特徴
- 3つの主要な音声認識方法を提供
- 同期認識(REST・gRPC両APIに対応)
- 非同期認識(REST・gRPC両APIに対応)
- ストリーミング認識(gRPCのみ)
機能(音声認識)
同期認識
- 音声ファイルをSpeech-to-Text APIに送信してデータの認識を行い、すべての音声が処理・認識されたら結果(レスポンス)を返す。同期認識リクエストは、時間が1分以内の音声データに制限される
- リアルタイムで処理するよりも早く音声を処理する。その速度は通常30秒の音声であれば平均15秒ほどのもの。ただし音声の品質が悪い場合は、音声認識の処理が長くことがある
非同期認識
60 秒以上の長い音声ファイルを扱う場合
ストリーミング認識
マイク等で拾った音声をリアルタイムに変換する場合
参照: https://hacknote.jp/archives/46634/
実装

他の方のブログ
swiftじゃないけど特徴と実装の大まかな流れが書かれていて参考になりそう