Open2

Speech-to-Text(GCP)

さしもんさしもん

概要

Speech-to-Text API サービスに音声を送信すると、文字変換されたテキストを受け取ることができます

サービスの特徴

  • 3つの主要な音声認識方法を提供
    • 同期認識(REST・gRPC両APIに対応)
    • 非同期認識(REST・gRPC両APIに対応)
    • ストリーミング認識(gRPCのみ)

機能(音声認識)

同期認識

  • 音声ファイルをSpeech-to-Text APIに送信してデータの認識を行い、すべての音声が処理・認識されたら結果(レスポンス)を返す。同期認識リクエストは、時間が1分以内の音声データに制限される
  • リアルタイムで処理するよりも早く音声を処理する。その速度は通常30秒の音声であれば平均15秒ほどのもの。ただし音声の品質が悪い場合は、音声認識の処理が長くことがある

非同期認識

60 秒以上の長い音声ファイルを扱う場合

ストリーミング認識

マイク等で拾った音声をリアルタイムに変換する場合

参照: https://hacknote.jp/archives/46634/

実装