Open3

「Speechmatics」のリアルタイム文字起こしを試す

kun432kun432

公式サイト。ざっと見る限り、Speech-to-Text APIが中心で、プラスそれを使った音声エージェントAPI、というのが主要サービスに思える。。

https://www.speechmatics.com/

以下に対応言語が載っているが、日本語もサポートされている様子。

https://www.speechmatics.com/product/translation

Speech-to-Text APIは、ファイルからのバッチ文字起こしとリアルタイムストリーミングに対応しているようで、その他、翻訳・話者識別・感情分析・単語レベルのタイムスタンプ・カスタム辞書・非言語音声イベントなどの機能もある。多分リアルタイムの方だと思うけどこちらは500ms未満の高速文字起こしを謳っている様子。

https://www.speechmatics.com/speech-to-text

https://www.speechmatics.com/product/real-time

価格。一応無料プランはあって月480時間分は付与される様子。有償プランは$0.24 / 1時間が基本(バッチの場合)で、リアルタイムやその他の機能ごとに料金が異なる、という感じ。ざっと他と比較してみた感じだと、OpenAI WhisperやScribeよりちょっと安いぐらいの位置づけ、つまり最安クラスと考えて良さそう。

https://www.speechmatics.com/pricing

kun432kun432

余談

なお、自分が過去試したASRサービスの印象。というかこのあたりが自分の中で評価の基準になっていて、だいたいこれらの印象と比較してる。また、特にリアルタイムストリーミングができるものをよく調べている。

  • 精度
    • ElevenLabs Scribe
      • 今でも最も精度が高いという印象を持っている
      • 料金も安い方
      • ただしバッチのみでリアルタイムストリーミングに対応していない・・・(速く対応してほしい)
  • レイテンシー
    • 前提
      • 基本的に、前提として精度は バッチ>リアルタイム の認識
      • リアルタイムの場合、中間認識→最終認識となるものが多い。なので、発話から最終認識までを基本的にはレイテンシーとして考える。
      • ただし、認識結果のレスポンスもいろいろ
        • 中間は速いが精度が悪い、中間が後で書き換わる
        • 中間は速いが最終が遅い
        • 中間が返されず最終のみ、など。
      • この形式やタイミングの違いによって、実際の実装ではいろいろ変わってくる印象。
      • 一応、タイムスタンプつけて確認するけども、中間の結果とかで結構印象に左右されやすい感もある
    • Cartesia Ink-Whisper
      • 元々は非常に高速なText-to-Speechがウリのベンダーが、新たにSpeech−to−Textに対応した
      • 中間認識を返さないタイプ。中間認識も活用したい場合は別のやり方と併用する必要がある(VADととか)
      • TTS同様、リアルタイムの中では最もクイックに認識結果を返す印象
      • 精度は悪くない
      • 料金計算がちと面倒でやってない
    • Soniox
      • 中間の精度が高くて速い、最終になってもほぼほぼ書き換わることがない印象
      • 逆に最終認識が結構遅くて、かつインクリメンタルに返ってくるので、ちょっと使いにくそう
      • こちらも精度は悪くない印象
      • 自分が見た中ではおそらく最安

なお、最近のものを見ていると価格がどんどん下がっているので、昔からあるクラウドサービスの老舗STTの料金を見ると高いなーと改めて感じるけど、サービスも安定していて情報も多かったりするし、完全従量課金なので無駄はない。

逆に最近のものは、段階的プラン+従量課金みたいなのが多くて、なにげに同時接続数の制約が結構強め。サービスで使う場合はこれをクリアする必要があって、スケールによりけりだけども結局高い有料プランに入らないといけない、みたいなことになりそうな気はする。まあ実際にそんな同時接続が起きるかはわからないのだけども。

まあいろいろ悩ましいところ。