「Speechmatics」のリアルタイム文字起こしを試す
ちらほら名前は見かけてたけど試してなかった。以下のRedditスレでちょっと興味が出てきた。
公式サイト。ざっと見る限り、Speech-to-Text APIが中心で、プラスそれを使った音声エージェントAPI、というのが主要サービスに思える。。
以下に対応言語が載っているが、日本語もサポートされている様子。
Speech-to-Text APIは、ファイルからのバッチ文字起こしとリアルタイムストリーミングに対応しているようで、その他、翻訳・話者識別・感情分析・単語レベルのタイムスタンプ・カスタム辞書・非言語音声イベントなどの機能もある。多分リアルタイムの方だと思うけどこちらは500ms未満の高速文字起こしを謳っている様子。
価格。一応無料プランはあって月480時間分は付与される様子。有償プランは$0.24 / 1時間が基本(バッチの場合)で、リアルタイムやその他の機能ごとに料金が異なる、という感じ。ざっと他と比較してみた感じだと、OpenAI WhisperやScribeよりちょっと安いぐらいの位置づけ、つまり最安クラスと考えて良さそう。
余談
なお、自分が過去試したASRサービスの印象。というかこのあたりが自分の中で評価の基準になっていて、だいたいこれらの印象と比較してる。また、特にリアルタイムストリーミングができるものをよく調べている。
- 精度
- ElevenLabs Scribe
- 今でも最も精度が高いという印象を持っている
- 料金も安い方
- ただしバッチのみでリアルタイムストリーミングに対応していない・・・(速く対応してほしい)
- ElevenLabs Scribe
- レイテンシー
- 前提
- 基本的に、前提として精度は バッチ>リアルタイム の認識
- リアルタイムの場合、中間認識→最終認識となるものが多い。なので、発話から最終認識までを基本的にはレイテンシーとして考える。
- ただし、認識結果のレスポンスもいろいろ
- 中間は速いが精度が悪い、中間が後で書き換わる
- 中間は速いが最終が遅い
- 中間が返されず最終のみ、など。
- この形式やタイミングの違いによって、実際の実装ではいろいろ変わってくる印象。
- 一応、タイムスタンプつけて確認するけども、中間の結果とかで結構印象に左右されやすい感もある
- Cartesia Ink-Whisper
- 元々は非常に高速なText-to-Speechがウリのベンダーが、新たにSpeech−to−Textに対応した
- 中間認識を返さないタイプ。中間認識も活用したい場合は別のやり方と併用する必要がある(VADととか)
- TTS同様、リアルタイムの中では最もクイックに認識結果を返す印象
- 精度は悪くない
- 料金計算がちと面倒でやってない
- Soniox
- 中間の精度が高くて速い、最終になってもほぼほぼ書き換わることがない印象
- 逆に最終認識が結構遅くて、かつインクリメンタルに返ってくるので、ちょっと使いにくそう
- こちらも精度は悪くない印象
- 自分が見た中ではおそらく最安
- 前提
なお、最近のものを見ていると価格がどんどん下がっているので、昔からあるクラウドサービスの老舗STTの料金を見ると高いなーと改めて感じるけど、サービスも安定していて情報も多かったりするし、完全従量課金なので無駄はない。
逆に最近のものは、段階的プラン+従量課金みたいなのが多くて、なにげに同時接続数の制約が結構強め。サービスで使う場合はこれをクリアする必要があって、スケールによりけりだけども結局高い有料プランに入らないといけない、みたいなことになりそうな気はする。まあ実際にそんな同時接続が起きるかはわからないのだけども。
まあいろいろ悩ましいところ。