Open2ヶ月前にコメント追加3

「Speechmatics」のリアルタイム文字起こしを試す

TTS

asr

stt

speechmatics

kun432

ちらほら名前は見かけてたけど試してなかった。以下のRedditスレでちょっと興味が出てきた。

kun432

公式サイト。ざっと見る限り、Speech-to-Text APIが中心で、プラスそれを使った音声エージェントAPI、というのが主要サービスに思える。。
https://www.speechmatics.com/
以下に対応言語が載っているが、日本語もサポートされている様子。
https://www.speechmatics.com/product/translation
Speech-to-Text APIは、ファイルからのバッチ文字起こしとリアルタイムストリーミングに対応しているようで、その他、翻訳・話者識別・感情分析・単語レベルのタイムスタンプ・カスタム辞書・非言語音声イベントなどの機能もある。多分リアルタイムの方だと思うけどこちらは500ms未満の高速文字起こしを謳っている様子。
https://www.speechmatics.com/speech-to-text
https://www.speechmatics.com/product/real-time
価格。一応無料プランはあって月480時間分は付与される様子。有償プランは$0.24 / 1時間が基本（バッチの場合）で、リアルタイムやその他の機能ごとに料金が異なる、という感じ。ざっと他と比較してみた感じだと、OpenAI WhisperやScribeよりちょっと安いぐらいの位置づけ、つまり最安クラスと考えて良さそう。
https://www.speechmatics.com/pricing

kun432

余談
なお、自分が過去試したASRサービスの印象。というかこのあたりが自分の中で評価の基準になっていて、だいたいこれらの印象と比較してる。また、特にリアルタイムストリーミングができるものをよく調べている。
精度
ElevenLabs Scribe
今でも最も精度が高いという印象を持っている
料金も安い方
ただしバッチのみでリアルタイムストリーミングに対応していない・・・（速く対応してほしい）


レイテンシー
前提
基本的に、前提として精度は バッチ＞リアルタイム の認識
リアルタイムの場合、中間認識→最終認識となるものが多い。なので、発話から最終認識までを基本的にはレイテンシーとして考える。
ただし、認識結果のレスポンスもいろいろ
中間は速いが精度が悪い、中間が後で書き換わる
中間は速いが最終が遅い
中間が返されず最終のみ、など。

この形式やタイミングの違いによって、実際の実装ではいろいろ変わってくる印象。
一応、タイムスタンプつけて確認するけども、中間の結果とかで結構印象に左右されやすい感もある

Cartesia Ink-Whisper
元々は非常に高速なText-to-Speechがウリのベンダーが、新たにSpeech−to−Textに対応した
中間認識を返さないタイプ。中間認識も活用したい場合は別のやり方と併用する必要がある（VADととか）
TTS同様、リアルタイムの中では最もクイックに認識結果を返す印象
精度は悪くない
料金計算がちと面倒でやってない

Soniox
中間の精度が高くて速い、最終になってもほぼほぼ書き換わることがない印象
逆に最終認識が結構遅くて、かつインクリメンタルに返ってくるので、ちょっと使いにくそう
こちらも精度は悪くない印象
自分が見た中ではおそらく最安


なお、最近のものを見ていると価格がどんどん下がっているので、昔からあるクラウドサービスの老舗STTの料金を見ると高いなーと改めて感じるけど、サービスも安定していて情報も多かったりするし、完全従量課金なので無駄はない。
逆に最近のものは、段階的プラン＋従量課金みたいなのが多くて、なにげに同時接続数の制約が結構強め。サービスで使う場合はこれをクリアする必要があって、スケールによりけりだけども結局高い有料プランに入らないといけない、みたいなことになりそうな気はする。まあ実際にそんな同時接続が起きるかはわからないのだけども。
まあいろいろ悩ましいところ。