OpenAI APIの新しい文字起こしモデルを試してSnackWhisperに適用しました
こんにちは、本橋です。
先週はOpenAI.fmが話題でしたね。
OpenAI.fm
OpenAI.fmはgpt-4o-mini-ttsのデモサイトです。TTSというのはテキスト音声読み上げ(Text To Speech)のことで、OpenAIのAPIから使える新しいモデルの公開に伴うデモとのことです。
Text-to-Speech API (読み上げ)
デモでは、VOICE(声)とVIBE(役柄)を指定して読み上げさせることができます。日本語にも対応していて、試してみると俳優のように感情を込めて流暢に読み上げてくれます。試してみると驚きます。
今年の頭に公開された『にじボイス』は日本らしく声優風の読み上げでした。それぞれシーンに応じた使い分けができそうです。
Transcription API (文字起こし)
同時に音声の文字起こしAPIにも新しいモデルが公開されました。「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」です。(従来のモデルはwhisper-1)
最新の音声モデルの詳細新しい音声テキスト化モデル
オリジナルのWhisperモデルと比較して、単語誤り率が改善され、言語認識と精度が向上した新しいgpt-4o-transcribeとgpt-4o-mini-transcribeモデルを紹介します。 gpt-4o-transcribeは、複数の確立されたベンチマークにおいて、既存のWhisperモデルよりも向上した単語誤り率(WER)性能を示し、当社の音声テキスト化技術の大きな進歩を反映しています。gpt-4o-transcribeは、強化学習における革新的な技術と、多様で高品質な音声データセットを用いた広範な中間学習により、直接的に進化を遂げました。 その結果、これらの新しいSpeech-to-Textモデルは、音声のニュアンスをよりよく捉え、誤認識を減らし、特に訛りやノイズの多い環境、発話速度の異なる音声を含む困難なシナリオにおいて、書き起こしの信頼性を向上させることができます。これらのモデルは、音声テキストAPI(新しいウィンドウで開きます)で利用可能です。
https://openai.com/index/introducing-our-next-generation-audio-models/ より翻訳して引用
各モデルの言語別WER比較(日本語は赤枠)
上の棒グラフはWER(word error rate)の比較です。縦棒は色の濃いほうから順に gpt-4o-transcribe / gpt-4o-mini-transcribe / whisper-large-v2 / whisper-large-v3 です。これまでOpenAI APIから使えたwhisper-1はAPI専用モデルで非公開でしたので、直接の比較はできません。
新しいモデルの料金は?
文字起こしについては、従来のwhisper-1に比べて同等か安くなっています。gpt-4-o-transcribeで同じ料金、gpt-4o-mini-transcribeは半額でした。
モデル | 1分あたりの料金 |
---|---|
whisper-1 | $0.006 |
gpt-4o-transcribe | $0.006 |
gpt-4o-mini-transcribe | $0.003 |
参考: Pricing
新しいモデルではタイムライン出力などはまだ未対応のようですが、文字起こしする用途だけならgpt-4o-mini-transcribeモデルに切り替えておくとよいでしょう。
SnackWhisperでも使えるようになりました
マシンパワーを使わずにAPI経由で文字起こしをする"SnackWhisper"にも、最新バージョンでモデル選択のドロップダウンを追加して gpt-4o-transcribe を選べるようにしました。
SnackWhisperのソースコードはこちらで公開しています。
monosus/snackwhisper
Discussion