Appleの新しい音声認識API「SpeechAnalyzer」で高速文字起こし
こんにちは!株式会社エクスプラザの@JunInaba1です。
今回の記事では、Appleの新しい音声認識API「SpeechAnalyzer」と「SpeechTranscriber」を活用したCLIツール「Yap」を使った文字起こしについて紹介します。
以下の記事を読み、Whisperより高速で、しかもローカルで完結するという点に魅力を感じて試してみたいと思いましたが、当時「macOS Tahoe」(ベータ版)をインストールする必要がありました。
当時はベータ版のmacOSを入れるのが面倒で試せずにいましたが、2025年9月16日に「macOS Tahoe」が正式リリースされたのをきっかけに、ようやく試すことができました。
SpeechAnalyzerとは
「SpeechAnalyzer」は、AppleのSpeechフレームワークに含まれる新しいAPIで、音声入力を管理し、モジュールを組み合わせて分析や文字起こしを行える仕組みです。特に「SpeechTranscriber」と組み合わせることで、音声認識(音声→テキスト変換)が可能になります。
SpeechTranscriberとは
「SpeechTranscriber」は、AppleのSpeechフレームワークに含まれる音声→テキスト変換モジュールです。
Yapを使って文字起こし
今回はSpeechAnalyzerを使って文字起こしができるCLI「Yap」を使います。
音声ファイルと動画ファイルを入力として受け取り、SRT形式[1]とTXT形式の文字起こしを出力するシンプルなコマンドラインツールです。
Yapのインストール
brew install finnvoor/tools/yap
文字起こし
1時間50分のファイルを試してみます。
yap test.mp4
40秒で完了!
次はSRT形式で文字起こしをしてみます。
SRT形式で出力
yap test.mp4 --srt
以下のように出力されます。
ここが便利
- YouTubeもワンライナーで文字起こし
yt-dlp
と組み合わせればURL直指定で抽出→即文字起こしが可能です。yt-dlp [YouTubeURL] -x --exec yap
MacWhisperとの速度比較(参考)
What stood out above all else was Yap’s speed. By harnessing SpeechAnalyzer and SpeechTranscriber on-device, the command line tool tore through the 7GB video file a full 2.2× faster than MacWhisper’s Large V3 Turbo model, with no noticeable difference in transcription quality.
SpeechAnalyzer と SpeechTranscriber をオンデバイスで活用することで、Yap が MacWhisper(Large V3 Turbo)と比べて約 2.2 倍の速度で 7GB の動画を処理しつつ、文字起こし品質に目立った差はなかった、というポイントを示しています。つまり、速度と品質の両立が期待できるという比較結果です。
まとめ
「SpeechAnalyzer」と「SpeechTranscriber」により、macOS Tahoe上で高速で文字起こしが可能になりました。
CLIツール「Yap」を使えば、音声・動画からTXTやSRT形式の字幕を簡単に生成できます。
ベータ版導入をためらっていた自分も、正式リリースをきっかけにようやく試すことができました。
-
字幕ファイルのフォーマット ↩︎

「プロダクトの力で、豊かな暮らしをつくる」をミッションに、法人向けに生成AIのPoC、コンサルティング〜開発を支援する事業を展開しております。 エンジニア募集しています。カジュアル面談応募はこちらから: herp.careers/careers/companies/explaza
Discussion