🤖
英語音声ファイルをWhisperAPIを使用して日本語字幕データに変換する
基本機能
- 音声ファイル(WAVまたはMP3)を受け取り、OpenAI WhisperAPIを使用して文字起こしを行うCLIツール
- 入力: 音声ファイルパス、言語(デフォルト: 英語)、出力フォーマット(デフォルト: JSON)
対応フォーマット
- 入力:
.wav
、.mp3
ファイル - 出力: JSON、SRT(字幕)、VTT(Web字幕)形式
主要な処理フロー
- WAVファイルの場合、FFmpegを使用してMP3に変換
- OpenAI APIを使用して音声認識を実行
- 指定された形式(JSON/SRT/VTT)で結果を出力
- 結果を
results
ディレクトリに保存
使用例
❯ npx ts-node transcribe.ts sample.wav ja srt
🎯 音声文字起こしテスト開始
📂 テスト対象ファイル: sample.wav
WAVファイルをMP3に変換中...
実行するコマンド: ffmpeg -i "sample.wav" -c:a libmp3lame -b:a 128k -ac 1 -ar 16000 "sample.mp3"
FFmpeg warnings: ffmpeg version 7.1 Copyright (c) 2000-2024 the FFmpeg developers
built with Apple clang version 16.0.0 (clang-1600.0.26.4)
configuration: --prefix=/opt/homebrew/Cellar/ffmpeg/7.1_4 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags='-Wl,-ld_classic' --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libaribb24 --enable-libbluray --enable-libdav1d --enable-libharfbuzz --enable-libjxl --enable-libmp3lame --enable-libopus --enable-librav1e --enable-librist --enable-librubberband --enable-libsnappy --enable-libsrt --enable-libssh --enable-libsvtav1 --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvmaf --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-libspeex --enable-libsoxr --enable-libzmq --enable-libzimg --disable-libjack --disable-indev=jack --enable-videotoolbox --enable-audiotoolbox --enable-neon
libavutil 59. 39.100 / 59. 39.100
libavcodec 61. 19.100 / 61. 19.100
libavformat 61. 7.100 / 61. 7.100
libavdevice 61. 3.100 / 61. 3.100
libavfilter 10. 4.100 / 10. 4.100
libswscale 8. 3.100 / 8. 3.100
libswresample 5. 3.100 / 5. 3.100
libpostproc 58. 3.100 / 58. 3.100
[aist#0:0/pcm_s16le @ 0x12ae31a50] Guessed Channel Layout: mono
Input #0, wav, from 'sample.wav':
Metadata:
date : 2011-05-20T12:45:31-07:00
encoder : Adobe Audition 4.0.0.1815 (XMPDocOpsTemporal:2008.11.05)
Duration: 00:00:05.40, bitrate: 522 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 32000 Hz, mono, s16, 512 kb/s
Stream mapping:
Stream #0:0 -> #0:0 (pcm_s16le (native) -> mp3 (libmp3lame))
Press [q] to stop, [?] for help
Output #0, mp3, to 'scripts/test-files/sample.mp3':
Metadata:
TDRC : 2011-05-20T12:45:31-07:00
TSSE : Lavf61.7.100
Stream #0:0: Audio: mp3, 16000 Hz, mono, s16p, 128 kb/s
Metadata:
encoder : Lavc61.19.100 libmp3lame
[out#0/mp3 @ 0x12ae2e910] video:0KiB audio:86KiB subtitle:0KiB other streams:0KiB global headers:0KiB muxing overhead: 0.750411%
size= 86KiB time=00:00:05.40 bitrate= 130.7kbits/s speed= 353x
変換完了: scripts/test-files/sample.mp3
⏱️ 処理時間: 2.174s
📝 文字起こし結果:
------------------------
彼らは私を戦わずに私を獲ることはありません 私はお金のためにここにいます
🔍 SRTフォーマット:
1
00:00:00,000 --> 00:00:02,000
彼らは私を戦わずに私を獲ることはありません
2
00:00:02,000 --> 00:00:03,200
私はお金のためにここにいます
------------------------
一時ファイルを削除しました
✅ テスト完了
結果をresultsフォルダに保存しました (srt形式)
Discussion