🤖

英語音声ファイルをWhisperAPIを使用して日本語字幕データに変換する

2025/01/18に公開

基本機能

音声ファイル（WAVまたはMP3）を受け取り、OpenAI WhisperAPIを使用して文字起こしを行うCLIツール
入力: 音声ファイルパス、言語（デフォルト: 英語）、出力フォーマット（デフォルト: JSON）

対応フォーマット

入力: .wav、.mp3ファイル
出力: JSON、SRT（字幕）、VTT（Web字幕）形式

主要な処理フロー

WAVファイルの場合、FFmpegを使用してMP3に変換
OpenAI APIを使用して音声認識を実行
指定された形式（JSON/SRT/VTT）で結果を出力
結果をresultsディレクトリに保存

使用例

❯ npx ts-node transcribe.ts sample.wav ja srt     
🎯 音声文字起こしテスト開始
📂 テスト対象ファイル: sample.wav
WAVファイルをMP3に変換中...
実行するコマンド: ffmpeg -i "sample.wav" -c:a libmp3lame -b:a 128k -ac 1 -ar 16000 "sample.mp3"
FFmpeg warnings: ffmpeg version 7.1 Copyright (c) 2000-2024 the FFmpeg developers
  built with Apple clang version 16.0.0 (clang-1600.0.26.4)
  configuration: --prefix=/opt/homebrew/Cellar/ffmpeg/7.1_4 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags='-Wl,-ld_classic' --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libaribb24 --enable-libbluray --enable-libdav1d --enable-libharfbuzz --enable-libjxl --enable-libmp3lame --enable-libopus --enable-librav1e --enable-librist --enable-librubberband --enable-libsnappy --enable-libsrt --enable-libssh --enable-libsvtav1 --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvmaf --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-libspeex --enable-libsoxr --enable-libzmq --enable-libzimg --disable-libjack --disable-indev=jack --enable-videotoolbox --enable-audiotoolbox --enable-neon
  libavutil      59. 39.100 / 59. 39.100
  libavcodec     61. 19.100 / 61. 19.100
  libavformat    61.  7.100 / 61.  7.100
  libavdevice    61.  3.100 / 61.  3.100
  libavfilter    10.  4.100 / 10.  4.100
  libswscale      8.  3.100 /  8.  3.100
  libswresample   5.  3.100 /  5.  3.100
  libpostproc    58.  3.100 / 58.  3.100
[aist#0:0/pcm_s16le @ 0x12ae31a50] Guessed Channel Layout: mono
Input #0, wav, from 'sample.wav':
  Metadata:
    date            : 2011-05-20T12:45:31-07:00
    encoder         : Adobe Audition 4.0.0.1815 (XMPDocOpsTemporal:2008.11.05)
  Duration: 00:00:05.40, bitrate: 522 kb/s
  Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 32000 Hz, mono, s16, 512 kb/s
Stream mapping:
  Stream #0:0 -> #0:0 (pcm_s16le (native) -> mp3 (libmp3lame))
Press [q] to stop, [?] for help
Output #0, mp3, to 'scripts/test-files/sample.mp3':
  Metadata:
    TDRC            : 2011-05-20T12:45:31-07:00
    TSSE            : Lavf61.7.100
  Stream #0:0: Audio: mp3, 16000 Hz, mono, s16p, 128 kb/s
      Metadata:
        encoder         : Lavc61.19.100 libmp3lame
[out#0/mp3 @ 0x12ae2e910] video:0KiB audio:86KiB subtitle:0KiB other streams:0KiB global headers:0KiB muxing overhead: 0.750411%
size=      86KiB time=00:00:05.40 bitrate= 130.7kbits/s speed= 353x    

変換完了: scripts/test-files/sample.mp3
⏱️ 処理時間: 2.174s

📝 文字起こし結果:
------------------------
彼らは私を戦わずに私を獲ることはありません 私はお金のためにここにいます

🔍 SRTフォーマット:
1
00:00:00,000 --> 00:00:02,000
彼らは私を戦わずに私を獲ることはありません

2
00:00:02,000 --> 00:00:03,200
私はお金のためにここにいます

------------------------
一時ファイルを削除しました

✅ テスト完了
結果をresultsフォルダに保存しました (srt形式)

基本機能

対応フォーマット

主要な処理フロー

使用例

Discussion