Open3

Whisperで遊ぶ

kecykecy
  • ハードウェア
    • CPU:Intel Core i7 13700K
    • グラフィックボード:GeForce RTX 3700 (8GB)
    • メモリー:16GB(DDR4 2666MHz 8GB × 2枚)
    • マザーボード:ASUS TUF Gaming Z690-Plus WiFi D4
  • モデル:medium
  • ファイル:examples_full_usage_2830-3980-0043.wav(英語)

whisper-rs

whisper-rs-demo\target\debug\whisper-rs-demo.exe ..\examples_full_usage_2830-3980-0043.wav D:\whisper\ggml-medium.bin
  • 言語指定なし:約10秒
  • 言語指定あり:約9秒

openai-whisper(python)

cpu

 whisper examples_full_usage_2830-3980-0043.wav --model medium --device cpu--model_dir D:\whisper
 whisper examples_full_usage_2830-3980-0043.wav --language en --model medium --device cpu --model_dir D:\whisper
  • CPU・言語指定なし:約23秒
  • CPU・言語指定あり:約13秒

cuda

 whisper examples_full_usage_2830-3980-0043.wav --model medium --device cuda --model_dir D:\whisper
 whisper examples_full_usage_2830-3980-0043.wav --language en --model medium --device cuda --model_dir D:\whisper
  • 言語指定なし:約9秒
  • 言語指定あり:約10秒
kecykecy
  • モデル:medium
  • ファイル:VOICEACTRESS100_094.wav(日本語)

https://tyc.rei-yumesaki.net/material/corpus/

より拝借。

whisper-rsのサンプルコードに読ませるにあたって、16bit 16KHz モノラルでなければいけないのでffmpegで変換を行った。

 ffmpeg -i D:\audio_samples\VOICEACTRESS100_094.wav -ar 16000 -acodec pcm_s116le -ac 1 D:\audio_samples\VOICEACTRESS100_094_converted.wav

whisper-rs

target\debug\whisper-rs-demo.exe D:\audio_samples\VOICEACTRESS100_094.wav D:\whisper\ggml-medium.bin
  • 言語指定あり(debug):約14秒
  • 言語指定あり(release):約14秒(カンマ数秒こっちのほうが速い...?)

openai-whisper(python)

cpu

whisper D:\audio_samples\VOICEACTRESS100_094.wav --model medium --device cpu --model_dir D:\whisper --lang ja
  • CPU・言語指定なし:約1分37秒
  • CPU・言語指定あり:約1分22秒

cuda

whisper D:\audio_samples\VOICEACTRESS100_094.wav --model medium --device cuda --model_dir D:\whisper --language ja
  • 言語指定なし:約13秒
  • 言語指定あり:約12秒
kecykecy

メモリを16GBから64GBに増設して再度テスト。全体的に大幅にスピードが上がった

  • ハードウェア
    • CPU:Intel Core i7 13700K
    • グラフィックボード:GeForce RTX 3700 (8GB)
    • メモリー: 64GB(DDR4 3200MHz 32GB × 2枚)
    • マザーボード:ASUS TUF Gaming Z690-Plus WiFi D4
  • モデル:medium
  • ファイル:VOICEACTRESS100_094.wav(日本語)
 ffmpeg -i D:\audio_samples\VOICEACTRESS100_094.wav -ar 16000 -acodec pcm_s116le -ac 1 D:\audio_samples\VOICEACTRESS100_094_converted.wav

whisper-rs

target\debug\whisper-rs-demo.exe D:\audio_samples\VOICEACTRESS100_094.wav D:\whisper\ggml-medium.bin
  • 言語指定あり(release):約11秒

openai-whisper(python)

cpu

whisper D:\audio_samples\VOICEACTRESS100_094.wav --model medium --device cpu --model_dir D:\whisper --lang ja
  • CPU・言語指定あり:約58秒

cuda

whisper D:\audio_samples\VOICEACTRESS100_094.wav --model medium --device cuda --model_dir D:\whisper --language ja
  • 言語指定なし:約11秒