Open4

Whisperを触ってみた

enpolioenpolio

基本的なコード

基本はこれで十分

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

メインとなるのはtranscribeメソッドで、うまく行かない場合はこのパラメータを調整する。

モデルはtiny, base, small,medium, largeがある。largeは精度高いが処理に時間がかかる。

enpolioenpolio

やってみてうまく行かなかったこと

なぜか同じ文章が2度繰り返して出力される現象が発生した(モデルに関わらず発生)。
この際、以下の通りにtranscribeメソッドのパラメータをいじるとキレイに出力された。

compression_ratio_threshhold=2.0 <- defaultは2.4
no_speech_threshold=0.5 <- defaultは0.6

対談形式で音質もそれほど高くない状況だったので、音声認識部分を厳しく設定することでキレイに出力された?????