Open4
Whisperを触ってみた

Google Colabで触るには以下の記事を参照

基本的なコード
基本はこれで十分
import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])
メインとなるのはtranscribe
メソッドで、うまく行かない場合はこのパラメータを調整する。
モデルはtiny, base, small,medium, largeがある。largeは精度高いが処理に時間がかかる。

やってみてうまく行かなかったこと
なぜか同じ文章が2度繰り返して出力される現象が発生した(モデルに関わらず発生)。
この際、以下の通りにtranscribe
メソッドのパラメータをいじるとキレイに出力された。
compression_ratio_threshhold=2.0 <- defaultは2.4
no_speech_threshold=0.5 <- defaultは0.6
対談形式で音質もそれほど高くない状況だったので、音声認識部分を厳しく設定することでキレイに出力された?????