Whisperを触ってみた

インタビュー文字起こしのためにWhisperを使用した際のメモ

Ref

Google Colabで触るには以下の記事を参照

基本的なコード

基本はこれで十分

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

メインとなるのはtranscribeメソッドで、うまく行かない場合はこのパラメータを調整する。

モデルはtiny, base, small,medium, largeがある。largeは精度高いが処理に時間がかかる。

なぜか同じ文章が２度繰り返して出力される現象が発生した（モデルに関わらず発生）。
この際、以下の通りにtranscribeメソッドのパラメータをいじるとキレイに出力された。

compression_ratio_threshhold=2.0 <- defaultは2.4
no_speech_threshold=0.5 <- defaultは0.6

対談形式で音質もそれほど高くない状況だったので、音声認識部分を厳しく設定することでキレイに出力された？？？？？