😎

whisperを利用して音声データから音声抽出翻訳する方法

2022/10/23に公開約600字

検証動画

https://www.youtube.com/watch?v=OwgkV9sELcs

はじめに

先日OpenAIから公開された多言語音声認識を行うことができるマルチタスクモデルであるWhisperを利用して音声データから音声認識、言語識別、翻訳を検証してみました。

whispaerのインストール

pip install git+https://github.com/openai/whisper.git

whisperを読み込みモデルをダウンロード

import whisper
model = whisper.load_model("large")

動画内では、「large」モデルを利用しましたが、様々なモデルが存在します。

音声認識

result = model.transcribe("音声データ", verbose=True)

引数で言語を指定しない場合は、自動で言語識別されます。
verboseでログ出力が可能です。

翻訳

result = model.transcribe("音声データ", verbose=True, task=translate)

taskでtranslateを指定することで翻訳することができます。

Discussion

ログインするとコメントできます