👂

DockerでWhisper(音声認識&文字起こし)を動かす

2023/02/11に公開

はじめに

DockerでWhisper(音声認識&文字起こし)環境を作成します。
ここでは、Webサービスとして使用できる「Whisper ASR Webservice」を作成します。

以下のサイトを参考にしました。(onerahmet/openai-whisper-asr-webservice)
https://hub.docker.com/r/onerahmet/openai-whisper-asr-webservice

Dockerでコンテナの作成、実行をする。

ターミナルから以下のコマンドを実行します。
[CPU版]

docker run -d -p 9000:9000 -e ASR_MODEL=large onerahmet/openai-whisper-asr-webservice:latest

[GPU版]

docker run -d --gpus all -p 9000:9000 -e ASR_MODEL=large onerahmet/openai-whisper-asr-webservice:latest-gpu

ASR_MODELs はtiny, base, small, medium, largeなどから選べるようですが、largeが認識率が高そうなので、上記のコマンドではlargeを入力しています。

ブラウザから以下のアドレスを入力する。

http://localhost:9000

以下の画面が表示されれば成功です。

使い方

/asr Transcribeと書かれた四角の右側の[v]をクリックします。


パラメータが表示されるので、右側の[Trt it out]をクリックします。

とりあえず動くを確認したい場合は、以下の設定にすれば大丈夫かと思います。
task・・・[ranscribe]を選択
languwage ・・・[ja](日本語)を選択
output・・・[txt]を選択(テキスト方式で出力)
audio_file・・・「ファイルを選択」をクリック後mp3ファイルなどを選択
設定が終わったら[Execute]をクリックします。

結果が出るまで結構かかります(CPU版の場合)

[Download file]をクリックし、作成したテキストデータをダウンロードします。

ダウンロードしたファイル(txt)に、変換後のテキストが保存されます。

Discussion