👂
DockerでWhisper(音声認識&文字起こし)を動かす
はじめに
DockerでWhisper(音声認識&文字起こし)環境を作成します。
ここでは、Webサービスとして使用できる「Whisper ASR Webservice」を作成します。
以下のサイトを参考にしました。(onerahmet/openai-whisper-asr-webservice)
Dockerでコンテナの作成、実行をする。
ターミナルから以下のコマンドを実行します。
[CPU版]
docker run -d -p 9000:9000 -e ASR_MODEL=large onerahmet/openai-whisper-asr-webservice:latest
[GPU版]
docker run -d --gpus all -p 9000:9000 -e ASR_MODEL=large onerahmet/openai-whisper-asr-webservice:latest-gpu
ASR_MODELs はtiny, base, small, medium, largeなどから選べるようですが、largeが認識率が高そうなので、上記のコマンドではlargeを入力しています。
ブラウザから以下のアドレスを入力する。
以下の画面が表示されれば成功です。
使い方
/asr Transcribeと書かれた四角の右側の[v]をクリックします。
パラメータが表示されるので、右側の[Trt it out]をクリックします。
とりあえず動くを確認したい場合は、以下の設定にすれば大丈夫かと思います。
task・・・[ranscribe]を選択
languwage ・・・[ja](日本語)を選択
output・・・[txt]を選択(テキスト方式で出力)
audio_file・・・「ファイルを選択」をクリック後mp3ファイルなどを選択
設定が終わったら[Execute]をクリックします。
結果が出るまで結構かかります(CPU版の場合)
[Download file]をクリックし、作成したテキストデータをダウンロードします。
ダウンロードしたファイル(txt)に、変換後のテキストが保存されます。
Discussion