👂

DockerでWhisper(音声認識&文字起こし)を動かす

2023/02/11に公開

Docker

Whisper

tech

はじめに

DockerでWhisper(音声認識＆文字起こし）環境を作成します。
ここでは、Webサービスとして使用できる「Whisper ASR Webservice」を作成します。

以下のサイトを参考にしました。（onerahmet/openai-whisper-asr-webservice）

Dockerでコンテナの作成、実行をする。

ターミナルから以下のコマンドを実行します。
[CPU版]

docker run -d -p 9000:9000 -e ASR_MODEL=large onerahmet/openai-whisper-asr-webservice:latest

[GPU版]

docker run -d --gpus all -p 9000:9000 -e ASR_MODEL=large onerahmet/openai-whisper-asr-webservice:latest-gpu

ASR_MODELs はtiny, base, small, medium, largeなどから選べるようですが、largeが認識率が高そうなので、上記のコマンドではlargeを入力しています。

ブラウザから以下のアドレスを入力する。

http://localhost:9000

以下の画面が表示されれば成功です。

使い方

/asr Transcribeと書かれた四角の右側の[ｖ]をクリックします。

パラメータが表示されるので、右側の[Trt it out]をクリックします。

とりあえず動くを確認したい場合は、以下の設定にすれば大丈夫かと思います。
task・・・[ranscribe]を選択
languwage ・・・[ja]（日本語）を選択
output・・・[txt]を選択（テキスト方式で出力）
audio_file・・・「ファイルを選択」をクリック後mp3ファイルなどを選択
設定が終わったら[Execute]をクリックします。

結果が出るまで結構かかります（CPU版の場合）

[Download file]をクリックし、作成したテキストデータをダウンロードします。

ダウンロードしたファイル(txt)に、変換後のテキストが保存されます。

はじめに

Dockerでコンテナの作成、実行をする。

ブラウザから以下のアドレスを入力する。

使い方

Discussion