💬

Docker＋WSL＋GPUでWhisperを動かしてみる

2022/10/31に公開

はじめに

OpenAIより公開されている翻訳AIであるWhisperをDocker+WSL+GPUで動かしてみたので備忘録。
https://openai.com/blog/whisper/
※WSL＋Docker環境でのGPU有効化はすでに可能なものとする。もし必要だったらコメントください。
全体の流れは以下の記事を参考にさせていただきました。

そもそもWhisperとは？

こちらの記事が非常に細かく解説されており参考になりました。

個人的に重要かなと思った点のみ纏めると、

OpenAIより提供されている翻訳モデル
日本語対応
MITライセンスなので無料で使える
音声の言語認識や区間の検出ができるらしい
精度がかなり良いらしい

環境

Windows11
WSL2
docker
nvidia-docker2
RTX 3060

個人的にwin11+wsl+docker環境はかなり使えるのでお気に入り

HowTo

リポジトリはこちら
https://github.com/Gyabi/whisper_demo

本リポジトリのクローン

git clone https://github.com/Gyabi/whisper_demo.git

参照するDockerImageをローカルに落とす。

docker pull nvcr.io/nvidia/pytorch:22.09-py3

docker imageのビルド

cd whisper
docker compose build

コンテナの起動

docker compose run whisper

サンプル実行

python code/main.py

結果

modelはlargeで実行

完璧な性能。実行時間はそこそこかかったが無料でこの精度の翻訳モデルを使えるのは相当やばい

はじめに

そもそもWhisperとは？

環境

HowTo

結果

Discussion