💬

Docker+WSL+GPUでWhisperを動かしてみる

2022/10/30に公開約1,000字

はじめに

OpenAIより公開されている翻訳AIであるWhisperをDocker+WSL+GPUで動かしてみたので備忘録。
https://openai.com/blog/whisper/
※WSL+Docker環境でのGPU有効化はすでに可能なものとする。もし必要だったらコメントください。
全体の流れは以下の記事を参考にさせていただきました。
https://zenn.dev/kento1109/articles/d7d8f512802935

そもそもWhisperとは?

こちらの記事が非常に細かく解説されており参考になりました。
https://zenn.dev/kwashizzz/articles/ml-openai-whisper-ft
個人的に重要かなと思った点のみ纏めると、

  • OpenAIより提供されている翻訳モデル
  • 日本語対応
  • MITライセンスなので無料で使える
  • 音声の言語認識や区間の検出ができるらしい
  • 精度がかなり良いらしい

環境

  • Windows11
  • WSL2
  • docker
  • nvidia-docker2
  • RTX 3060

個人的にwin11+wsl+docker環境はかなり使えるのでお気に入り

HowTo

リポジトリはこちら
https://github.com/Gyabi/whisper_demo

本リポジトリのクローン

git clone https://github.com/Gyabi/whisper_demo.git

参照するDockerImageをローカルに落とす。

docker pull nvcr.io/nvidia/pytorch:22.09-py3

docker imageのビルド

cd whisper
docker compose build

コンテナの起動

docker compose run whisper

サンプル実行

python code/main.py

結果

modelはlargeで実行

完璧な性能。実行時間はそこそこかかったが無料でこの精度の翻訳モデルを使えるのは相当やばい

Discussion

ログインするとコメントできます