🙌

話題の音声認識ツールキット Vosk を試してみた

2022/05/19に公開

たまたまTLで見かけたので試してみました。結果から言うとすごく簡単、触っていておもしろかったです。

What is Vosk?

20言語以上に対応した音声認識ツールキット。言語モデルが50MBと軽く、組み込みがしやすいです。^[1]
PythonはもちろんのことNode.jsやJava, C#でも実装可能。ラズパイ/iOS/Android用のビルド、Websocketサーバまで用意されているという準備の良さです。
なおM1 Macには非対応です。
詳しくは Vosk のリファレンスで。

サンプル音声の準備

まずは音源の準備をします。フリーの素材がないかと探していたところこえやさんと言うサイトを見つけたので今回はこちらのファイルを拝借。

Voskのページをみると、しれっと以下のような記載があったのでffmpegで変換します。

When using your own audio file make sure it has the correct format - PCM 16khz 16bit mono.

ffmpeg -i sample_voice.wav -ar 16000 -ac 1 -f s16le sample_voice_16khz.wav

Let's coding

Voskはpipでのインストールが可能です。ただ私はpoetryが好きなのでそちらでインストールしてみます。
どうやらMacOSだと最新版 (0.3.38) が対応しておらずインストール時にエラーに。pipでインストールできるバージョンに落としてインストールします。（2022-05-19 執筆時点）

また言語モデルはこちらにあがっているのでDL。Zip解凍して配置します。

poetry add vosk@0.3.32
curl -O https://alphacephei.com/vosk/models/vosk-model-small-ja-0.22.zip
unzip vosk-model-small-ja-0.22.zip
mv vosk-model-small-ja-0.22/ model/

PythonモジュールはExampleがあったのでそこから落として適当に書き換えます。（引数でファイル名渡していたのを先述の音源ファイルに変えただけ。バージョンはインストールしたものに合わせています。）

main.py
# wf = wave.open(sys.argv[1], "rb")
wav = "sample_voice_16khz.wav"
wf = wave.open(wav, "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print ("Audio file must be WAV format mono PCM.")
    exit (1)