💭

Twitch配信画面に音声認識の字幕と翻訳字幕を出した話

2022/08/31に公開

環境

  • Windows 10 Pro
  • Visual studio code
  • python 3.9.13

音声認識

翻訳

流れ

  1. voskで音声認識
  2. deeplで翻訳
  3. 1行目に認識した文字列、2行目に翻訳した文字列をテキストファイルに書き出し

voskの日本語モデルデータは約1GBの大きい方を使った。
少しでも認識精度を上げるために。(劇的に変わったわけじゃないないけど・・・)

vosk公式から飛んだgithubリポジトリのソースコードから、
test_microphone.pyを編集・実行させた。
モデルデータを直接指定した場合、
どこにダウンロードされるかわからなかったけど、
ログを見てたら、どうやらPythonのローカルフォルダに自動でダウンロードしてくれてた。
model_name="unntarakanntara_ja_2.00"

テキストファイルならOBS側でフォントも色も変更できるから柔軟性もあるし、
なによりアンチエイリアスかかるから文字がきれい。
心置きなく全画面表示のゲームしながら翻訳字幕出せるのは個人的にかなり嬉しい。
ブラウザを使用しないので取り込みミスの事故も無い。
自分的にはかなり満足度の高いものを作ることが出来た。

コードは今度。

あとがき

最初はelectronに表示させればいいかと思っていたけれど、
結局全画面表示で何かしてると更新してくれないし、
ブラウザの画面取り込みしてるのは変わらないから、
OBSで取り込むんだからテキストファイルに書き出してとりこめば良いじゃん。
と、なった。

Discussion