😸

【Whisper】Pythonで音声を文字に書きだしてみよう!

2023/05/23に公開

Whisper

Whisperとは、OpenAIが開発している汎用的な音声認識モデルです。
https://github.com/openai/whisper

Web上から収集した68万時間におよぶ音声データで学習され、音声翻訳や言語識別だけでなく、多言語音声認識を行うことができるマルチタスクモデルでもあるモデルになります。
Whisperを用いることで、音声からの文字起こしと音声からの翻訳処理を行えます。

日本語の単語誤り率(WER/Word Error Rate)は6.4%とグラフに記載があります。
この数値は、Whisperが対応している他の言語と比較しても、上位に位置しており、高い精度で文字起こしが可能だと解釈できそうです。

また、5つのモデルサイズが提供されており、今回の記事では「base」「small」「large」の3種類を利用してみます。
一番小さいサイズが「tiny」で一番大きい「large」になるほど精度が高くなります。

この記事では、実際にPythonで文字起こしをしてみたので、記事にまとめてみました。

Whisperで文字起こしする環境の準備

ソースだけ見たい方はこちら(セットアップの手順も記載しました)
https://github.com/taaaaakahiro/python_whisper_openai

Whisperで文字起こし

記述するコードはたったこれだけ。

import whisper

model = whisper.load_model("tiny")
result = model.transcribe("example.mp3")
print(result["text"])

TOEFLのリスニング音源を使ってみました。

今後は、あらゆる場面で音声認識の活用が期待できそうです。
直近では、オンラインMTGの音声を書き起こしなどに活用できそうだと感じました。

特徴

  • WhisperはOpenAIが開発した音声認識モデルであり、多言語音声認識や音声翻訳などのタスクを処理できる。
  • Whisperを使用することで、音声からの文字起こしや翻訳が可能。
  • Whisperのモデルサイズは複数あり、サイズが大きくなるほど精度が向上。
  • 日本語の単語誤り率は6.4%。
  • 記事ではWhisperの環境構築と音声ファイルの文字起こし手法が説明されている。
  • AI Academy BootcampはAIの基礎から機械学習技術を学べるプログラムである。

Discussion