🗒️

ChatGPTに音声ファイルの書き起こしをさせる

2025/02/14に公開

とりあえずやってみる

OpenAIのプレイグラウンドにアクセスして、Chatのタブからgpt-4o-audio-previewのモデルを選択する。
https://platform.openai.com/playground/chat?models=gpt-4o

現状では、音声ファイルをそのまま読み込ませられるのはこのモデルと、同型のminiのみ。
一応WEB版のChatGPTでも音声ファイルは送れるが、以下のようにPythonコードを生成して処理しようとするため、純粋に生成AIに音声を認識させることができない。

また、RealtimeAPIも登場しているが、こちらは入力がマイクを使った音声入力のみとなるため、直接音声ファイルをアップロードすることは難しい。

ということで最初に挙げた方法で試してみる。

プロンプト

受け取った音声ファイルを、一語一句正確に日本語で文字起こししてください。

場合によってうまくいかない時もあるが、何度か試すとうまく文字起こししてくれる。
聞こえずらい箇所は、うまく省略・補完されていた。また、音声ファイルの時間が長すぎると、途中でカットされてしまうので、実装する際はなるべく分割して送るのが良さそう。

とりあえずやってみる

Discussion