🗒️
ChatGPTに音声ファイルの書き起こしをさせる
とりあえずやってみる
OpenAIのプレイグラウンドにアクセスして、Chatのタブからgpt-4o-audio-previewのモデルを選択する。
https://platform.openai.com/playground/chat?models=gpt-4o
現状では、音声ファイルをそのまま読み込ませられるのはこのモデルと、同型のminiのみ。
一応WEB版のChatGPTでも音声ファイルは送れるが、以下のようにPythonコードを生成して処理しようとするため、純粋に生成AIに音声を認識させることができない。
また、RealtimeAPIも登場しているが、こちらは入力がマイクを使った音声入力のみとなるため、直接音声ファイルをアップロードすることは難しい。
ということで最初に挙げた方法で試してみる。
プロンプト
受け取った音声ファイルを、一語一句正確に日本語で文字起こししてください。
場合によってうまくいかない時もあるが、何度か試すとうまく文字起こししてくれる。
聞こえずらい箇所は、うまく省略・補完されていた。また、音声ファイルの時間が長すぎると、途中でカットされてしまうので、実装する際はなるべく分割して送るのが良さそう。
Discussion