GPT-4 に校正してもらえば文字起こしの精度はさほど重要じゃないかもしれない説
はじめに
タイトルの通りです。思いついたので簡単に検証してみました。
検証
1. 原稿作成
ChatGPT Plus に課金 (月 $20) して GPT-4 バックエンドの ChatGPT に原稿を書いてもらいました。
2. Text to Speech (読み上げ)
原稿のスタイルに合わせて以下のツールで読み上げ (mp4 ファイル化) を行いました。合成された音声は人間であれば言っていることはわかりますが、イントネーションや言葉の区切りは不自然さを感じるものでした。会員登録をするとイントネーションの調整もできるらしかったのですが、GPT-4 による文字起こしの校正能力を見たかったためそのまま使いました。また、一度に読ませられる分量が限られていたため複数回に分けて音声を合成しました。
3. Speech to Text (文字起こし)
OpenAI の Whisper で文字起こしをしました。コードはかなり簡単です。
import os
import openai
openai.api_key = os.getenv("OPENAI_API_KEY") # 事前に環境変数に設定しておく
files = ["hiroyuki-1.mp4", "hiroyuki-2.mp4", "hiroyuki-3.mp4", "hiroyuki-4.mp4"]
texts = []
for f in files:
audio_file = open("./data/" + f , "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
texts.append(transcript["text"])
audio_file.close()
for t in texts:
print(t)
生の文字起こし結果は以下のようになりました。ちょいちょいおかしなところがあります。
GTD4ってさものすごいAIなんだよね オプエアイっていうところが作ってるんだけど 自然電話処理っていう技術で すごい文章が書けるんだよ 学習データは2021年9月までのインターネットのテキストだから それ以降の情報は知らないんだけどね
でこのGTT4ってさ会話もできるし質問に答えることもできるんだよ 英語だけじゃなくて日本語もできるし他の言語も対応してるんだ それに文章書なりも得意だから例えば物語やしエッセイを書くこともできるんだよね
でもね、GTT法にも欠点があるんだよ たまに意味不明なことを言ったり、情報が古かったりすることもあるし、人間みたいに完璧じゃないんだよね だからGTT法を使うときは、ちょっと注意が必要だね
要するにGTT4はすごいけど完璧じゃないから使うときはちょっと気をつけてね そんな感じかな
4. 校正
GPT-4 に校正を行ってもらいました。今回はかなり雑な頼み方をしましたが、話されているトピックの内容を限定してあげたり、校正の方針を伝えてあげればクオリティを上げることができるかもしれません。
元の原稿と校正後のテキストを比較すると以下のとおりです。句読点や微妙な表現の違いはありますが、内容的にはほぼ完璧に直されました。
原稿
GPT-4ってさ、ものすごいAIなんだよね。オープンAIっていうところが作ってるんだけど、自然言語処理っていう技術で、すごい文章が書けるんだよ。学習データは2021年9月までのインターネットのテキストだから、それ以降の情報は知らないんだけどね。
で、このGPT-4ってさ、会話もできるし、質問に答えることもできるんだよ。英語だけじゃなくて、日本語もできるし、他の言語も対応してるんだ。それに、文章生成も得意だから、例えば物語や詩、エッセイを書くこともできるんだよね。
でもね、GPT-4にも欠点があるんだよ。たまに意味不明なこと言ったり、情報が古かったりすることもあるし、人間みたいに完璧じゃないんだよね。だから、GPT-4を使うときは、ちょっと注意が必要だね。
要するに、GPT-4はすごいけど、完璧じゃないから、使うときはちょっと気を付けてね。そんな感じかな。
校正後
GPT-4ってすごいAIなんだよね、OpenAIっていうところが作ってるんだけど、自然言語処理っていう技術で、すごい文章が書けるんだよ。学習データは2021年9月までのインターネットのテキストだから、それ以降の情報は知らないんだけどね。
で、このGPT-4ってさ、会話もできるし、質問に答えることもできるんだよ。英語だけじゃなくて日本語もできるし、他の言語も対応してるんだ。それに、文章書くのも得意だから、例えば物語やエッセイを書くこともできるんだよね。
でもね、GPT-4にも欠点があるんだよ。たまに意味不明なことを言ったり、情報が古かったりすることもあるし、人間みたいに完璧じゃないんだよね。だから、GPT-4を使うときは、ちょっと注意が必要だね。
要するに、GPT-4はすごいけど完璧じゃないから、使うときはちょっと気をつけてね。そんな感じかな。
おわりに
説立証な気がします。さすがに原型をとどめないような文字起こしの場合はどうにもなりませんが、今回試したくらいの違和感であれば GPT-4 がきれいに直してくれることがわかりました。
つまり、文字起こしの精度自体を突き詰めなくても、多少文字起こしは粗くても GPT-4 (人間の数分の一程度の時給で働いてくれる高性能な言語モデル) に校正をさせればよいという選択肢ができたわけです。
以上です。🍵
Discussion