📝

GPT-4 に校正してもらえば文字起こしの精度はさほど重要じゃないかもしれない説

2023/04/06に公開

はじめに

タイトルの通りです。思いついたので簡単に検証してみました。

検証

1. 原稿作成

ChatGPT Plus に課金 (月 $20) して GPT-4 バックエンドの ChatGPT に原稿を書いてもらいました。

2. Text to Speech (読み上げ)

原稿のスタイルに合わせて以下のツールで読み上げ (mp4 ファイル化) を行いました。合成された音声は人間であれば言っていることはわかりますが、イントネーションや言葉の区切りは不自然さを感じるものでした。会員登録をするとイントネーションの調整もできるらしかったのですが、GPT-4 による文字起こしの校正能力を見たかったためそのまま使いました。また、一度に読ませられる分量が限られていたため複数回に分けて音声を合成しました。

おしゃべりひろゆきメーカー

3. Speech to Text (文字起こし)

OpenAI の Whisper で文字起こしをしました。コードはかなり簡単です。

import os
import openai

openai.api_key = os.getenv("OPENAI_API_KEY")  # 事前に環境変数に設定しておく

files = ["hiroyuki-1.mp4", "hiroyuki-2.mp4", "hiroyuki-3.mp4", "hiroyuki-4.mp4"]
texts = []

for f in files:
    audio_file = open("./data/" + f , "rb")
    transcript = openai.Audio.transcribe("whisper-1", audio_file)
    texts.append(transcript["text"])
    audio_file.close()

for t in texts:
    print(t)

生の文字起こし結果は以下のようになりました。ちょいちょいおかしなところがあります。

GTD4ってさものすごいAIなんだよねオプエアイっていうところが作ってるんだけど自然電話処理っていう技術ですごい文章が書けるんだよ学習データは2021年9月までのインターネットのテキストだからそれ以降の情報は知らないんだけどね
でこのGTT4ってさ会話もできるし質問に答えることもできるんだよ英語だけじゃなくて日本語もできるし他の言語も対応してるんだそれに文章書なりも得意だから例えば物語やしエッセイを書くこともできるんだよね
でもね、GTT法にも欠点があるんだよたまに意味不明なことを言ったり、情報が古かったりすることもあるし、人間みたいに完璧じゃないんだよねだからGTT法を使うときは、ちょっと注意が必要だね
要するにGTT4はすごいけど完璧じゃないから使うときはちょっと気をつけてねそんな感じかな

4. 校正

GPT-4 に校正を行ってもらいました。今回はかなり雑な頼み方をしましたが、話されているトピックの内容を限定してあげたり、校正の方針を伝えてあげればクオリティを上げることができるかもしれません。

元の原稿と校正後のテキストを比較すると以下のとおりです。句読点や微妙な表現の違いはありますが、内容的にはほぼ完璧に直されました。

原稿

GPT-4ってさ、ものすごいAIなんだよね。オープンAIっていうところが作ってるんだけど、自然言語処理っていう技術で、すごい文章が書けるんだよ。学習データは2021年9月までのインターネットのテキストだから、それ以降の情報は知らないんだけどね。

で、このGPT-4ってさ、会話もできるし、質問に答えることもできるんだよ。英語だけじゃなくて、日本語もできるし、他の言語も対応してるんだ。それに、文章生成も得意だから、例えば物語や詩、エッセイを書くこともできるんだよね。

でもね、GPT-4にも欠点があるんだよ。たまに意味不明なこと言ったり、情報が古かったりすることもあるし、人間みたいに完璧じゃないんだよね。だから、GPT-4を使うときは、ちょっと注意が必要だね。

要するに、GPT-4はすごいけど、完璧じゃないから、使うときはちょっと気を付けてね。そんな感じかな。

校正後

GPT-4ってすごいAIなんだよね、OpenAIっていうところが作ってるんだけど、自然言語処理っていう技術で、すごい文章が書けるんだよ。学習データは2021年9月までのインターネットのテキストだから、それ以降の情報は知らないんだけどね。
で、このGPT-4ってさ、会話もできるし、質問に答えることもできるんだよ。英語だけじゃなくて日本語もできるし、他の言語も対応してるんだ。それに、文章書くのも得意だから、例えば物語やエッセイを書くこともできるんだよね。
でもね、GPT-4にも欠点があるんだよ。たまに意味不明なことを言ったり、情報が古かったりすることもあるし、人間みたいに完璧じゃないんだよね。だから、GPT-4を使うときは、ちょっと注意が必要だね。
要するに、GPT-4はすごいけど完璧じゃないから、使うときはちょっと気をつけてね。そんな感じかな。

おわりに

説立証な気がします。さすがに原型をとどめないような文字起こしの場合はどうにもなりませんが、今回試したくらいの違和感であれば GPT-4 がきれいに直してくれることがわかりました。
つまり、文字起こしの精度自体を突き詰めなくても、多少文字起こしは粗くても GPT-4 (人間の数分の一程度の時給で働いてくれる高性能な言語モデル) に校正をさせればよいという選択肢ができたわけです。

以上です。🍵