🧠

【OpenAIの最新論文】賢くないLLMによって「正確でわかりやすい回答」を生成する方法

2024/07/20に公開

はじめまして、ますみです!

株式会社Galirage(ガリレージ)という「生成AIに特化して、システム開発・アドバイザリー支援・研修支援をしているIT企業」で、代表をしております^^

自己紹介.png

この記事では、私が考える「賢くないLLMによって『正確でわかりやすい回答』を生成する方法」を解説します。

まとめ:「モデルの性能」と「解決策(回答)の理解しやすさ」の両立を実現する方法を発見

  • まず「モデルの性能」と「解決策(回答)の理解しやすさ」はトレードオフの関係にあることがわかりました。
  • このトレードオフの関係に対して、対処する方法(モデルの性能を維持しながら、理解しやすい回答を生成する方法)を編み出しました。
  • 手法論としてまず次の3つのLLMを用意して、学習を繰り返します。
    • モデル1:説得力のある正しい答えを生成しようとする賢いLLM(有用な証明者、helpful prover)
    • モデル2:説得力のある誤った答えを生成して騙そうとする賢いLLM(巧妙な証明者、sneaky prover)
    • モデル3:照明の内容が正しいかを評価する賢くないLLM
  • この方法により、モデル1が「正確でわかりやすい回答」を生成するようになりました。

前提:「モデルの性能」と「解決策(回答)の理解しやすさ」の間のトレードオフの関係

まず「モデルの性能」と「解決策(回答)の理解しやすさ」はトレードオフの関係にあることがわかりました。
別の言い方をすると、わかりやすい回答にしようとするほど、正確性が落ちてしまうということです。

これは、教育の現場でもよくあるため、著者の感覚としても、非常に納得感があります。
例えば、「正確には、少し違うんだけど、簡単にいうとChatGPTは、文章(指示文)から文章(回答)を生成するAIです。正確には、画像を入力できたりもします。」という表現をする場合が該当します。

下記の図では、横軸に正確性(モデルによる性能)、縦軸に可読性(人が読んだ時のわかりやすさ、legibility)を示す。


論文より引用

この論文では、「チェック可能性トレーニング(Checkability Training)」という手法を使うことで、このトレードオフの関係(legibility tax)をどれだけ解消できるかを検証しました。

手法:チェック可能性トレーニング(Checkability Training)とは?

ここから、この論文における重要な概念である「チェック可能性トレーニング(Checkability Training)」について説明します。

1. 訓練の準備

まず、たくさんの数学の問題とその答えを集めます。この問題と答えのセットを「データセット」と呼びます。
そして、「証明者(prover)」と「検証者(verifier)」という2つのAIを訓練します。

証明者は問題を解いて答えを出し、検証者はその答えが正しいかどうかをチェックします。

2. 訓練の流れ

訓練は何回かのラウンドに分かれています。

各ラウンドでは、まず検証者を訓練し、その後で証明者を訓練します。
ラウンドごとに使うデータセットは同じですが、少しずつ内容を変えながら訓練します。

3. 検証者の訓練

検証者は正しい答えと間違った答えを比べて、どれが正しいかを学びます。
これを「相対的な損失(relative loss)」と呼びます。

検証者は、正しい答えを高く評価し、間違った答えを低く評価するように学習します。

4. 証明者の訓練

証明者は、問題を解いて答えを出す役割を担っています。

そして、証明者には「有用な証明者(helpful prover)」と「巧妙な証明者(sneaky prover)」の2つの役割があります。

有用な証明者は正しい答えを出そうとし、巧妙な証明者は間違った答えを出して検証者をだまそうとします。

5. 報酬の種類

証明者の訓練には3つの異なる報酬の与え方があります:

  • 相対的な説得力報酬(SRC:Signed Relative Convincingness):この報酬では、証明者の答えが正しいかどうかと、その答えがどれだけ説得力があるかを評価します。正しい答えで説得力がある場合、高い報酬を与えます。すなわち、「正しさ」と「説得力」の両方を重視します。
  • 正確性ゲート付き説得力報酬(CGC:Correctness-Gated Convincingness):この報酬では、正しい答えの場合にのみ高い報酬を与えます。間違った答えの場合は低い報酬を与えます。すなわち、「正しさ」だけを重視します。
  • グッドハート報酬(Goodharting Reward):この報酬では、答えがどれだけ説得力があるかだけを評価します。正しいかどうかは関係ありません。すなわち、「説得力」だけを重視します。

6. トレーニングの進行

各ラウンドで検証者と証明者を訓練し、次のラウンドでは前のラウンドの結果を使ってさらに良いモデルを作ります。

上記の3つのLLMは、適切な報酬を与える系の中で、学習を進めます。

すなわち、学習を繰り返すほど、3つのLLMはそれぞれ自分のタスクに特化して、賢くなっていきます。

結果:「有用な証明者(helpful prover)」の回答の評価

結果的に「有用な証明者(helpful prover)」は、『正確でわかりやすい回答』を生成できるようになっていきました。

下記の図では、「有用な証明者(helpful prover)」は、正解の答えを出しているが、roundを繰り返すたびに、回答がわかりやすくなっていることがわかります。


論文より引用

下記の図の(a)において、定量的にも、「有用な証明者(helpful prover)」の回答結果の正確性が高くなっていることがわかります。

また、(b)では、人の評価者が「有用な証明者(helpful prover)」の回答結果に対して、正確性を評価した際に、正確性が高くなっていることを示しています。

(c)では、人が評価をするのに要した時間(わかりやすさを示す間接的な指標)が、roundを繰り返すごとに短くなっていることがわかります。


論文より引用

著者のコメント

これは、まさに、GANの発想と近いが、あえて「賢くないLLM」によって、評価をさせている点が、とても斬新だと感じました。

これまで、賢いLLMに批判的な評価(レビュー)をさせて、回答精度を上げる研究(CriticsGPT)をしていたが、今回は逆に、わかりやすさという観点に注目して、賢くないLLMをうまく使っています。

あとは、「どれだけ簡潔な答えを出せるようにできるか」も研究を深める必要があると感じました。簡潔でわかりやすい回答をLLMに生成させるのは意外と難しく、roundを経るごとにやっぱり回答結果が長文になってしまうのが課題になります。

最後に

最後まで読んでくださり、ありがとうございました!
この記事を通して、少しでもあなたの学びに役立てば幸いです!

おまけ①:Raggle

RAGの精度改善に挑戦しませんか?

Raggleにて、「法務RAGシステムの性能改善ハッカソン」を開催中です!(10月20日に募集締切)

Raggleは、RAGの性能改善技術を競い合い、AIエンジニアのスキルアップを支援するプラットフォームです🥇

優勝者(GOLD🥇)の賞金は、なんと30万円!!!

SILVERは10万円、BRONZEでも5万円の賞金を用意しています!

また、参加賞として、大会終了後に「RAG精度改善ハンドブック」を贈呈予定なため、初学者の方もぜひ挑戦してみてください 🔰

みなさん、奮ってご参加ください🔥

※ 生成AIエンジニアの権利を守るため、投稿されたソースコードの著作権は、投稿者に帰属する規約としているため、その点もご安心ください◎

▼ エントリーはこちら ▼
https://bit.ly/raggle_zenn

おまけ②:書籍出版のお知らせ

ついに『AIとコミュニケーションする技術(インプレス出版)』という書籍の事前予約が始まりました🎉

これからの未来において「変わらない知識」を見極めて、生成AIの業界において、読まれ続ける「バイブル」となる本をまとめ上げました。

かなり自信のある一冊なため、もしもよろしければ、ご一読いただけますと幸いです^^

▼ Amazonの事前予約はこちらから ▼
https://amzn.to/3ME8mLF

おまけ③:生成AIアカデミー

より専門的な「生成AIエンジニア人材」を目指しませんか?

そんな方々に向けて、「生成AIアカデミー(旧:生成AIエンジニア塾)」というプログラムを始めました🎉

最終的なゴールとして、『エンタープライズ向けの生成AIシステムを構築するためのスキルを習得し、大手案件で活躍できる人材』を目標とします。

また、一人一人にしっかりと向き合って、メンタリングをできるようにするため、現在メンバーの人数制限をしております。本気度やスキルレベルの高い人から、順番にご案内しております。

▼ 登録はこちらから ▼
https://bit.ly/generative_ai_engineer_school_by_zenn

おまけ④:AI Newsletter for Biz

最新のAIニュースの情報を収集しませんか?

AI Newsltter for Bizは、ビジネスパーソン向けに「AIニュース」を定期配信する完全無料のニュースレターです📩

一人でも多くの方にとって、「AI人材としてのスキルアップ」につながれば幸いです^^

また、現在、登録者限定で「明日から使える 無料AIサービス3選」のPDFを配布中です 🎁
※ ご登録完了のメールに、PDFリンクを添付いたします。

▼ 登録はこちらから ▼
https://bit.ly/ai_newsletter_for_biz_zenn

おまけ⑤:生成AIの仕事をしたい仲間を募集中 🤝

弊社Galirageでは常に、40-50件ほどの生成AI案件が走っております。

そして、ほとんどが「生成AIの案件(RAGシステム開発 / 精度改善の研究開発など)」の仕事になります!

かなり人手が不足しており、以下のポジションの仲間を募集しています💪

  • RAGエンジニア(RAG / LangChain / Python)
  • バックエンドエンジニア(Python / FastAPI)
  • フロントエンジニア(Next.js / TypeScript)
  • Azureエンジニア(AOAI / AI Search)
  • UI/UXデザイナー
  • 生成AIリサーチャー(研究開発 / 論文執筆)
  • 生成AIコンサルタント
  • PM / PMO

ご興味がある方は、下記のフォームよりお気軽にご連絡ください!

https://forms.gle/XMd19irZU4Fi7VAQ9

採用基準は下記の通りです。
  • 平日の日中に動ける方だと嬉しいですが、週8時間くらいの副業でもOKです!
  • 開始時期は、直近だと嬉しいですが、遠い未来でもOKです!まずはカジュアルに話しましょう😊
  • 年齢は不問です!現状は、平均年齢は30歳前後の会社です!
  • 「スキルセット」よりも「カルチャーマッチ・仕事への姿勢・ものづくりへのワクワク」を重視します。
    • 10月には新しく10名採用しました。
    • その内、エンジニア経験が3年未満の方は、4名いました。
    • スキルについては、ジョインした後に、必要に応じて、キャッチアップする時間を作ります。
    • 弊社は、正社員7名、業務委託80名の組織で構成されており、業務委託の仲間に支えられているため、正社員と業務委託の間にあまり差をつけていません。
    • 契約形態に関わらず、一緒に働く仲間として受け入れたその日から、大切な仲間です!
    • 新卒や転職の正社員採用もしていますが、業務委託での仕事を通して、お互いにWin-Winだと判断できた方のみを採用しています。
    • 私自身、フリーランスを5年間やっていたため、個人事業主と正社員のメリデメは両方の立場から理解しています。
  • 人手不足ではあるものの、採用基準をかなり厳しくしています。目の前の売上よりも、カルチャーのマッチする人だけを入れることにこだわっています。
  • ちなみに、弊社のリーダーを紹介したプロフィールページはこちらです!
    • Galirageに、本当に素敵な方が多いことは、保証します!

参考文献

https://arxiv.org/abs/2407.13692

Discussion