💫

Critical Questions of Thought (CQoT)

2024/12/27に公開

お疲れ様です、波浪です。

いやはや、どうにも年末が近づいてくると、頭の中が「今年中にやりたいことリスト」でパンパンになっちゃうんですよね。僕の場合、そのリストの最上位には「最新の論文を読んで、実験して、あわよくば自分の環境に組み込みたい!」という欲求が鎮座しております。 できた試しはないけどな!

でも諦めない心を持つのが肝心だぞと子供に言ってる手前、僕も諦めずに毎年、毎月、そこらへんに挑戦するわけです!!
さて最近LLMを見ていて思うのは、人間に期待される能力って「問いを立てること」になるんだろうなって思うんですよね。
知的営巣の大半がAIに食われていった時、人間に残るのは多分問いを立てることだけな気がするな、そんな事を思って「問いを立てる」思考フレームワークを知りたいなーって思っていたら気になる論文があったんで記事にしとこって。Critical-Questions-of-Thought というやつですね。

https://arxiv.org/html/2412.15177

以下目次です。

  1. 背景と目的
  2. Toulminモデルとクリティカルクエスチョン
  3. CQoTパイプラインって何?
  4. 実験の内容と結果
  5. 考察:人間とLLMの「考える時間」
  6. 限界とこれから
  7. まとめ

背景と目的

そういえば25年って四半世紀なんですよ知ってました?なんか25年っていうより四半世紀っていう方が長く感じますよね、だって世紀ですよ世紀。
さて、そんな四半世紀の間にもたくさんの新しいテクノロジーがでましたよね、毎回思うこととして 「新しいテクノロジーってワクワクするなぁ、でも分からないことだらけで、最初はめちゃくちゃ苦労するなぁ」 ということです。

LLMもそう。ここ数年で爆発的な進歩を遂げていますが、論理推論や数学的推論が苦手という課題がまだまだ残っています。

そして、今回フォーカスする論文が提案するのが Critical-Questions-of-Thought (CQoT) なる手法
ざっくり言うと、「LLMが推論を行う途中でクリティカルクエスチョンと呼ばれる問いを投げかけて、論理のほころびがないかを自分でチェックさせる」って話なんですネ。


Toulminモデルとクリティカルクエスチョン

Toulminモデルなんだそれ?しらねえよって感じですが、言ってることは

  • 主張(Claim)
  • データ/根拠(Data)
  • 保証(Warrant)
  • 裏付け(Backing)
  • 反論(Rebuttal)
  • 修飾子(Qualifier)

みたいな要素の中で、論理構築に欠けてる部分がないかを点検して、最終的に主張が破綻しないかどうかを検証する仕組みらしいです。アメリカの方では基礎教養なんですかね?知らんけど
まあこれが初めの方にも書いた通り、本質的な問いとは何か?を考えるのに役立ちそうだなと思ったんで今回取り上げてみました。

クリティカルクエスチョン(CQs)

さらにこの研究では、Critical Questions という質問リストが用意されています。要は「論理展開に穴はないか」「根拠は正しいか」などを問う仕組みです。
たとえば、

  1. 論の前提は正しく定義されている?
  2. その前提に証拠や公知の事実はある?
  3. 結論は前提から正しく導かれる?
    … etc.

こうした質問のリストがあって、その質問にYESと自信を持って答えられなければ結論を再考する という流れになるわけですね。


CQoTパイプラインって何?

さて、ここが今回の論文での核心部分です。研究者らは、LLMが回答を生成するステップを4つの段階に分けています。


Figure 2:The four-step process of the CQoT pipeline.(翻訳はGoogle画像翻訳による)
https://arxiv.org/html/2412.15177#:~:text=3-,Methodology,-Figure 2%3A

論文によると、CQoTは以下の4つのステップでLLMの推論力を高めるらしいです。

  1. まずは考えさせよう!: 最初のステップでは、LLMにお題を与えて、それについて論理的に考えさせます。「 premises(前提)」と「conclusions(結論)」に分けて、どんな道筋で結論に至るのかを説明させるんですね。過程を飛ばした計算式は無効!!!

  2. 問い詰めるぞ! 批判的質問タイム: ここがCQoTのキモ! さっきLLMに考えてもらった道筋に対して、「それって本当にそうなの?」「前提は正しいの?」「論理は飛躍してない?」みたいな批判的な質問をぶつけます。論文では、Toulminの議論モデルに基づいた8つの質問が用意されているそうですね。

    • 明確な前提から推論はスタートしているか? (データ)
    • 前提は証拠や認められた事実に基づいているか? (データ)
    • 推論過程で、前提と結論の間に論理的な繋がりが使われているか? (保証)
    • その論理的な繋がりは妥当か? (保証)
    • 推論過程で、誤謬や論理的なエラーは避けられているか? (保証、裏付け)
    • 結論は前提から論理的に導き出されているか? (主張)
    • 推論過程は、確立された知識や原則と矛盾しないか? (裏付け)
    • 推論過程は、妥当で理にかなった結論を導いているか? (主張、限定、反論)
  3. ちょっと待った! 質問にちゃんと答えられたかチェック!: LLMに質問をぶつけたら、次はちゃんとそれに答えられているか確認します。8つの質問のうち、7つ以上で「YES!」と言わせたら次のステップに進めます。もしダメだったら、もう一度ステップ1からやり直し!

  4. いよいよ最終回答!: 批判的質問に耐え抜き、論理的な思考を深めたLLMに、もう一度最初のお題について答えてもらいます。 これで、最初の考えよりもずっと賢い答えが出てくるってわけです。


実験の内容と結果

この研究では、MT-Bench というベンチマーク(Reasoning, Mathの2分野、合計40個の問題)を使って評価をしています。対象のLLMは以下の5つ:

  • Claude Sonnet 3.5
  • GPT-4o
  • Gemini 1.5-pro-001
  • Llama 3.1-70b-Instruct
  • Nemotron-51b-Instruct

で、この5モデルを、

  1. 普通に回答させた場合(Standard)
  2. CoT(Chain-of-Thought)を使わせた場合
  3. CQoT(Critical-Questions-of-Thought)パイプラインを適用させた場合

の3パターンで比較したんですって。すると、ほとんどのケースでCQoTのほうが得点が高い(だいたい平均で+5%くらい上昇)って結果が出たそうな。「Chain-of-Thoughtって便利そうだけど、意外とベースラインより下がるケースもある?」みたいなところはちょっとびっくりしましたね。
あと気になったのは、オープンソースのLlama 3.1-70b-Instruct が、CQoTを使うとGPT-4oのベースラインを上回ったなんて話。やっぱり「ちゃんと指示を守ってセルフチェックをする」ってのは、モデルのサイズやパラメータだけじゃなくて、LLMの挙動特性に大きく依存してるんだろうなと感じます。


考察:人間とLLMの「考える時間」

僕は昔TRPG好きだったんですが、一番好きなのがガープスだったんですよね、ちなみに嫁はソードワールドが好きらしいです。
で僕がガープス好きだったのはキャラシーを考える時間がたっぷりあるからで、それって 「猶予時間」 ってやつがロジック構築にはめちゃ大事なんですよね準備の時間が一番楽しい、いやまあLLMは別に快不快を感じないけどLLMでも猶予時間はたくさんほしいんですね。

研究者曰く、こうしたtest-time compute アプローチは「推論に長めの時間を費やすと性能が上がる」ことを理論的にも実証したようです。加えて、今回のクリティカルクエスチョンは、「推論の欠陥を早期に発見し、自己修正を促す仕組み」を持ってくることでさらに推論精度が向上するそうです。

もっとも、LLMもどこまで突き詰めても「事前の学習データが足りてない問題」に当たると難しいらしく、やっぱりベースとなる知識がないと無理! って場面もあるんだとか。まあ人間でも同じですよね。「もうちょっと基礎から勉強しておけばよかったな…」って反省した経験、あるある。


限界とこれから

1. 小型モデルへの適用

実験結果を見ていて気になったのは、「ある程度のパラメータ規模以上のモデルのほうがCQoTの恩恵が大きいんじゃないか?」 ってこと。小型モデルだと、自分に投げかけるクリティカルクエスチョン自体を正しく判断できなかったり、指示を守りきれなかったりするケースがあるみたいです。

2. 時間と計算コスト

CQoTパイプラインを回すとなると、最大10回のセルフチェック なんかをすることもあるわけで、その分の計算リソースが増大するのは事実。やはり、ハイエンドGPUのない環境や、メモリが少ない環境だと時間がかかりすぎる可能性があるかな、とも思います。僕が昔やったFinetuningなんかもそうですが、とにかく時間・金・マシンパワーとの戦いですからねぇ…。

3. 組み合わせの可能性

一方で、研究者自身は「さらに別の補正アプローチとも組み合わせられるよ」と示唆しています。たとえば複数解候補の再サンプリング他モデル同士の相互評価なんてやり方と組み合わせると、より強力になるのでは? と。そこのあたり、まさに今後の研究領域でしょう。


まとめ

論文の成果を見ていると、「LLMは単なる巨大パラメータの塊だ」なんて思ってた頃が懐かしいですね。今やこういう 論理点検の仕掛け推論時間の確保 で、どんどん賢くなっていく姿を見ると、何だかマシンと人間の境界がゆるゆるになってるようにも感じます。SFチックで楽しいですな

結局、本質的な問いとはどういうものか?っていう疑問にはあんまり役に立たない論文でしたが、まあ面白かったのでよしとしましょう。

それでは、2024年もあとわずか。よい年末を!!!

株式会社ガラパゴス(有志)

Discussion