💬

「逆転裁判」と「ダンガンロンパ」を利用したLLMの推論能力の検証

に公開

はじめに

ルミナイR&Dチームの権藤です。
本記事では、大規模言語モデル(LLM)の演繹推論能力を評価するための革新的なベンチマーク「TURNABOUTLLM」について解説します。
このベンチマークは、人気の探偵ゲーム「逆転裁判」と「ダンガンロンパ」のゲームプレイを活用して構築されており、LLMの推論能力に対して独自の課題を提示します。

本ページの図は特筆がない限り全て本論文から引用しています。
論文リンク: TURNABOUTLLM: A Deductive Reasoning Benchmark from Detective Games

本記事で学べること

  • 長文コンテキストにおけるLLMの推論能力: 最大10万語を超える物語文脈の中での複雑な推論におけるLLMの推論能力の限界と課題
  • TURNABOUTLLM: どのようなデータセットが作られているか

概要

TURNABOUTLLMとは?

TURNABOUTLLMは、探偵ゲーム「逆転裁判」と「ダンガンロンパ」のインタラクティブなゲームプレイを活用して、LLMの演繹推論能力を評価するための新しいフレームワークとデータセットです。
このベンチマークでは、LLMに証言と証拠の間の矛盾を長い物語文脈の中から特定させるタスクが課されます。
具体的には、複数の証言と証拠からどの証言と証拠が矛盾しているかのペアを見つけ出します。

従来のシャーロックホームズなどの推理小説を活用した研究では、文脈として単純な断片のみを考慮するか、キャラクター関係の予測をタスクとしていました。
TURNABOUTLLMは、探偵ゲームというインタラクティブなゲームを活用することで、この限界を克服しています。

主な特徴:

  • 長文コンテキスト: 平均25,000文字、最大で10万語を超える
  • 大規模解答空間: 平均200の証言-証拠ペアから選択
  • 多様な推論タイプ: 空間的、時間的、因果的、行動的、数値的、物理的、スペルなどの推論
  • 詳細なアノテーション: すべての例について、証拠スパン、コンテキスト要約、推論タイプ、および完全な推論ステップに関する専門家注釈が付与

データセットの構成

TURNABOUTLLMは逆転裁判とダンガンロンパの2シリーズ・計11タイトルから構成されています。
データセットには以下の情報が含まれています。

  • キャラクター情報: 名前、性別、年齢、および説明
  • 証拠情報: 名前、ソース、および説明
  • 証言: 話し手、内容、矛盾する証拠
  • ゲーム全体の内容: 会話、情報、フレーバーテキスト

特徴:

  • 各ターンは平均で12のキャラクター、21の証拠、6の証言、25,000文字のテキスト
  • 平均して200の証言-証拠ペアから選択する大規模な解答空間

推論チェーンの注釈


推論チェーンの例
各ターンには推論チェーンが注釈されており、これは矛盾を導き出すために使用される推論の連鎖を示す木構造です。

推論チェーンの構成要素:

  • 観察された事実(葉ノード): 証拠、証言、文脈から直接パラフレーズ
  • 原子命題(非葉ノード): 事実に作用して新しい事実を導出するモダスポネンス規則
  • 矛盾(ルートノード): 明らかに矛盾する2つの事実に基づいて暗示

多様な推論タイプ

7つの推論タイプ(空間的、時間的、因果的、行動的、数値的、物理的、スペリング)を定義し、各ターンに1つ以上のタイプを割り当てています。これにより、多様な推論能力が要求されます。

推論タイプの例:
以下、表形式に整理しました。

推論タイプ 証拠例 証言例
空間的 死因は胸への銃撃 ……私はイギリス人の一般市民を撃ったんだ!しかも背後から……。
時間的 銃声が鳴ったのは 12/25 の真夜中直後 彼女が『もうすぐクリスマス!』と言ったとき銃声が!
因果的 凶器には被告の指紋が 殺人凶器には触れていない
行動的 被害者の日記:ヒューに会うこと。重要。 誰とも話していないよ
数値的 死因:1回の鈍器による外傷 ほらね?君は彼女を 2 回殴ったんだ
物理的 被害者は無地のTシャツを着ていた あいつはいつも花柄のシャツを着ていた
スペリング 被告人はMaggeyという名前 血文字には被告人の名前'Maggie'と書かれていた

評価プロトコル

4つの評価プロンプトバリエーションを提案しています:基本的なゼロショットプロンプト、Chain-of-Thought(CoT)プロンプト、完全なコンテキストプロンプト、アブレーションプロンプト。

実験結果:最先端LLMでも苦戦

12モデルの評価結果

12の最先端LLMで評価を行いました。

  • DeepSeek: R1(671B)、V3、R1-70B、R1-32B、R1-8B
  • OpenAI: GPT-4.1、GPT-4.1-mini、o3-mini、o4-mini
  • Llama: Llama-3.1-70B、Llama-3.1-8B
  • QwQ-32B
    12モデルの性能評価
    12モデルの性能評価

最高性能のDeepSeek-R1でも正解率は45.72%にとどまり、TURNABOUTLLMが現在のLLMにとって大きな課題であることが示されました。
また、ほとんどのモデルにおいて証言よりも証拠を選択する精度が高くなりました。
これは、証言数よりも証拠数の方が一般的に少ないためと考えられます。

実験結果の分析:

  1. 推論トークン数と精度の負の相関

    推論ステップ数と正解率の関係
    不正解の回答は正解の回答よりも多くの推論トークンを生成する傾向があり、モデルの精度と推論トークン数の間には負の相関が見られました。
    これは追加の推論トークンを出力しても、必ずしも性能向上に結び付かない可能性を示唆しています。

  2. 推論タイプ別の性能

    推論タイプ別の性能

モデルごとに得意不得意があることがわかります。
全体としては、数値的推論は多くのモデルで高い精度を示し、時間的推論や因果的推論が多くのモデルで困難なことが示唆されています。

  1. CoTプロンプティングの限定的な効果
    5つのモデルのうち最小のLlama3.1-8bを除いて、CoTプロンプティング手法は改善をもたらさないか、わずかな性能低下をもたらしました。
    CoTプロンプトは、「より多く考える」ことを可能にしている一方で、その思考は単一の証拠-証言ペアに集中しており解答空間の探索を行えていないことがわかりました。

  2. 完全コンテキストの影響

    完全なコンテキストの影響
    完全なコンテキストを含めることは、モデルのサイズに応じて対照的な効果を示しました。
    GPT-4.1やDeepSeek-R1のような大規模モデルは約15%の精度向上を示しましたが、小中規模モデルは性能低下を示しました。

  3. 解答空間の探索
    モデルが解答空間の探索を十分に長く続けると、精度を向上させられることがわかりました。

まとめ

推理的な記号論理パズルを物語性豊かな長文コンテキストの中に埋め込んだ初のベンチマークであるTURNABOUTLLMを提案しました。
12個の最新のLLMを対象とした実験を通じて、TURNABOUTLLMが難易度の高いタスクであり、LLMの推論能力を公正に評価することを示しました。
研究チームは以下のような研究を促進したいと考えています。

  • スケーラブルな長文コンテキスト推論
  • 制御可能なCoT
  • 記号的タスクと物語的タスクを統合的に扱う評価指標

論文を読んで:演繹推論の新しい地平

TURNABOUTLLM は、LLM の演繹推論能力を評価するうえで、重要な一歩となるベンチマークです。探偵ゲームというユニークな題材を用いることで、自然言語ベースでありながら、複雑で構造的な推論タスクを実現しています。

DeepSeek-R1 のような推論特化モデルでさえ正解率が 45.72% にとどまることは、現在の LLM が「複雑かつ物語的な文脈」を伴う演繹推論において、依然として大きな改善の余地を残していることを示しています。

今後の研究としては、こうした複雑な推論に対応できる新たなフレームワークの設計や、本データセットを用いたモデルのチューニングなどが考えられます。高度な推論能力の獲得は、さまざまな分野への応用可能性を広げる重要な鍵であり、今後のさらなる発展が強く期待されます。

参考文献

本記事は以下の論文に基づいています:
Yuan Yuan, Muyu He, Muhammad Adil Shahid, Jiani Huang, Ziyang Li, Li Zhang. (2025). TURNABOUTLLM: A Deductive Reasoning Benchmark from Detective Games.

【現在採用強化中です!】

  • AIエンジニア
  • PM/PdM
  • 戦略投資コンサルタント

▼代表とのカジュアル面談URL
https://pitta.me/matches/VCmKMuMvfBEk

ルミナイ - 産業データをLLM Readyにするための技術ブログ

Discussion