🧞

LLMアキネータ対戦環境を作ってみた

2024/09/16に公開

はじめに

どんな人向けの記事?

  • LLMに興味のある方
  • LLMの性能に興味のある方
  • LLM同士でアキネータゲームをしたときの挙動が気になる方
環境
Mac Studio(M2 Ultra 128GB)

概要

今回の記事の概要は下記のとおりです。

  • LLMの評価を行う方法の一つとして、LLMアキネータ対戦環境を構築
  • いくつかのモデルでの検証結果
  • 所感と今後の課題
  • まとめ

背景

2つほど前の記事では、LLMに人狼ゲームをしてもらいました。

https://zenn.dev/robustonian/articles/llm_warewolf_bench

しかし、人狼ゲームはルールが複雑でかつ、モデルに依存したプロンプト設計が重要となるため、ローカルLLMの評価に使うには些か早すぎたという印象でした。

そんな中、2週間ほど前にXのタイムラインでねぼすけAIさんの下記のポストを見つけました。

https://x.com/AInebosuke/status/1830061038898683978

記事のさわりを確認したところ、KaggleでLLMを用いた20 Questions(いわゆるアキネータゲーム)のコンペティションがあり、それらの詳しい解説が書かれていました。LLMを用いたコンペということで、めちゃくちゃワクワクする内容でした。改めて、金メダルおめでとうございます!

アキネータゲームは人狼ゲームに比べてルールが単純で、かつプロンプトも短めなのでLLMの評価に使えるかもしれない!ということで、今回はLLM同士でアキネータゲームの対戦ができる環境を作ってみました。

ゲームのルール

まず、アキネータゲームの実装にあたりルールを明確にしなければなりません。今回はKaggle LLM 20 Questionsのルールを独自にアレンジして、下記のようなルール設定としました。

ルール詳細

  • 2つのLLMのうち、一方が質問者、もう一方が回答者となる。
  • 回答者には秘密のキーワードが知らされる。
  • アキネータゲームは20ラウンドで行われる。(下記のフロー図を参照)
  • 1ラウンドごとに、下記の4つのフェーズを順番に行う。
    • 質問フェーズ:質問者は、Yes/Noで答えられる質問を考え、回答者に質問できる。
    • 回答フェーズ:回答者は、質問者の質問に「はい」または「いいえ」で回答する。
    • 推理フェーズ:質問者は、これまでの情報をもとに推理したキーワードのみを述べる。
    • 判定フェーズ:判定者は、「推理したキーワード」と「秘密のキーワード」が一致しているかを判定する。正解なら終了、不正解なら次のラウンドに進む(20ラウンドが終了したら強制終了)。
  • 質問者と回答者を入れ替えて同様のアキネータゲームを行い、正解までのラウンド数が小さかった方が勝ち。同じだった場合は引き分け
  • 以上2セットのアキネータゲームを、複数のキーワードに対して実施し勝利数を競う。

一回のアキネータゲームのフロー図

実装

コーディング

ルールを明確化できたので、上記の仕様でコーディングを行いました。具体的には、下記の手順で実施しました。

  • 人狼ゲーム用に作った汎用LLM応答関数をモジュール化(OpenAI API, Gemini API, Ollama APIに対応)
  • 上記関数の入出力情報と、それ以外の部分の仕様をCalude 3.5 Sonnetに与えてコーディングを依頼
  • 得られたPythonコードを手作業で試行錯誤しながら修正

LLM人狼よりもかなり単純なコードであり、Claudeに依頼してから動かすまでは30分もかからなかったと思います。その後の検証や微調整、キーワードリストの作成の方が何倍も時間かかりました。参考までに、この記事の執筆時点でのmain.pyのソースコードは下記のとおりです(単体では動かないので、プロンプト等の参考程度に見てください)。

main.pyのソースコード
import random
import datetime
import os

from llm_response import get_response
import pandas as pd

N_questions = 20 # ラウンド数
N_games = 5 # 対戦数

generation_max_tokens = 128
generation_temperature = 0.5

model_name1 = "gemini/gemini-1.5-flash-exp-0827"
model_name2 = "gpt-4o-mini-2024-07-18"
model_judge = "gpt-4o-mini-2024-07-18"

def play_20_questions(secret_word, model1, model2, log_file):
    roles = ["質問者", "回答者"]
    model1_role, model2_role = roles
    if model1_role == "質問者":
        questioner, answerer = model1, model2
    else:
        questioner, answerer = model2, model1

    log_output(log_file, f"# ゲーム開始\n\n秘密の単語: {secret_word}\n\n")
    log_output(log_file, f"| モデル | 役割 |\n|--------|------|\n")
    log_output(log_file, f"| {model1} | {model1_role} |\n")
    log_output(log_file, f"| {model2} | {model2_role} |\n\n")

    log_output(log_file, f"| ターン | 質問者({questioner}) | 回答者({answerer}) |\n|--------|--------|--------|\n")

    conversation_history = []

    for round in range(1, 1 + N_questions):
        question = ask_question(questioner, round, conversation_history)
        answer = get_answer(answerer, question, secret_word)
        guess = make_guess(questioner, question, answer, conversation_history)

        judgement = judge_answer(model_judge, guess, secret_word)

        log_output(log_file, f"| {round}-質問 | {question.replace("\n", "")} | {answer.replace("\n", "")} | \n")
        log_output(log_file, f"| {round}-推理 | {guess.replace("\n", "")} | {judgement.replace("\n", "")} | \n")
        conversation_history.append((question, answer, guess, judgement))

        if judgement == "正解":
            log_output(log_file, f"\n# ゲーム終了\n\n正解!ターン数: {round}\n")
            return round
        elif round == 20:
            log_output(log_file, f"\n# ゲーム終了\n\n正解にたどり着くことはできませんでした。\n")
            return 100

def ask_question(model, round, history):
    prompt = f"あなたは20 Questionsゲームをプレイしています。これは{round}ラウンド目です。秘密の単語を推測するためにYes/Noで答えられる日本語の質問のみを出力してください。\n\n会話履歴:\n"
    for i, (q, a, g, j) in enumerate(history):
        prompt += f"ラウンド{i+1}:\n質問: {q}\n回答: {a}\n推測: {g} ({j})\n\n"
    response = get_response(prompt, model, max_tokens=generation_max_tokens, temperature=generation_temperature)
    return response[:750]  # 750文字に制限

def get_answer(model, question, secret_word):
    prompt = f"あなたは20 Questionsゲームをプレイしています。秘密の単語は '{secret_word}' です。次の質問に 'はい' または 'いいえ' で答えてください: {question}"
    response = get_response(prompt, model, max_tokens=generation_max_tokens, temperature=generation_temperature)
    return "はい" if "はい" in response.lower() else "いいえ"

def make_guess(model, question, answer, history):
    prompt = f"あなたは20 Questionsゲームをプレイしています。質問 '{question}' と回答 '{answer}' に基づいて、秘密の単語を推測し、**推測した名詞のみ**を日本語で出力してください。\n\n会話履歴:\n"
    for i, (q, a, g, j) in enumerate(history):
        prompt += f"ラウンド{i+1}:\n質問: {q}\n回答: {a}\n推理: {g} ({j})\n\n"
    response = get_response(prompt, model, max_tokens=generation_max_tokens, temperature=generation_temperature)
    return response[:100]  # 100文字に制限

def judge_answer(model, guess, secret_word):
    prompt = f"あなたは20 Questionsゲームをプレイしています。秘密の単語は '{secret_word}' です。次の回答は秘密の単語をぴったり言い当てていますか? '正解' または '不正解' で答えてください: {guess}"
    response = get_response(prompt, model, max_tokens=generation_max_tokens, temperature=generation_temperature)
    return "不正解" if "不正解" in response.lower() else "正解"


def log_output(file, content):
    with open(file, "a", encoding="utf-8") as f:
        f.write(content)
    print(content)

def main():
    model1 = model_name1 #"LLMモデル1"
    model2 = model_name2 #"LLMモデル2"
    input_file_path = './input/キーワードリスト.csv'
    df = pd.read_csv(input_file_path) 
    secret_words = df['キーワード'].values

    timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
    log_file = f"./output/{timestamp}.md"
    os.makedirs(os.path.dirname(log_file), exist_ok=True)

    log_output(log_file, "# 20 Questions ゲーム結果\n\n")

    model1_wins = 0
    model2_wins = 0
    draws = 0

    for game in range(N_games):
        log_output(log_file, f"## ゲーム {game + 1}\n\n")
        secret_word = random.choice(secret_words)
        round_model1 = play_20_questions(secret_word, model1, model2, log_file)
        round_model2 = play_20_questions(secret_word, model2, model1, log_file)

        if round_model1 < round_model2:
            model1_wins += 1
        elif round_model1 > round_model2:
            model2_wins += 1
        else:
            draws += 1

    log_output(log_file, f"\n# 最終結果\n\n")
    log_output(log_file, f"| モデル | 勝利数 |\n|--------|:--------:|\n")
    log_output(log_file, f"| {model1} | {model1_wins} |\n")
    log_output(log_file, f"| {model2} | {model2_wins} |\n")
    log_output(log_file, f"| 引き分け | {draws} |\n")

    print(f"ログファイルが生成されました: {log_file}")

if __name__ == "__main__":
    main()

秘密のキーワードリスト

秘密のキーワードリストは、まずKaggleで公開されているこちらのデータセットを日本語訳したものを使おうとしました。

https://www.kaggle.com/datasets/waechter/llm-20-questions-games?select=keywords.csv

しかし、難易度が見るからに高そうだったので半分以上削除して比較的簡単な単語だけを採用したキーワードリストを独自に作成しました。この作業が地味に一番大変でした

対戦結果

上記のプログラムおよびキーワードリストを利用し、早速いくつかのモデルで検証を行いました。

gemini-1.5-flash-exp-0827 v.s. gpt-4o-mini-2024-07-18

長いので4ゲーム目と5ゲーム目だけ以下に記載します。

gemini-1.5-flash-exp-0827 v.s. gpt-4o-mini-2024-07-18 (判定者:gpt-4o-mini-2024-07-18)

ゲーム 4

ゲーム開始

秘密の単語: 眼鏡

モデル 役割
gemini/gemini-1.5-flash-exp-0827 質問者
gpt-4o-mini-2024-07-18 回答者
ターン 質問者(gemini/gemini-1.5-flash-exp-0827) 回答者(gpt-4o-mini-2024-07-18)
1-質問 それは生き物ですか? いいえ
1-推理 テーブル 不正解
2-質問 質問: それは人工物ですか? はい
2-推理 不正解
3-質問 質問: それは乗り物ですか? いいえ
3-推理 コンピューター 不正解
4-質問 質問: それは電気で動くものですか? いいえ
4-推理 自転車 不正解
5-質問 質問: それは家具ですか? いいえ
5-推理 ボール 不正解
6-質問 質問: それは屋内で使うものですか? はい
6-推理 テレビ推論過程:* 屋内で使うもので、電気で動かず、家具ではない。* 人工物であり、乗り物でもない。* これらの情報から、テレビが最も可能性の高い候補となります。 不正解
7-質問 質問: それは娯楽のために使うものですか? **推論過程:**前回の推測「テレビ」は不正解でしたが、依然として屋内で使う人工物である可能性は高いです。 娯楽目的かどうかで、ゲーム、楽器、飾り物など、より絞り込むことができます。 はい
7-推理 ゲーム 不正解
8-質問 質問: それは音を出すものですか? **推論過程:**前回の推測「ゲーム」は不正解でした。しかし、屋内で使う娯楽目的の人工物であることは分かっています。音を出すかどうかで、ゲーム機、ラジオ、スピーカーなど、さらに絞り込むことができます。 いいえ
8-推理 テレビゲーム推論過程:* 屋内で使う娯楽目的の人工物である。* 音を出さない。* テレビゲームは、屋内で使われ、娯楽目的で、通常は音を出しません(サイレントゲームなどもありますが 不正解
9-質問 質問: それはディスプレイを持つものですか? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さないものです。ディスプレイの有無で、ゲームソフト、パズル、インテリアなど、より絞り込むことができます。 いいえ
9-推理 パズル 不正解
10-質問 質問: それは手で操作するものですか? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たないものです。手で操作するかどうかで、ボードゲーム、パズル、カードゲームなど、さらに絞り込むことができます。 はい
10-推理 ルービックキューブ 不正解
11-質問 質問: それは紙やプラスチックでできているものですか? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作するものです。紙やプラスチックでできているかどうかで、カードゲーム、ボードゲーム、パズルなど、さらに絞り込むことができます。 いいえ
11-推理 魔方陣 不正解
12-質問 質問: それは金属でできているものですか? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチックではないものです。金属製かどうかで、金属製の玩具、彫刻、装飾品など、さらに絞り込むことができます。 いいえ
12-推理 パズル 不正解
13-質問 質問: それは木でできているものですか? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属ではないものです。木でできているかどうかで、木製玩具、彫刻、装飾品など、さらに絞り込むことができます。 いいえ
13-推理 パズル 不正解
14-質問 質問: それはプラスチック以外の素材でできている、組み立て式のものです か? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属、木ではないものです。組み立て式であるかどうかで、ブロック玩具、模型など、さらに絞り込むことができます。プラスチック以外であるという条件は、より絞り込むために追加しました。 いいえ
14-推理 レゴブロック 不正解
15-質問 質問: それは、複数の小さな部品を組み合わせて作るものです か? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属、木、プラスチック以外の組み立て式のものではありません。複数の小さな部品で構成されているかどうかで、複雑なパズル、模型、工作キットなど、さらに絞り込むことができます。 いいえ
15-推理 彫刻 不正解
16-質問 質問: それは、コレクションとして集められるものですか? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属、木、プラスチック以外の組み立て式のものではありません。また、複数の小さな部品で構成されているわけでもありません。コレクションとして集められるかどうかで、置物、フィギュア、カードなど、さらに絞り込むことができます。 いいえ
16-推理 置物 不正解
17-質問 質問: それは、主に鑑賞を目的として作られたものです か? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属、木、プラスチック以外の組み立て式のものではありません。また、複数の小さな部品で構成されているわけでもなく、コレクションとして集められるものでもありません。鑑賞を目的としているかどうかで、装飾品、オブジェ、アート作品など、さらに絞り込むことができます。 いいえ
17-推理 彫刻 不正解
18-質問 質問: それは、手を使って遊ぶための、何かを解決したり、達成したりするための、ゲームのようなものです か? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属、木、プラスチック以外の組み立て式のものではありません。また、複数の小さな部品で構成されているわけでもなく、コレクションとして集められるものでも、鑑賞を目的として作られたものでもありません。ここで、ゲームという要素を再導入します。しかし、単なる娯楽ではなく、何か いいえ
18-推理 ソロモンの知恵の輪 不正解
19-質問 質問: それは、何かを組み立てる、または分解する、という要素を含むものですか?**推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属、木、プラスチック以外の組み立て式のものではありません。また、複数の小さな部品で構成されているわけでもなく、コレクションとして集められるものでも、鑑賞を目的として作られたものでも、ゲームのようなものでもありません。ここで、組み立てや分解という要素を導入することで、パズルや工作キットのようなものを除 はい
19-推理 ルービックキューブ 不正解
20-質問 質問: それは、複数の部品を組み合わせたり、分解したりして、形を変えることができますか? **推論過程:**これまでの情報から、屋内で使う娯楽目的の人工物で、音を出さず、ディスプレイも持たず、手で操作し、紙やプラスチック、金属、木、プラスチック以外の組み立て式のものではありません。また、複数の小さな部品で構成されているわけでもなく、コレクションとして集められるものでも、鑑賞を目的として作られたものでも、ゲームのようなものでもありません。しかし、何かを組み立てる、または分解するという要素は含んでいます。ここで、形 いいえ
20-推理 変形玩具 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: 眼鏡

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemini/gemini-1.5-flash-exp-0827 回答者
ターン 質問者(gpt-4o-mini-2024-07-18) 回答者(gemini/gemini-1.5-flash-exp-0827)
1-質問 秘密の単語は生き物ですか? いいえ
1-推理 植物 不正解
2-質問 質問: 秘密の単語は無生物ですか? はい
2-推理 不正解
3-質問 質問: 秘密の単語は自然の物ですか? いいえ
3-推理 不正解
4-質問 質問: 秘密の単語は人工物ですか? はい
4-推理 椅子 不正解
5-質問 質問: 秘密の単語は家庭用品ですか? はい
5-推理 カーテン 不正解
6-質問 質問: 秘密の単語は電化製品ですか? いいえ
6-推理 時計 不正解
7-質問 質問: 秘密の単語は家具ですか? いいえ
7-推理 テーブル 不正解
8-質問 質問: 秘密の単語は装飾品ですか? はい
8-推理 ネックレス 不正解
9-質問 質問: 秘密の単語は壁に掛けるものですか? いいえ
9-推理 絵画 不正解
10-質問 質問: 秘密の単語は小物ですか? はい
10-推理 リモコン 不正解
11-質問 質問: 秘密の単語は手に持つことができるものですか? はい
11-推理 カギ 不正解
12-質問 質問: 秘密の単語は装飾的な機能を持っていますか? はい
12-推理 ブレスレット 不正解
13-質問 質問: 秘密の単語はアクセサリーですか? はい
13-推理 イヤリング 不正解
14-質問 質問: 秘密の単語は金属製ですか? はい
14-推理 リング 不正解
15-質問 質問: 秘密の単語は宝石を含んでいますか? いいえ
15-推理 ブローチ 不正解
16-質問 質問: 秘密の単語は装飾用の指輪ですか? いいえ
16-推理 腕輪 不正解
17-質問 質問: 秘密の単語はブレスレットのような腕に着けるものですか? いいえ
17-推理 ピアス 不正解
18-質問 質問: 秘密の単語は首に着けるものですか? いいえ
18-推理 バッジ 不正解
19-質問 質問: 秘密の単語は指に着けるものですか? いいえ
19-推理 指輪 不正解
20-質問 質問: 秘密の単語は身体に直接着けるものですか? はい
20-推理 腕時計 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム 5

ゲーム開始

秘密の単語: メロン

モデル 役割
gemini/gemini-1.5-flash-exp-0827 質問者
gpt-4o-mini-2024-07-18 回答者
ターン 質問者(gemini/gemini-1.5-flash-exp-0827) 回答者(gpt-4o-mini-2024-07-18)
1-質問 それは生き物ですか? いいえ
1-推理 テーブル 不正解
2-質問 質問: それは人工物ですか? いいえ
2-推理 不正解
3-質問 質問: それは自然現象ですか? いいえ
3-推理 ソフトウェア 不正解
4-質問 質問: それは概念的なものですか? いいえ
4-推理 推論過程:* 生き物ではない、人工物ではない、自然現象ではない、概念的なものでもないということは、残る可能性は「人為的に作られたが、概念的なものではないもの」か「自然物だが、現象で 不正解
5-質問 質問: それは金属でできていますか? **推論過程:**前回の質問で「概念的なものではない」と判明し、かつ「自然物だが、現象ではない」という可能性が残っています。金属は自然界に存在する物質でありながら、人為的に加工されることも多いです。この質問で金属かどうかを判別することで、より絞り込むことができます。 いいえ
5-推理 不正解
6-質問 質問: それは植物ですか? **推論過程:**前回の質問で金属ではないと判明しました。自然物で、現象ではない可能性が残っています。植物は自然界に存在するものであり、金属ではないため、この質問で植物かどうかを判別することで、さらに絞り込むことができます。 はい
6-推理 推論過程の説明:* 生き物ではない、人工物ではない、自然現象ではない、概念的なものではない、金属ではない。* そして、植物であることが判明しました。* これらの情報から、最も可 不正解
7-質問 質問: それは木の種類ですか? **推論過程:**これまでの情報から、対象は植物であることが分かっています。植物の中でも、木である可能性が高いですが、草花やその他の植物の可能性も残っています。「木の種類」であるかどうかを問うことで、より具体的な情報を得ることができます。 いいえ
7-推理 不正解
8-質問 質問: それは草花ですか?推論過程:* ラウンド7で「木の種類ではない」と判明しました。* 植物であり、木ではないということは、草花である可能性があります。* この質問で草花かどうかを判別することで、さらに絞り込むことができます。 いいえ
8-推理 シダ 不正解
9-質問 質問: それは食用植物ですか? 推論過程:* 植物であり、木でも草花でもシダでもないことが分かっています。* 食用植物の可能性が残っています。* この質問で食用かどうかを判別することで、さらに絞り込むことができます。 はい
9-推理 レタス**推論過程:**1. 食用植物であることが判明しました。2. 植物であり、木でも草花でもシダでもないことが分かっています。3. 食用植物で、かつ、木、草花、シダで 不正解
10-質問 質問: それは野菜ですか? **推論過程:**1. 食用植物であることが分かっています。2. 野菜は食用植物の一種であり、可能性が高いです。3. この質問で野菜かどうかを判別することで、さらに絞り込むことができます。 いいえ
10-推理 コケ**推論過程:**1. 食用植物であることが判明しました。2. 野菜ではないことが判明しました。3. 植物であり、木でも草花でもシダでもないことが分かっていま 不正解
11-質問 質問: それは果物ですか? **推論過程:**1. 食用植物であることが判明しています。2. 野菜ではないことも判明しています。3. 果物は食用植物であり、野菜ではないため、可能性があります。4. この質問で果物かどうかを判別することで、さらに絞り込むことができます。 はい
11-推理 リンゴ 不正解
12-質問 質問: それは熱帯の果物ですか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 果物の中でも、熱帯の果物とそうでない果物があります。3. この質問で熱帯の果物かどうかを判別することで、さらに絞り込むことができます。 いいえ
12-推理 キウイフルーツ 不正解
13-質問 質問: それは日本でよく食べられている果物ですか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではないことも判明しています。3. 日本でよく食べられている果物かどうかを問うことで、さらに絞り込むことができます。 4. 日本でよく食べられている果物であれば、リンゴ、イチゴ、ミカンなど、比較的一般的な果物である可能性が高まります。 はい
13-推理 リンゴ 不正解
14-質問 質問: それは丸い形をしていますか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではなく、日本でよく食べられている果物であることも判明しています。3. 形状に関する情報を得ることで、さらに絞り込むことができます。4. リンゴ、イチゴ、ミカンなど、日本でよく食べられている果物の多くは丸い形をしています。 5. 形状に関する情報を得ることで、残りの候補を絞り込むことができます。 はい
14-推理 リンゴ 不正解
15-質問 質問: それは赤い色をしていますか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではなく、日本でよく食べられている果物であることも判明しています。3. 丸い形をしていることも判明しています。4. 日本でよく食べられている丸い果物で、赤い色のものは、イチゴ、リンゴ、サクランボなどがあります。5. 色に関する情報を得ることで、さらに絞り込むことができます。 いいえ
15-推理 ミカン 不正解
16-質問 質問: それは黄色または緑色をしていますか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではなく、日本でよく食べられている果物であることも判明しています。3. 丸い形をしており、赤色ではないことも判明しています。4. 日本でよく食べられている丸い果物で、赤色以外の色としては、黄色や緑色のものが考えられます(例:ミカン、ユズ、レモンなど)。5. この質問で黄色または緑色かどうかを判別することで、 はい
16-推理 ユズ 不正解
17-質問 質問: それは柑橘類ですか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではなく、日本でよく食べられている果物であることも判明しています。3. 丸い形をしており、赤色ではなく、黄色または緑色をしていることも判明しています。4. 日本でよく食べられている丸い果物で、黄色や緑色をしているものには、柑橘類(ミカン、ユズ、レモンなど)が含まれます。5. この質問で柑橘類かどうかを判別 いいえ
17-推理 不正解
18-質問 質問: それは皮ごと食べる果物ですか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではなく、日本でよく食べられている果物であることも判明しています。3. 丸い形をしており、赤色ではなく、黄色または緑色で、柑橘類ではないことも判明しています。4. 日本でよく食べられている丸い果物で、黄色や緑色で、柑橘類ではないものには、梨、リンゴ、ブドウなどがあります。5. しかし、梨や いいえ
18-推理 ブドウ 不正解
19-質問 質問: それは種がたくさん入っていますか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではなく、日本でよく食べられている果物であることも判明しています。3. 丸い形をしており、赤色ではなく、黄色または緑色で、柑橘類ではないことも判明しています。4. 皮ごと食べる果物ではないことも判明しました。5. 日本でよく食べられている果物で、上記条件に当てはまるものは、梨、ブドウ、リンゴなどがあります。6 はい
19-推理 ブドウ 不正解
20-質問 質問: それは、皮をむいて食べる果物ですか? **推論過程:**1. 食用植物であり、果物であることが判明しています。2. 熱帯の果物ではなく、日本でよく食べられている果物であることも判明しています。3. 丸い形をしており、赤色ではなく、黄色または緑色で、柑橘類ではないことも判明しています。4. 皮ごと食べる果物ではないことも判明しました。5. 種がたくさん入っていることも判明しました。6. 日本でよく食べられている果物で、上記条件に はい
20-推理 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: メロン

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemini/gemini-1.5-flash-exp-0827 回答者
ターン 質問者(gpt-4o-mini-2024-07-18) 回答者(gemini/gemini-1.5-flash-exp-0827)
1-質問 秘密の単語は生物ですか? はい
1-推理 動物 不正解
2-質問 質問: 秘密の単語は植物ですか? はい
2-推理 植物 不正解
3-質問 質問: 秘密の単語は木ですか? いいえ
3-推理 不正解
4-質問 秘密の単語は草ですか? いいえ
4-推理 葉っぱ 不正解
5-質問 質問: 秘密の単語は花ですか? いいえ
5-推理 果物 正解

ゲーム終了

正解!ターン数: 5

最終結果

モデル 勝利数
gemini/gemini-1.5-flash-exp-0827 0
gpt-4o-mini-2024-07-18 1
引き分け 4

上記をざっと見て気づいたことを記載します。

  • ゲーム4:秘密のキーワード「眼鏡」
    • 「それは屋内で使うものですか?」に「はい」と答えているが、これは齟齬が生じてもおかしくないので質問が良くないと考えられる。
    • 「それは娯楽のために使うものですか?」も同じで、眼鏡はYesとも言えるし、Noとも言える質問である。gpt-4o-miniはグレーな回答であるYesと答えることで、質問者の思考をずらそうとしているのだとしたらかなりのやり手であるが、回答だけでは判断がつかない。
    • それ以降の質問は、質問に推論過程が入っているためかgpt-4o-miniがまともに回答できていないように見える。
  • ゲーム5:秘密のキーワード「メロン」
    • 推理で「果物」に対して、判定者が「正解」と答えてしまっている。

gemma-2-27b-it.f16.Q8_0 v.s. gpt-4o-mini-2024-07-18

こちらはどちらも余計なことを喋らなかったので、5ゲーム分全部記載します。

gemma-2-27b-it.f16.Q8_0 v.s. gpt-4o-mini-2024-07-18(判定者:gpt-4o-mini-2024-07-18)

20 Questions ゲーム結果

ゲーム 1

ゲーム開始

秘密の単語: DVD

モデル 役割
gemma-2-27b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
ターン 質問者(gemma-2-27b-it.f16.Q8_0) 回答者(gpt-4o-mini-2024-07-18)
1-質問 この単語は、生き物ですか? いいえ
1-推理 不正解
2-質問 この単語は、食べ物ですか? いいえ
2-推理 概念 不正解
3-質問 この単語は、物体ですか? はい
3-推理 不正解
4-質問 この単語は、家の中にありますか? はい
4-推理 ソファ 不正解
5-質問 この単語は、金属でできていますか? いいえ
5-推理 不正解
6-質問 この単語は、紙でできていますか? いいえ
6-推理 ガラス 不正解
7-質問 この単語は、木材でできていますか? いいえ
7-推理 プラスチック 不正解
8-質問 この単語は、電子機器ですか? はい
8-推理 テレビ 不正解
9-質問 この単語は、携帯電話ですか? いいえ
9-推理 スピーカー 不正解
10-質問 この単語は、調理に使う道具ですか? いいえ
10-推理 キーボード 不正解
11-質問 この単語は、音を出しますか? いいえ
11-推理 パソコン 不正解
12-質問 この単語は、電源が必要ですか? いいえ
12-推理 不正解
13-質問 この単語は、小さく持てるサイズですか? はい
13-推理 辞書 不正解
14-質問 この単語は、平らですか? いいえ
14-推理 カメラ 不正解
15-質問 この単語は、丸いですか? いいえ
15-推理 時計 不正解
16-質問 この単語は、角がありますか? いいえ
16-推理 リモコン 不正解
17-質問 この単語は、色がありますか? いいえ
17-推理 イヤホン 不正解
18-質問 この単語は、透明ですか? いいえ
18-推理 マウス 不正解
19-質問 この単語は、布で覆われていますか? いいえ
19-推理 ルービックキューブ 不正解
20-質問 この単語は、壊れやすいですか? はい
20-推理 バブル 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: DVD

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-27b-it.f16.Q8_0 回答者
ターン 質問者(gpt-4o-mini-2024-07-18) 回答者(gemma-2-27b-it.f16.Q8_0)
1-質問 もちろんです!では、最初の質問です。1. それは生き物ですか? いいえ
1-推理 不正解
2-質問 2. それは無生物ですか? はい
2-推理 不正解
3-質問 3. それは日常的に使われるものですか? はい
3-推理 スマートフォン 不正解
4-質問 4. それは家の中で使われるものですか? はい
4-推理 椅子 不正解
5-質問 5. それは電子機器ですか? はい
5-推理 テレビ 不正解
6-質問 6. それはコンピュータに関連していますか? いいえ
6-推理 冷蔵庫 不正解
7-質問 7. それは音を出すことができますか? はい
7-推理 スピーカー 不正解
8-質問 質問: 8. それは音楽を再生するための機器ですか? いいえ
8-推理 冷蔵庫 不正解
9-質問 9. それは電話機ですか? いいえ
9-推理 テレビゲーム 不正解
10-質問 10. それはキッチンで使われるものですか? いいえ
10-推理 扇風機 不正解
11-質問 11. それは照明器具ですか? いいえ
11-推理 ラジオ 不正解
12-質問 質問: 12. それは掃除に使われるものですか? いいえ
12-推理 時計 不正解
13-質問 質問: 13. それは家庭用の装置ですか? はい
13-推理 エアコン 不正解
14-質問 質問: 14. それは主にリラックスするために使われるものですか? はい
14-推理 マッサージチェア 不正解
15-質問 質問: 15. それは座るためのものですか? いいえ
15-推理 ソファ 不正解
16-質問 質問: 16. それは温度を調整するための機器ですか? いいえ
16-推理 加湿器 不正解
17-質問 質問: 17. それは映像を表示するための機器ですか? はい
17-推理 プロジェクター 不正解
18-質問 質問: 18. それはゲーム機ですか? いいえ
18-推理 テレビ 不正解
19-質問 質問: 19. それはコンピュータの周辺機器ですか? いいえ
19-推理 カメラ 不正解
20-質問 質問: 20. それは家庭用の娯楽機器ですか? はい
20-推理 ビデオゲーム 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム 2

ゲーム開始

秘密の単語: サボテン

モデル 役割
gemma-2-27b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
ターン 質問者(gemma-2-27b-it.f16.Q8_0) 回答者(gpt-4o-mini-2024-07-18)
1-質問 この物体は動物ですか? いいえ
1-推理 不正解
2-質問 この物体は、人為的に作られた物ですか? いいえ
2-推理 不正解
3-質問 この物体は、生きていますか? いいえ
3-推理 不正解
4-質問 この物体は、水でできていますか? いいえ
4-推理 不正解
5-質問 この物体は、動きますか? いいえ
5-推理 宝石 不正解
6-質問 この物体は、色を持っていますか? はい
6-推理 不正解
7-質問 この物体は、透明ですか? いいえ
7-推理 不正解
8-質問 この物体は、大きいですか? いいえ
8-推理 不正解
9-質問 この物体は、自然にできる物ですか? はい
9-推理 不正解
10-質問 この物体は、植物の一部ですか? はい
10-推理 種子 不正解
11-質問 この物体は、地面に生えていますか? はい
11-推理 きのこ 不正解
12-質問 この物体は、食べる事ができますか? いいえ
12-推理 不正解
13-質問 この物体は、柔らかいですか? いいえ
13-推理 不正解
14-質問 この物体は、硬いですか? はい
14-推理 不正解
15-質問 この物体は、金属でできていますか? いいえ
15-推理 木の実 不正解
16-質問 この物体は、複数の部分から成り立っていますか? はい
16-推理 樹皮 不正解
17-質問 この物体は、植物の根の一部ですか? いいえ
17-推理 不正解
18-質問 この物体は、動物の骨の一部ですか? いいえ
18-推理 花びら 不正解
19-質問 この物体は、光を透過しますか? いいえ
19-推理 松ぼっくり 不正解
20-質問 この物体は、屋外にありますか? はい
20-推理 葉脈 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: サボテン

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-27b-it.f16.Q8_0 回答者
ターン 質問者(gpt-4o-mini-2024-07-18) 回答者(gemma-2-27b-it.f16.Q8_0)
1-質問 はい、了解しました!では、最初の質問です。1. その単語は生き物ですか? はい
1-推理 不正解
2-質問 2. その生き物はペットとして飼われることがありますか? はい
2-推理 不正解
3-質問 3. その生き物は哺乳類ですか? いいえ
3-推理 不正解
4-質問 4. その生き物は爬虫類ですか? いいえ
4-推理 不正解
5-質問 5. その生き物は昆虫ですか? いいえ
5-推理 ウサギ 不正解
6-質問 6. その生き物は両生類ですか? いいえ
6-推理 ハムスター 不正解
7-質問 7. その生き物は海に住んでいますか? いいえ
7-推理 推測: 鳥 不正解
8-質問 8. その生き物は陸上に住んでいますか? はい
8-推理 不正解
9-質問 9. その生き物は草食性ですか? はい
9-推理 不正解
10-質問 質問: 10. その生き物は大型ですか? いいえ
10-推理 不正解
11-質問 11. その生き物は小型の草食性動物ですか? いいえ
11-推理 不正解
12-質問 12. その生き物は中型の草食性動物ですか? いいえ
12-推理 鹿 不正解
13-質問 質問: 13. その生き物は人間に近い関係にありますか? いいえ
13-推理 カメ 不正解
14-質問 質問: 14. その生き物は野生で見られることがありますか? はい
14-推理 ウサギ 不正解
15-質問 質問: 15. その生き物は主に森林に住んでいますか? いいえ
15-推理 推測: ゾウ 不正解
16-質問 質問: 16. その生き物は主に草原や平地に住んでいますか? いいえ
16-推理 リス 不正解
17-質問 質問: 17. その生き物は主に山岳地帯に住んでいますか? いいえ
17-推理 ウサギ 不正解
18-質問 質問: 18. その生き物は主に都市部に住んでいますか? いいえ
18-推理 ヤギ 不正解
19-質問 質問: 19. その生き物は主に湿地や水辺に住んでいますか? いいえ
19-推理 推測: ネズミ 不正解
20-質問 質問: 20. その生き物は主に乾燥した地域に住んでいますか? はい
20-推理 推測: リャマ 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム 3

ゲーム開始

秘密の単語: 口紅

モデル 役割
gemma-2-27b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
ターン 質問者(gemma-2-27b-it.f16.Q8_0) 回答者(gpt-4o-mini-2024-07-18)
1-質問 この単語は名詞ですか? はい
1-推理 動物 不正解
2-質問 この単語は生き物ですか? いいえ
2-推理 建物 不正解
3-質問 この単語は食べ物ですか? いいえ
3-推理 不正解
4-質問 この単語は抽象的な概念ですか? いいえ
4-推理 不正解
5-質問 この単語は物ですか? はい
5-推理 不正解
6-質問 この単語は、通常、複数形で使われますか? いいえ
6-推理 不正解
7-質問 この単語は、家の中にあるものでしょうか? はい
7-推理 ソファ 不正解
8-質問 この単語は、木でできているでしょうか? いいえ
8-推理 カーテン 不正解
9-質問 この単語は、金属でできていますか? いいえ
9-推理 ガラス 不正解
10-質問 この単語は、布でできていますか? いいえ
10-推理 プラスチック 不正解
11-質問 この単語は、電子機器ですか? いいえ
11-推理 電話 不正解
12-質問 この単語は、寝室にあるものでしょうか? いいえ
12-推理 絵画 不正解
13-質問 この単語は、キッチンにあるものでしょうか? いいえ
13-推理 ランプ 不正解
14-質問 この単語は、Bathroomにありますか? はい
14-推理 タオル 不正解
15-質問 この単語は、バスルームで毎日使うものですか? はい
15-推理 歯ブラシ 不正解
16-質問 この単語は、水で濡れることがありますか? はい
16-推理 石鹸 不正解
17-質問 この単語は泡立ちますか? いいえ
17-推理 シャンプー 不正解
18-質問 この単語は、歯を磨くために使いますか? いいえ
18-推理 バスタオル 不正解
19-質問 この単語は、小さめでしょうか? はい
19-推理 ブラシ 不正解
20-質問 この単語は、プラスチックでできていますか? いいえ
20-推理 ティッシュ 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: 口紅

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-27b-it.f16.Q8_0 回答者
ターン 質問者(gpt-4o-mini-2024-07-18) 回答者(gemma-2-27b-it.f16.Q8_0)
1-質問 もちろんです!では、最初の質問をしますね。1. その単語は生き物ですか? いいえ
1-推理 不正解
2-質問 2. その単語は人工物ですか? はい
2-推理 椅子 不正解
3-質問 3. その単語は日常的に使われるものですか? はい
3-推理 テーブル 不正解
4-質問 4. その単語は家庭内で使われるものですか? はい
4-推理 ソファ 不正解
5-質問 5. その単語は電子機器ですか? いいえ
5-推理 カーテン 不正解
6-質問 6. その単語は家具の一部ですか? いいえ
6-推理 不正解
7-質問 7. その単語は装飾品ですか? はい
7-推理 アクセサリー 不正解
8-質問 8. その単語は壁に掛けることができますか? いいえ
8-推理 絵画 不正解
9-質問 9. その単語はテーブルの上に置かれることがありますか? はい
9-推理 ランプ 不正解
10-質問 10. その単語は主に食器として使われるものですか? いいえ
10-推理 クッション 不正解
11-質問 11. その単語は主に装飾目的で使われるものですか? はい
11-推理 クッション 不正解
12-質問 質問: 12. その単語は布製のものですか? いいえ
12-推理 カーペット 不正解
13-質問 13. その単語はプラスチック製のものですか? いいえ
13-推理 花瓶 不正解
14-質問 14. その単語は金属製のものですか? いいえ
14-推理 ランプ 不正解
15-質問 15. その単語は木製のものですか? いいえ
15-推理 キャンドル 不正解
16-質問 質問: 16. その単語はガラス製のものですか? いいえ
16-推理 推測: フィギュア 不正解
17-質問 質問: 17. その単語は紙製のものですか? いいえ
17-推理 推測: フィギュア 不正解
18-質問 質問: 18. その単語は石や陶器などの自然素材で作られたものですか? いいえ
18-推理 推測: フィギュア 不正解
19-質問 19. その単語は主にプラスチック以外の合成素材でできていますか? いいえ
19-推理 推測: フィギュア 不正解
20-質問 20. その単語は主に布や繊維でできていますか? いいえ
20-推理 推測: フィギュア 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム 4

ゲーム開始

秘密の単語: サッカーボール

モデル 役割
gemma-2-27b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
ターン 質問者(gemma-2-27b-it.f16.Q8_0) 回答者(gpt-4o-mini-2024-07-18)
1-質問 この単語は名詞ですか? はい
1-推理 不正解
2-質問 この単語は動物ですか? いいえ
2-推理 植物 不正解
3-質問 この単語は食べ物ですか? いいえ
3-推理 不正解
4-質問 この単語は、人名ですか? いいえ
4-推理 不正解
5-質問 この単語は、抽象的な概念ですか? いいえ
5-推理 太陽 不正解
6-質問 この単語は、複数形ですか? いいえ
6-推理 空気 不正解
7-質問 この単語は、動植物どちらにも分類されますか? いいえ
7-推理 不正解
8-質問 この単語は、色の名前ですか? いいえ
8-推理 不正解
9-質問 この単語は、家の中にある物ですか? いいえ
9-推理 不正解
10-質問 この単語は、外にある物ですか? はい
10-推理 不正解
11-質問 この単語は自然物ですか? いいえ
11-推理 不正解
12-質問 この単語は、作られた物ですか? はい
12-推理 不正解
13-質問 この単語は、金属で作られていますか? いいえ
13-推理 プラスチック 不正解
14-質問 この単語は、木材で作られていますか? いいえ
14-推理 ガラス 不正解
15-質問 この単語は、大きいですか? いいえ
15-推理 ロープ 不正解
16-質問 この単語は、携帯できる物ですか? はい
16-推理 不正解
17-質問 この単語は、道具ですか? はい
17-推理 懐中時計 不正解
18-質問 この単語は、主に使う人が一人ですか? いいえ
18-推理 不正解
19-質問 この単語は、複数の人の協力で使う物ですか? はい
19-推理 ボート 不正解
20-質問 この単語は、スポーツで使う物ですか? はい
20-推理 ネット 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: サッカーボール

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-27b-it.f16.Q8_0 回答者
ターン 質問者(gpt-4o-mini-2024-07-18) 回答者(gemma-2-27b-it.f16.Q8_0)
1-質問 もちろんです!では、最初の質問です。1. その単語は生き物ですか? いいえ
1-推理 不正解
2-質問 2. その単語は物体ですか? はい
2-推理 不正解
3-質問 3. その単語は家庭用品ですか? いいえ
3-推理 椅子 不正解
4-質問 4. その単語は自然に存在するものですか? いいえ
4-推理 時計 不正解
5-質問 5. その単語は電子機器ですか? いいえ
5-推理 建物 不正解
6-質問 6. その単語は家具ですか? いいえ
6-推理 自転車 不正解
7-質問 7. その単語は工具ですか? いいえ
7-推理 不正解
8-質問 8. その単語は食品ですか? いいえ
8-推理 不正解
9-質問 9. その単語は衣類ですか? いいえ
9-推理 ペン 不正解
10-質問 10. その単語はスポーツ用品ですか? はい
10-推理 サッカーボール 正解

ゲーム終了

正解!ターン数: 10

ゲーム 5

ゲーム開始

秘密の単語: 石畳

モデル 役割
gemma-2-27b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
ターン 質問者(gemma-2-27b-it.f16.Q8_0) 回答者(gpt-4o-mini-2024-07-18)
1-質問 この物体の色は、白ですか? いいえ
1-推理 りんご 不正解
2-質問 この物体は、生き物ですか? いいえ
2-推理 不正解
3-質問 この物体は、食べ物ですか? いいえ
3-推理 ボール 不正解
4-質問 この物体は、金属でできていますか? いいえ
4-推理 不正解
5-質問 この物体は、室内にありますか? いいえ
5-推理 不正解
6-質問 この物体は、自然に存在するものですか? いいえ
6-推理 自動車 不正解
7-質問 この物体は、複数形ですか? いいえ
7-推理 ナイフ 不正解
8-質問 この物体は、人間が作った物ですか? はい
8-推理 電話 不正解
9-質問 この物体は、動くことができますか? いいえ
9-推理 建物 不正解
10-質問 この物体は、大きいですか? いいえ
10-推理 写真 不正解
11-質問 この物体は、紙でできていますか? いいえ
11-推理 時計 不正解
12-質問 この物体は、鋭いですか? いいえ
12-推理 おもちゃ 不正解
13-質問 この物体は、柔らかいですか? いいえ
13-推理 石鹸 不正解
14-質問 この物体は、熱がありますか? いいえ
14-推理 不正解
15-質問 この物体は、使われますか? はい
15-推理 椅子 不正解
16-質問 この物体は、電子機器ですか? いいえ
16-推理 道具 不正解
17-質問 この物体は、木でできていますか? いいえ
17-推理 彫刻 不正解
18-質問 この物体は、プラスチックでできていますか? いいえ
18-推理 ガラス 不正解
19-質問 この物体は、布でできていますか? いいえ
19-推理 タイヤ 不正解
20-質問 この物体は、丸いですか? いいえ
20-推理 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: 石畳

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-27b-it.f16.Q8_0 回答者
ターン 質問者(gpt-4o-mini-2024-07-18) 回答者(gemma-2-27b-it.f16.Q8_0)
1-質問 秘密の単語に関する質問を始めます。1. それは生き物ですか? いいえ
1-推理 不正解
2-質問 2. それは物体ですか? はい
2-推理 椅子 不正解
3-質問 3. それは家具の一部ですか? いいえ
3-推理 不正解
4-質問 4. それは電子機器ですか? いいえ
4-推理 不正解
5-質問 5. それは日常的に使われるものですか? いいえ
5-推理 宝石 不正解
6-質問 6. それは装飾品ですか? いいえ
6-推理 時計 不正解
7-質問 7. それは道具ですか? いいえ
7-推理 不正解
8-質問 8. それは食べ物ですか? いいえ
8-推理 地球 不正解
9-質問 9. それは自然界に存在するものですか? はい
9-推理 不正解
10-質問 10. それは人工的に作られたものですか? はい
10-推理 推測: プラスチック 不正解
11-質問 11. それは建物の一部ですか? いいえ
11-推理 推測: 鉄 不正解
12-質問 12. それは日常的に使われることが少ないものですか? はい
12-推理 推測: 鉱石 不正解
13-質問 13. それは特定の用途のために作られたものですか? はい
13-推理 推測: 釣り具 不正解
14-質問 14. それは特定の産業で使用されるものですか? いいえ
14-推理 推測: 透明なプラスチック 不正解
15-質問 質問: 15. それは装置や機械の一部ですか? いいえ
15-推理 推測: ガラス 不正解
16-質問 16. それはアートや工芸品として使われることがありますか? はい
16-推理 陶芸 不正解
17-質問 質問: 17. それは主に手作りで作られるものですか? いいえ
17-推理 推測: 石 不正解
18-質問 18. それは特定の文化や地域に関連しているものですか? はい
18-推理 推測: 文化財 不正解
19-質問 19. それは特定の伝統や習慣に関連しているものですか? いいえ
19-推理 推測: 彫刻 不正解
20-質問 20. それは特定のイベントや祭りに関連しているものですか? いいえ
20-推理 推測: 美術品 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

最終結果

モデル 勝利数
gemma-2-27b-it.f16.Q8_0 0
gpt-4o-mini-2024-07-18 1
引き分け 4

上記をざっと見て気づいたことを記載します。

  • 全体
    • gemma-2-27b-it.f16はgemini-1.5-flash-exp-0827と違い、余計な推論過程を入れずに回答を出力してくれている(つまり、指示に忠実)。
  • ゲーム2:秘密のキーワード「サボテン」
    • 「9. その生き物は草食性ですか?」 「はい」と答えていたり、「この物体は、生きていますか?」 「いいえ」と答えていたり、嘘を付いていることがある。
  • ゲーム3:秘密のキーワード「サボテン」
    • gpt-4o-miniが推理フェーズで、推測: フィギュアを5連発という非合理的なことをしている。

所感と今後の課題

ローカルモデルについて

まず、推論時間が短そうな10B程度以下のローカルモデルで試しましたが、上述のいい加減なプロンプトでは余計なことを喋り始めたりして、まともなゲームができませんでした。

最近流行りのReflectionプロンプトを試したりすれば解決するかもですが、まだ試せていません。推論に時間がかかるようになりそうなのであまり気が進まないですが、効果があるかどうかは検証したく、いつか挑戦してみたいと思います。

まだ難易度が高すぎる?

LLM人狼よりも遥かに難易度が低いアキネータゲームですが、現状のローカルLLMやそれらと性能が比較的近いクローズドモデルにとっては依然として難易度が高いままな気がします。問題を難しくしている原因はいくつかありますが、少なくとも下記の3つがあると思います。

  • 回答者がYes/Noで答えたときに、嘘を付いていも継続してしまう(現状の仕様の問題)
    • 嘘を信じてしまった場合、その後のゲームの継続が困難になる。
    • 一方で、嘘を付いているかどうかを判定する術が無いのも課題の一つ。
  • Yes/Noのどちらも間違いでない質問への対応
    • これは対処が難しいところですが、Yes/Noでしか回答できないことがわかっている前提で齟齬が発生しやすいような質問をする質問者側の落ち度ということで、特に対策は必要なさそうだという結論。
    • ただし、LLMを用いて嘘かどうかの正確な判定をするのはかなり難しいという印象。
  • 正誤判定の難しさ
    • 秘密のキーワード「メロン」に対し、推理で「果物」→「正解」と答えてしまっている。
    • メロンは確かに果物だが、キーワードとは一致しているとは言えない。
    • 英語なら、英単語レベルで文字列が完全に一致するか否かで、機械的に判定できそうだが、日本語の難しさが正誤判定の難易度を高めていると考えられる。
    • この問題については、現状解決策が見いだせていない。

Kaggleではどのように対応しているのか?

今回の検証から、LLMが嘘をつかないようにすることや、20ラウンドで正解にたどり着く方が珍しいことがわかりました。しかし、こんなに難しい問題をKaggleではどのように解決していたのか気になりますよね。しかも、Kaggleでは下記に示す10B以下のモデルしか使えなかったそうです。

https://www.kaggle.com/competitions/llm-20-questions/models

そこで、ねぼすけAIさんの記事を再度確認したところ、どうもLLMだけで質問や回答を作っているわけではないようです。具体例として下記のような工夫をしているそうです。

  • 質問者の工夫例
    • キーワードリストやキーワードの事前確率を事前に準備
    • 質問時:条件付きエントロピーを最小化する質問(対象の不確実性を最も小さくする質問)を選定
    • 推理時:最大尤度のキーワードを選定
  • 回答者の工夫例
    • 3つの4ビット量子化LLM(gemma-9B、llama3.1-8B、mistral-7B)による多数決で構成
    • 可能な限りLLMの使用を最小限に抑え、ハードコーディングされた回答を使用する

LLMを使ったコンペということで、プロンプトエンジニアリングで競うものかと思っていたのですが、どうやらLLMではなくかなりの部分を人間の設計通りに回答しているように見えますね。。。

まあ逆に言うと、本当に賢いLLM(例えば最近リリースされたOpenAI o1モデルなど)ならば上記のような合理的な根拠に基づく、無駄のない質問や推理が出来るのではないかと期待します。

一方で、回答者に求められるのはとにかく正確性なので、LLMに頼らない方が自爆を回避できるというのはその通りかも知れません。

おまけ:ヒントを与えることで難易度を下げた場合

上記の設定では難易度が高すぎたため、ヒントとして「秘密のキーワード」を抽象化した単語をヒントとして与える改修を加えて再度検証してみました。

この条件下では、10B程度の小型のローカルLLMでもそこそこ戦いになることがわかりました。ただ、当てずっぽうでも正解してしまうので、相対的な性能評価に使えるかというと微妙です。どちらかというと、プロンプト通りの出力ができているかどうかが本質的な性能評価になるかも知れません(対戦ではなくなりますが。。。)

以下はgemma-2-9b-it.f16.Q8_0、Mistral-Large-Instruct-2407-Q4_K_M(123B)をgpt-4o-mini-2024-07-18と戦わせたときのログです。ご参考までに。

gemma-2-9b-it.f16.Q8_0 v.s. gpt-4o-mini-2024-07-18 (判定者:gpt-4o-mini-2024-07-18)

20 Questions ゲーム結果

ゲーム 1

ゲーム開始

秘密の単語: カエデ
ヒント: 樹木

モデル 役割
gemma-2-9b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gemma-2-9b-it.f16.Q8_0) 判定者(gpt-4o-mini-2024-07-18)
1-質問 果実を付ける木ですか? はい
1-推理 りんご 不正解
2-質問 その木は針葉樹ですか? いいえ
2-推理 不正解
3-質問 その木は、日本の庭園でよく見かける木ですか? はい
3-推理 不正解
4-質問 その木は、紅葉が有名な木ですか? はい
4-推理 正解

ゲーム終了

正解!ターン数: 4

ゲーム開始

秘密の単語: カエデ
ヒント: 樹木

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-9b-it.f16.Q8_0 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 その樹木は果物を実らせますか? いいえ
1-推理 不正解
2-質問 その樹木は常緑樹ですか? いいえ
2-推理 松の木 不正解
3-質問 その樹木は広葉樹ですか? はい
3-推理 カエデ 正解

ゲーム終了

正解!ターン数: 3

ゲーム 2

ゲーム開始

秘密の単語: グレープフルーツ
ヒント: 果物

モデル 役割
gemma-2-9b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gemma-2-9b-it.f16.Q8_0) 判定者(gpt-4o-mini-2024-07-18)
1-質問 この果物は赤色のものですか? はい
1-推理 りんご 不正解
2-質問 この果物は、生で食べるのが一般的な食べ方ですか? はい
2-推理 いちご 不正解
3-質問 この果物は木の実ですか? いいえ
3-推理 バナナ 不正解
4-質問 この果物は、種がたくさん入っているですか? いいえ
4-推理 メロン 不正解
5-質問 この果物は、皮をむく必要があるですか? はい
5-推理 いちご 不正解
6-質問 この果物は夏の果物ですか? いいえ
6-推理 みかん 不正解
7-質問 この果物は柑橘系の果物ですか? はい
7-推理 オレンジ 不正解
8-質問 この果物は、手で皮をむけるか、ナイフで皮をむくかどちらかですか? はい
8-推理 レモン 不正解
9-質問 この果物は、通常甘酸っぱいですか? はい
9-推理 ゆず 不正解
10-質問 この果物は、冬に食べられるでしょうか? はい
10-推理 みかん 不正解
11-質問 この果物は、房で収穫されますか? いいえ
11-推理 レモン 不正解
12-質問 この果物は柚子ですか? いいえ
12-推理 キウイ 不正解
13-質問 この果物は、温州みかんと似ていますか? いいえ
13-推理 グレープフルーツ 正解

ゲーム終了

正解!ターン数: 13

ゲーム開始

秘密の単語: グレープフルーツ
ヒント: 果物

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-9b-it.f16.Q8_0 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 その果物は皮をむいて食べることが一般的ですか? はい
1-推理 バナナ 不正解
2-質問 その果物は黄色いですか? はい
2-推理 マンゴー 不正解
3-質問 その果物は甘い味がしますか? いいえ
3-推理 レモン 不正解
4-質問 その果物は、酸っぱい味がしますか? はい
4-推理 レモン 不正解
5-質問 その果物は、主に飲み物として使われることが多いですか? はい
5-推理 グレープフルーツ 正解

ゲーム終了

正解!ターン数: 5

ゲーム 3

ゲーム開始

秘密の単語: 蛇
ヒント: 爬虫類

モデル 役割
gemma-2-9b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gemma-2-9b-it.f16.Q8_0) 判定者(gpt-4o-mini-2024-07-18)
1-質問 この動物は卵を産みますか? はい
1-推理 ヘビ 正解

ゲーム終了

正解!ターン数: 1

ゲーム開始

秘密の単語: 蛇
ヒント: 爬虫類

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-9b-it.f16.Q8_0 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 その爬虫類は水中で生活しますか? いいえ
1-推理 カメ 不正解
2-質問 その爬虫類は陸上で生活しますか? はい
2-推理 トカゲ 不正解
3-質問 その爬虫類は肉食ですか? はい
3-推理 ワニ 不正解
4-質問 その爬虫類は体が大きいですか? いいえ
4-推理 ヘビ 正解

ゲーム終了

正解!ターン数: 4

ゲーム 4

ゲーム開始

秘密の単語: 帽子
ヒント: アクセサリー

モデル 役割
gemma-2-9b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gemma-2-9b-it.f16.Q8_0) 判定者(gpt-4o-mini-2024-07-18)
1-質問 首にかけて身につけるものですか? いいえ
1-推理 指輪 不正解
2-質問 腕につけるものですか? いいえ
2-推理 イヤリング 不正解
3-質問 頭につけるものですか? はい
3-推理 帽子 正解

ゲーム終了

正解!ターン数: 3

ゲーム開始

秘密の単語: 帽子
ヒント: アクセサリー

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-9b-it.f16.Q8_0 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 そのアクセサリーは主に身につけるためのものですか? はい
1-推理 ネックレス 不正解
2-質問 そのアクセサリーは金属でできていますか? いいえ
2-推理 ブレスレット 不正解
3-質問 そのアクセサリーは宝石や石を使用していますか? いいえ
3-推理 時計 不正解
4-質問 そのアクセサリーは布や革でできていますか? はい
4-推理 ベルト 不正解
5-質問 そのアクセサリーは装飾的な目的で使用されますか? はい
5-推理 バッグ 不正解
6-質問 そのアクセサリーは、主にファッションの一部として使われますか? はい
6-推理 スカーフ 不正解
7-質問 そのアクセサリーは、主に首にかけるものですか? いいえ
7-推理 イヤリング 不正解
8-質問 そのアクセサリーは、主に手首や腕に身につけるものですか? いいえ
8-推理 バングル 不正解
9-質問 そのアクセサリーは、主に頭に身につけるものですか? はい
9-推理 帽子 正解

ゲーム終了

正解!ターン数: 9

ゲーム 5

ゲーム開始

秘密の単語: ドライバー
ヒント: 操作者

モデル 役割
gemma-2-9b-it.f16.Q8_0 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gemma-2-9b-it.f16.Q8_0) 判定者(gpt-4o-mini-2024-07-18)
1-質問 この単語は人ですか? はい
1-推理 監督 不正解
2-質問 この単語は、主にコンピューターや機械を動かすことを指すような意味ですか? はい
2-推理 プログラマー 不正解
3-質問 この単語は、物理的な操作を行う人を指す言葉ですか? はい
3-推理 運転手 不正解
4-質問 この単語は、ソフトウェアの開発や維持に関わる人を指す言葉ですか? いいえ
4-推理 職人 不正解
5-質問 この単語は、ロボットや機械を動かす際に使用される、人が直接操作する装置や道具の一部を表す言葉ですか? いいえ
5-推理 操作者 不正解
6-質問 この単語は、製造工場などで製品の組み立てや検査を行う人を指す言葉ですか? いいえ
6-推理 コントローラー 不正解
7-質問 この単語は、機械の動きを指示したり制御したりする人に与えられる権限や役割を表す言葉ですか? はい
7-推理 オペレーター 不正解
8-質問 この単語は、通常「権限」とセットで用いられる言葉ですか? はい
8-推理 管理者 不正解
9-質問 この単語は、工場の設備などを扱う際に使われることが多い言葉ですか? いいえ
9-推理 権限 不正解
10-質問 この単語は、コンピュータシステムにおけるアクセス権の制御に関係する言葉ですか? いいえ
10-推理 制御者 不正解
11-質問 この単語は、主に IT システムやソフトウェア関連の場面で用いられる言葉ですか? はい
11-推理 管理者 不正解
12-質問 この単語は、ネットワークセキュリティの観点から重要な役割を担うことが多いですか? いいえ
12-推理 オペレーター 不正解
13-質問 この単語は、主にシステムの運用・保守を行う人を指す言葉ですか? いいえ
13-推理 承認者 不正解
14-質問 この単語は、システムの使用権限を付与したり制限したりする際に用いられる言葉ですか? いいえ
14-推理 管理者 不正解
15-質問 この単語は、システムの設定や変更を行う際に重要な役割を担う人を指す言葉ですか? いいえ
15-推理 デバッグ 不正解
16-質問 この単語は、ソフトウェアのテストや開発において頻繁に使用される言葉ですか? いいえ
16-推理 承認者 不正解
17-質問 この単語は、ソフトウェアの開発チームや部署の中で用いられる言葉ですか? いいえ
17-推理 承認者 不正解
18-質問 この単語は、あるシステムにアクセスしたり、その機能を利用したりする人のことを指す言葉ですか? いいえ
18-推理 承認者 不正解
19-質問 この単語は、ネットワーク環境でデータの送受信を制御する際に用いられる言葉ですか? いいえ
19-推理 承認者 不正解
20-質問 この単語は、主にソフトウェアやシステムの開発・運用・保守に携わる人が使用することが多い言葉ですか? いいえ
20-推理 承認者 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: ドライバー
ヒント: 操作者

モデル 役割
gpt-4o-mini-2024-07-18 質問者
gemma-2-9b-it.f16.Q8_0 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 その単語は人間に関連していますか? はい
1-推理 操作者 不正解
2-質問 その単語は特定の職業や役割に関連していますか? はい
2-推理 オペレーター 不正解
3-質問 その単語は、技術や機械の操作に関連していますか? はい
3-推理 操作者 不正解
4-質問 その単語は、特定の業界や分野に特化した職業ですか? はい
4-推理 オペレーター 不正解
5-質問 その単語は、コンピュータや通信に関連する業界でよく使われる職業ですか? はい
5-推理 オペレーター 不正解
6-質問 その単語は、電話や通信機器の操作に特化した職業ですか? いいえ
6-推理 技術者 不正解
7-質問 その単語は、情報技術(IT)に関連する職業ですか? はい
7-推理 操作者 不正解
8-質問 その単語は、ソフトウェアやプログラムの操作に関連していますか? はい
8-推理 オペレーター 不正解
9-質問 その単語は、特定のソフトウェアやプログラムを使用して作業を行う職業ですか? いいえ
9-推理 エンジニア 不正解
10-質問 その単語は、データベースやシステムの管理に関連する職業ですか? いいえ
10-推理 操作者 不正解
11-質問 その単語は、システムの設計や開発に関与する職業ですか? いいえ
11-推理 オペレーター 不正解
12-質問 その単語は、プログラミングやコーディングに関連する職業ですか? いいえ
12-推理 操作者 不正解
13-質問 その単語は、システムの保守や運用に関連する職業ですか? いいえ
13-推理 操作者 不正解
14-質問 その単語は、IT業界のサポートやトラブルシューティングに関連する職業ですか? いいえ
14-推理 オペレーター 不正解
15-質問 その単語は、IT業界でのプロジェクト管理やチームの調整に関連する職業ですか? いいえ
15-推理 操作者 不正解
16-質問 その単語は、IT業界での教育やトレーニングに関連する職業ですか? いいえ
16-推理 操作者 不正解
17-質問 その単語は、IT業界での顧客対応やサポートに関連する職業ですか? いいえ
17-推理 操作者 不正解
18-質問 その単語は、IT業界での研究や開発に関連する職業ですか? いいえ
18-推理 操作者 不正解
19-質問 その単語は、IT業界での運用や管理に関連する職業ですか? はい
19-推理 操作者 不正解
20-質問 その単語は、IT業界でのネットワークやインフラの管理に関連する職業ですか? いいえ
20-推理 操作者 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

最終結果

モデル 勝利数
gemma-2-9b-it.f16.Q8_0 2
gpt-4o-mini-2024-07-18 2
引き分け 1
Mistral-Large-Instruct-2407-Q4_K_M(123B) v.s. gpt-4o-mini-2024-07-18 (判定者:gpt-4o-mini-2024-07-18)

20 Questions ゲーム結果

ゲーム 1

ゲーム開始

秘密の単語: 洗濯バサミ
ヒント: 道具

モデル 役割
Mistral-Large-Instruct-2407-Q4_K_M 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(Mistral-Large-Instruct-2407-Q4_K_M) 判定者(gpt-4o-mini-2024-07-18)
1-質問 その道具は電子機器ですか? いいえ
1-推理 ハンマー 不正解
2-質問 その道具は手動で使用されますか? はい
2-推理 ノコギリ 不正解
3-質問 質問: その道具は切るために使用されますか? いいえ
3-推理 ペンチ 不正解
4-質問 その道具は日常生活で使用されるものですか? はい
4-推理 不正解
5-質問 その道具は調理に使用されますか? いいえ
5-推理 掃除機 不正解
6-質問 その道具は家庭内で使用されるものですか? はい
6-推理 ほうき 不正解
7-質問 その道具は金属製ですか? いいえ
7-推理 洗濯バサミ 正解

ゲーム終了

正解!ターン数: 7

ゲーム開始

秘密の単語: 洗濯バサミ
ヒント: 道具

モデル 役割
gpt-4o-mini-2024-07-18 質問者
Mistral-Large-Instruct-2407-Q4_K_M 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 1. この道具は家庭で使われることが多いですか? はい
1-推理 ハサミ 不正解
2-質問 2. この道具は料理に使われますか? いいえ
2-推理 ドライバー 不正解
3-質問 3. この道具は掃除に使われますか? いいえ
3-推理 ペン 不正解
4-質問 ## ラウンド4:* 質問: 4. この道具は修理や組み立てに使われますか? いいえ
4-推理 カッター 不正解
5-質問 ## ラウンド5:* 質問: 5. この道具は主に作業や趣味に使われますか? いいえ
5-推理 定規 不正解
6-質問 ## ラウンド6:* 質問: 6. この道具は主に芸術やクラフトに関連していますか? いいえ
6-推理 スコップ 不正解
7-質問 ## ラウンド7:* 質問: 7. この道具は主に日常生活で使われるものですか? はい
7-推理 不正解
8-質問 ## ラウンド8:* 質問: 8. この道具は書くために使われますか? いいえ
8-推理 マグカップ 不正解
9-質問 ## ラウンド9:* 質問: 9. この道具は主に収納や整理に使われますか? いいえ
9-推理 ノート 不正解
10-質問 ## ラウンド10:* 質問: 10. この道具は主に移動手段に関連していますか? いいえ
10-推理 トング 不正解
11-質問 ## ラウンド11:* 質問: 11. この道具は主に電気に関連していますか? いいえ
11-推理 椅子 不正解
12-質問 ## ラウンド12:* 質問: 12. この道具は主に衣類に関連していますか? はい
12-推理 アイロン 不正解
13-質問 ## ラウンド13:* 質問: 13. この道具は衣類を整えるために使われますか? はい
13-推理 アイロン 不正解
14-質問 ## ラウンド14:* 質問: 14. この道具は衣類をアイロンがけするために使われますか? いいえ
14-推理 ブラシ 不正解
15-質問 15. この道具は衣類を干すために使われますか? はい
15-推理 洗濯ばさみ 正解

ゲーム終了

正解!ターン数: 15

ゲーム 2

ゲーム開始

秘密の単語: ポップコーン
ヒント: スナック

モデル 役割
Mistral-Large-Instruct-2407-Q4_K_M 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(Mistral-Large-Instruct-2407-Q4_K_M) 判定者(gpt-4o-mini-2024-07-18)
1-質問 そのスナックは食べ物ですか? はい
1-推理 ポテトチップス 不正解
2-質問 * 質問: そのスナックは揚げ物ですか? いいえ
2-推理 ポップコーン 正解

ゲーム終了

正解!ターン数: 2

ゲーム開始

秘密の単語: ポップコーン
ヒント: スナック

モデル 役割
gpt-4o-mini-2024-07-18 質問者
Mistral-Large-Instruct-2407-Q4_K_M 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 1. そのスナックは甘いですか? いいえ
1-推理 ポテトチップス 不正解
2-質問 2. そのスナックは塩味ですか? はい
2-推理 プレッツェル 不正解
3-質問 3. そのスナックは揚げてありますか? いいえ
3-推理 ナッツ 不正解
4-質問 4. そのスナックはクリスピーな食感ですか? はい
4-推理 クラッカー 不正解
5-質問 5. そのスナックは小麦粉を主成分としていますか? いいえ
5-推理 スナック 不正解
6-質問 6. そのスナックはチーズ味ですか? いいえ
6-推理 せんべい 不正解
7-質問 ## ラウンド7:* 質問: 7. そのスナックは米を主成分としていますか? いいえ
7-推理 ポップコーン 正解

ゲーム終了

正解!ターン数: 7

ゲーム 3

ゲーム開始

秘密の単語: 杖
ヒント: 道具

モデル 役割
Mistral-Large-Instruct-2407-Q4_K_M 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(Mistral-Large-Instruct-2407-Q4_K_M) 判定者(gpt-4o-mini-2024-07-18)
1-質問 その道具は電気で動くものですか? いいえ
1-推理 ハンマー 不正解
2-質問 その道具は金属製ですか? いいえ
2-推理 ペン 不正解
3-質問 質問: その道具は手に持つものですか? はい
3-推理 不正解
4-質問 その道具は日常生活でよく使われるものですか? いいえ
4-推理 望遠鏡 不正解
5-質問 その道具は野外活動で使われるものですか? いいえ
5-推理 不正解
6-質問 その道具は自然に存在するものから作られていますか? はい
6-推理 不正解
7-質問 その道具は食事に関連していますか? いいえ
7-推理 不正解
8-質問 その道具は木製ですか? はい
8-推理 その道具は木製ですか?という質問に対して「はい」と回答されたことから、秘密の単語を推測します。推測した名詞: 櫛 不正解
9-質問 その道具は個人の体を整えるために使われるものですか? いいえ
9-推理 推測した名詞: 筆記具 不正解
10-質問 ## ラウンド10:* 質問: その道具は文字を書くために使われるものですか? いいえ
10-推理 刷毛 不正解
11-質問 その道具は芸術作品を作る際に使われるものですか? いいえ
11-推理 刷毛 不正解
12-質問 ## ラウンド12:* 質問: その道具は弦を持っていますか? いいえ
12-推理 刷毛 不正解
13-質問 ## ラウンド13:* 質問: その道具は家事で使われるものですか? いいえ
13-推理 刷毛 不正解
14-質問 ## ラウンド14:* 質問: その道具は塗装や修復に使われるものですか? いいえ
14-推理 刷毛 不正解
15-質問 ## ラウンド15:* 質問: その道具は液体を扱うために使われるものですか? いいえ
15-推理 はさみ 不正解
16-質問 その道具は古代から使われているものですか? はい
16-推理 刷毛 不正解
17-質問 ## ラウンド17:* 質問: その道具は平らな表面を持っていますか? いいえ
17-推理 刷毛 不正解
18-質問 その道具は楽器ですか? いいえ
18-推理 刷毛 不正解
19-質問 ## ラウンド19:* 質問: その道具は日常生活で使われることがありますか? はい
19-推理 刷毛 不正解
20-質問 その道具は両手で持つものですか? いいえ
20-推理 刷毛 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム開始

秘密の単語: 杖
ヒント: 道具

モデル 役割
gpt-4o-mini-2024-07-18 質問者
Mistral-Large-Instruct-2407-Q4_K_M 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 1. それは手で使う道具ですか? はい
1-推理 ハサミ 不正解
2-質問 2. それは日常的に使われる道具ですか? いいえ
2-推理 ドライバー 不正解
3-質問 ## ラウンド3:* 質問: 3. それは特定の作業や趣味のために使われる道具ですか? はい
3-推理 ペン 不正解
4-質問 4. それは木工や金属加工のために使われる道具ですか? いいえ
4-推理 釣り具 不正解
5-質問 5. それは絵画や描画のために使われる道具ですか? いいえ
5-推理 ナイフ 不正解
6-質問 6. それは料理に使われる道具ですか? いいえ
6-推理 カメラ 不正解
7-質問 ## ラウンド7:* 質問: 7. それはスポーツやアウトドア活動に使われる道具ですか? いいえ
7-推理 顕微鏡 不正解
8-質問 ## ラウンド8:* 質問: 8. それは音楽に関連する道具ですか? いいえ
8-推理 テープレコーダー 不正解
9-質問 ## ラウンド9:* 質問: 9. それは科学実験や研究に使われる道具ですか? いいえ
9-推理 ルーペ 不正解
10-質問 ## ラウンド10:* 質問: 10. それは手芸やクラフトに使われる道具ですか? いいえ
10-推理 工具 不正解
11-質問 ## ラウンド11:* 質問: 11. それは医療や健康に関連する道具ですか? いいえ
11-推理 パソコン 不正解
12-質問 ## ラウンド12:* 質問: 12. それは教育や学習に関連する道具ですか? いいえ
12-推理 時計 不正解
13-質問 ## ラウンド13:* 質問: 13. それはゲームや玩具に関連する道具ですか? いいえ
13-推理 不正解
14-質問 ## ラウンド14:* 質問: 14. それは建設や修理に関連する道具ですか? いいえ
14-推理 カメラ 不正解
15-質問 ## ラウンド15:* 質問: 15. それは美容や衛生に関連する道具ですか? いいえ
15-推理 コンパス 不正解
16-質問 ## ラウンド16:* 質問: 16. それは通信や情報処理に関連する道具ですか? いいえ
16-推理 釘抜き 不正解
17-質問 ## ラウンド17:* 質問: 17. それは電子機器に関連する道具ですか? いいえ
17-推理 不正解
18-質問 ## ラウンド18:* 質問: 18. それは動物や植物に関連する道具ですか? いいえ
18-推理 スパナ 不正解
19-質問 ## ラウンド19:* 質問: 19. それはスポーツやアウトドア活動以外の特定の趣味に関連する道具ですか? はい
19-推理 パズル 不正解
20-質問 20. それは特定の趣味の中で手作業を伴う道具ですか? はい
20-推理 レゴ 不正解

ゲーム終了

正解にたどり着くことはできませんでした。

ゲーム 4

ゲーム開始

秘密の単語: シャベル
ヒント: 道具

モデル 役割
Mistral-Large-Instruct-2407-Q4_K_M 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(Mistral-Large-Instruct-2407-Q4_K_M) 判定者(gpt-4o-mini-2024-07-18)
1-質問 この道具は人間が手に持って使うものですか? はい
1-推理 ペン 不正解
2-質問 この道具は電子機器ですか? いいえ
2-推理 ## ラウンド2:* 質問: この道具は電子機器ですか?* 回答: いいえ### ★推測した名詞* 鋏 不正解
3-質問 * 質問: この道具は日常生活で使われるものですか? はい
3-推理 はさみ 不正解
4-質問 ラウンド4の質問: この道具はキッチンで使われるものですか? いいえ
4-推理 ## ラウンド4:### 推測した名詞* ペンチ 不正解
5-質問 この道具は書くために使われるものですか? いいえ
5-推理 ノコギリ 不正解
6-質問 ### ラウンド6の質問:この道具は切るために使われるものですか? いいえ
6-推理 ### 推測した名詞* ハンマー 不正解
7-質問 * 質問: この道具は金属製ですか? はい
7-推理 レンチ 不正解
8-質問 * 質問: この道具は作業をするために使われるものですか? はい
8-推理 工具箱 不正解
9-質問 * 質問: この道具は家庭内で使われるものですか? はい
9-推理 はさみ 不正解
10-質問 この道具は修理や組み立てに使われるものですか? いいえ
10-推理 かぎ 不正解
11-質問 この道具は手動で動作するものですか? はい
11-推理 スパナ 不正解
12-質問 この道具は家庭内で使われる作業に使う金属製の手動道具です。この道具はキッチンや書くためのものではなく、切るためにも使われません。修理や組み立てには使われませんが、日常生活で使われるものです。### ラウンド12:* 質問: この道具は洗濯に いいえ
12-推理 不正解
13-質問 ラウンド13の質問: この道具は清掃に使われるものですか? はい
13-推理 ホウキ 不正解
14-質問 ## ラウンド14:* 質問: この道具は床を掃くために使われるものですか? いいえ
14-推理 ちりとり 不正解
15-質問 ### ラウンド15:* 質問: この道具は埃を取るために使われるものですか? いいえ
15-推理 モップ 不正解
16-質問 ### ラウンド16:この道具は液体を取り扱うために使われるものですか? いいえ
16-推理 ごみ箱 不正解
17-質問 ### ラウンド17:この道具は日常生活で使われるものですか? はい
17-推理 バケツ 不正解
18-質問 ### ラウンド18:この道具は磨くために使われるものですか? いいえ
18-推理 不正解
19-質問 ### ラウンド19:この道具はガーデニングに使われるものですか? はい
19-推理 じょうろ 不正解
20-質問 ### ラウンド20:この道具は土を掘るために使われるものですか? はい
20-推理 シャベル 正解

ゲーム終了

正解!ターン数: 20

ゲーム開始

秘密の単語: シャベル
ヒント: 道具

モデル 役割
gpt-4o-mini-2024-07-18 質問者
Mistral-Large-Instruct-2407-Q4_K_M 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 1. この道具は主に家庭で使われますか? いいえ
1-推理 ハンマー 不正解
2-質問 2. この道具は屋外で主に使用されますか? はい
2-推理 シャベル 正解

ゲーム終了

正解!ターン数: 2

ゲーム 5

ゲーム開始

秘密の単語: オートバイ
ヒント: 移動手段

モデル 役割
Mistral-Large-Instruct-2407-Q4_K_M 質問者
gpt-4o-mini-2024-07-18 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(Mistral-Large-Instruct-2407-Q4_K_M) 判定者(gpt-4o-mini-2024-07-18)
1-質問 この移動手段は空を飛びますか? いいえ
1-推理 バス 不正解
2-質問 この移動手段は車輪がついていますか? はい
2-推理 自転車 不正解
3-質問 この移動手段はエンジンがついていますか? はい
3-推理 オートバイ 正解

ゲーム終了

正解!ターン数: 3

ゲーム開始

秘密の単語: オートバイ
ヒント: 移動手段

モデル 役割
gpt-4o-mini-2024-07-18 質問者
Mistral-Large-Instruct-2407-Q4_K_M 回答者
gpt-4o-mini-2024-07-18 正誤判定者
ターン 質問者(gpt-4o-mini-2024-07-18) 判定者(gpt-4o-mini-2024-07-18)
1-質問 1. それは車ですか? いいえ
1-推理 バイク 不正解
2-質問 2. それは公共交通機関ですか? いいえ
2-推理 自転車 不正解
3-質問 3. それは航空機ですか? いいえ
3-推理 不正解
4-質問 ## ラウンド4:* 質問: 4. それは徒歩での移動手段ですか? いいえ
4-推理 バス 不正解
5-質問 質問: 5. それはバイクですか? はい
5-推理 バイク 不正解
6-質問 ## ラウンド6:* 質問: 6. それはオートバイですか? はい
6-推理 オートバイ 正解

ゲーム終了

正解!ターン数: 6

最終結果

モデル 勝利数
Mistral-Large-Instruct-2407-Q4_K_M 3
gpt-4o-mini-2024-07-18 1
引き分け 1

まとめ

今回は、アキネータゲームを通じて2つのLLMモデルの相対評価を行うための環境を作り、いくつかのモデルで検証しました。今回得られた知見としては、下記のとおりでしょうか。

  • ヒントなしだと、難易度が高すぎて正解にたどり着けないことが多い。
  • 逆に、ジャンルを与えてしまうと難易度が低くなりすぎて運要素が強くなる。
  • Yes/Noの回答が嘘かどうかを現状のLLMで判定するのは難しい。
  • 秘密のキーワードを日本語にしたとき、推理した単語が秘密のキーワードと一致しているかどうかを判断するのが英語よりも難しい。
  • 今回用いたシンプルなプロンプトでは、戦略的な質問や推理があまりできていないと感じた。
    • 対策としては、今流行りのReflectionプロンプトやo1のような推論プロセス改善が有効かもしれない。

それと、今回は下記の観点でも主観的な評価をしてみました。

  • プロンプト通りの期待される出力をしてくれたか?
  • ある程度、情報を収集するための質問や適切な推理ができているか?

ヒントありで数ケース確認しただけのあくまで主観的な評価ですが、現状の印象としては下記のとおりです。(ちなみに、下記に登場しない派生モデルは余分な発言をすることが多かったので除外しています)

Mistral-Large-Instruct-2407-Q4_K_M(123B)> gemma-2-27b-it.f16.Q8_0 ≒ gemini-1.5-flash-exp-0827 > gpt-4o-mini-2024-07-18 > gemma-2-9b-it.f16.Q8_0 > Athene-70B-Q4_K_M ≒ qwen2:72b-instruct-q4_K_M

ただ、ヒント無しの難易度が高い場合はgpt-4o-mini-2024-07-18が頭一つ抜けていた印象です。。これはおそらく、ラウンド数が増えるにつれてプロンプトが長くなり、大抵のモデルで情報の欠落が多くなるからじゃないかと推察します。

先日リリースされたo1モデルでも試したいところですが、私はまだTier5になっていないので使えません。。。まあ1,000ドル払えばすぐに使えるようになるのですが、まだそこまで投資する勇気がありません。ちなみにo1を使ったときのAPI料金自体は、5ゲーム回して概算数百円〜千円ぐらいだと予想してます。

ここまで見ていただきありがとうございました。次回もぜひ、よろしくお願いします。

Discussion