🎮

LLMをゲームプレイで評価するLMGame-Benchを紹介

に公開

こんにちは、松尾研究所の奥村です。

LLMの性能向上により、従来のNLPタスクだけではなく、より複雑な推論が求められるタスクでの活用が注目されています。特にゲームプレイは、画面の理解や記憶、複雑な意思決定などが要求されるため、LLMの能力を総合的に評価する有効な手段として期待されています。

今回はLLMをゲームで評価するLMGame-Benchというベンチマークについて紹介します。
公式サイト:
https://lmgame.org/
論文:
https://arxiv.org/pdf/2505.15146

LMGame-Bench概要

ゲーム画面のみから直接行動を決定して評価するのではなく、行動決定を補助するモジュール(harness)をくっつけて評価するのが特徴的です。以下の3つがharnessとして採用されています。各モジュールでの推論は同一のLLM/VLMで行われます。

  • Perception modules
    • グリッドベースのゲームでは、ゲーム画面をもとにオブジェクトやプレイヤーの位置をテキストで出力する
    • ノベル形式のゲームでは、ゲーム画面から会話部分のみを抽出する
  • Memory modules
    • 過去Nステップの行動を記憶しておく
    • 前ステップの行動結果の成否を判定する
  • Reasoning modules
    • Perception modulesやMemory modulesの結果をもとに、次ステップの行動をreasoningありで推論する

ゲームのスクリーンショットのみを入力として直接行動を推論させる方法だと、現状のVLMではパフォーマンスが出ないことが知られています。ゲームによっては、ランダム推論とほぼ同じパフォーマンスしか出ないこともあるようです。論文中では以下のように述べられています。

At first glance, evaluating LLM agents on games appears straightforward, by simply sending game screenshots to vision-language models (VLMs) to generate the next actions. However, directly placing a model in gaming environments can result in low performance, often close to that of random action-taking baselines.

行動決定の際にharnessをつける試みは他のゲームAIでも行われています。

  • CRADLEというフレームワークでは、1回の行動決定を複数のステップに分割しています。Information gatheringで画面内の情報をテキストに変換し、Self reflectionで前ステップの行動を振り返る、といった具合です。
  • ClaudePlaysPokemonのスターターコードを確認すると、キャラクターやオブジェクトの位置情報はソフトウェアのROMの情報を利用していることが分かります(参考)。

(参考)CRADLEのプレイ動画:
https://www.youtube.com/watch?v=ay5gBqzPcDE

対象ゲーム

2048、Sokoban、Tetris、Candy Crush、マリオ、逆転裁判の6つが対象になっています。Sokoban(倉庫番)について補足します。

Sokobanは、

  • 荷物を特定の場所に運ぶパズルゲーム
  • 荷物は引くことはできず、押すことのみ
    • 壁際に荷物を追いやってしまい、簡単に詰み(deadlock)の状況が発生する

のようなゲームです。
実際のゲーム画面は以下のようになっています。

https://ja.wikipedia.org/wiki/倉庫番

Harnessありで評価されたリーダーボードが公開されていますが、Sokobanはreasoningなしのモデルだとほぼクリアできないようです。スコアはクリアした盤面数になっています。

https://huggingface.co/spaces/lmgame/lmgame_bench

動かしてみた

gpt-5-thinking-highがSokobanで最も良いスコアを出しており、挙動が気になったので実際に動かしてみました。

一部無駄な動きが見えますが、詰まずにクリアできています。

まとめ

LLMをゲームプレイで評価するLMGame-Benchを紹介しました。他にもベンチマークは公開されており(V-MAGEBALROG)、KaggleではGame Arenaが発表されるなど、最近になって評価まわりが整備されてきた印象があります。ゲームプレイにおいては、現状のLLMだと推論が非常に遅かったり、思ったように動いてくれないなど、もどかしさを感じる部分が多いです。今後どう発展するのかを楽しみにしつつ、継続的に技術動向は追っていきたいと思います。

松尾研究所テックブログ

Discussion