🤖

AIエージェントに「過去の失敗」を教えて、精度を上げる

に公開

本記事では、AIエージェントの性能を高めるための手法について、ざっくり解説します。

株式会社ナレッジセンスは、「エンタープライズ企業の膨大なデータを掘り起こし、活用可能にする」プロダクトを開発しているスタートアップです。

この記事は何

この記事は、AIエージェントに「手続き記憶」を持たせることで性能を向上させる手法「Memp」の論文[1]について、日本語で簡単にまとめたものです。

https://arxiv.org/abs/2508.06433

今回も「そもそもAIエージェントとは?」については、知っている前提で進みます(参考)。

本題

ざっくりサマリー

AIエージェントに「過去の失敗」を教えて精度を上げる手法

Mempは、AIエージェントの精度・効率を上げるための新しい手法です。浙江大学とアリババの研究者らによって2025年8月に提案されました。

ここで言う「AIエージェント」とは、例えばOpenAIの「Deep Research」や「Claude Code」のようなエージェントです。

「AIエージェント」が流行していますが、開発者として、イチから自分でエージェントを構築するのは、実はかなり難しいです。

ただ、今回のMempという手法、結構面白いです。この手法では、AIに、「過去の成功・失敗経験を参考にさせる」 ことで精度を上げます。つまり、「過去にこういうプロセスで仕事したら、結果的に成功/失敗したよ」という「行動ログ→結果」を、AIが動的に参照できるようにすることで、タスクの正確性・速度を上げます。

問題意識

「AIエージェント」の機能を自分で実装しようとすると、精度を上げるのが大変です。

というか、OpenAI社の天才たちが構築した「エージェント」ですら、いざ使ってみると「期待通りに動かない」ってことはよくあります。

今回の「Memp」という手法では、「AIエージェントが過去の経験から学んでない」状況が問題であると定義しています。確かに、「過去に失敗した手順を、AIがもう一度繰り返して、同じように失敗してしまう」ということがよく起こります。

手法

そこで、Mempでは、エージェントが自身の経験を蓄積し、自己改善していくための仕組みを提案しています。(ここでいう「経験」とは、AIエージェント行動の軌跡と、その結果です。)

AIエージェントに「過去の失敗」を教えて精度を上げる手法

具体的な手順は以下の4ステップです。

【事前にやっておくこと】

  1. 記憶の構築
    • 上図の「Build」部分。過去の行動ログ(軌跡)から手順書を構築
    • 例えば、「XXして、YYして、ZZしたら、上手くAAを完了できた」みたいなログを構築

【ユーザーが命令を入力して来たとき】

  1. いきなり計画を立てず、まずは過去のログを検索
    • 1の記憶から、今回のユーザーの命令に近いログを検索
    • (→これにより、過去の成功・失敗を参考にした上で行動計画を立てることが可能)
  2. タスクの実行
    • (ここは普通)2の計画に従ってタスクを実行
  3. 随時、記憶を更新する
    • 3でタスクを実行した結果(成功・失敗)をもとに、1の記憶を更新

Mempという手法のキモは、AIエージェントが「過去の失敗を糧に」行動できるようにしたことです。人間が予め「手順書」を作成しておくと、膨大な手間がかかります。しかし、Mempでは、AIが自分自身の成功・失敗をメモして、随時更新するようにしたことで、精度と効率のいいエージェントが構築可能になっています。

成果

  • ALFWorld(家事タスク)とTravelPlanner(旅行計画タスク)という2つのデータセットにおいて、エージェントのタスク成功率を大幅に向上。実行ステップ数を削減
  • 記憶の更新戦略では、エラー修正を含むAdjustment方式が最も効果的で、Vanilla方式と比較して+0.7ポイントの精度向上と14ステップの削減を実現
  • GPT-4oで構築した手続き記憶を、より弱いモデル(Qwen2.5-14B)に転移させても性能向上が確認され、記憶の転移可能性を実証

(例:「Memp」を使うことで、正確に・効率的にタスクを実行できるようになっています↓)

まとめ

弊社では普段から、エンタープライズ向けに生成AIサービスを開発しています。大企業のみなさまからも、かなり「AIエージェント」は期待されていますが、現在の実態としては、技術的な壁があり「イマイチ」な精度になってしまうことがほとんどです。

ただ、いわゆる「RAG」が既に浸透しているように(一昔前は全然ダメでした)、AIエージェントも今後、確実に技術が追いついて来ます。例えば今回のMempという手法のように、「新人が仕事を覚えていく過程」をAIでも再現できるようにすれば、もっと精度が上がっていきます。

みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら

脚注
  1. "Memp: Exploring Agent Procedural Memory", Fang et al. ↩︎

ナレッジセンス - 生成AI・RAGの知見共有ブログ

Discussion