Memory in the Age of AI Agentsから学ぶメモリ研究の現在と事後学習の今後
Memory in the Age of AI Agents: A Surveyが俯瞰的で良い
AIエージェントの「メモリ」に関する研究が急増していますよね。Memory in the Age of AI Agents: A Surveyというサーベイ論文を眺めていたら、200本を超える関連論文がリストアップされていました。
研究の大半は「Token-level Memory」と呼ばれるアプローチに集中しているのです。外部のベクトルデータベース(文章を数値に変換して保存し、意味で検索できるデータベース)に情報を保存したり、RAG(必要な情報を検索してAIに渡す仕組み)で必要なときに検索したり、会話ログをテキストとして蓄積したり。要するに、AIの「外側」にメモリを置くアプローチです。
一方で、AIのモデル重み自体に知識を埋め込む「Parametric Memory」の研究は、このサーベイのリストでは十数本程度にとどまっています。これは少し意外でした。
ここで一つの問いが頭をよぎりました。もし事後学習(すでに完成したAIに追加の学習をさせること)が誰でも手軽にできるようになったら、Token-level Memoryの努力は全て無に帰すのではないでしょうか。それは何年後の話になるのでしょうか。
本記事では、サーベイ論文が提示する分類法を紹介しながら、この問いについて一緒に考えてみます。AIツールを選ぶとき、メモリの仕組みを理解していると、自分のニーズに合ったものを選べるようになるはずです。
1. Agent Memoryの分類法

サーベイ論文は、断片化した研究領域を整理するために、3つの軸でメモリを分類しています。「形式(どこに保存するか)」「機能(何のために使うか)」「ダイナミクス(どう変化するか)」です。本記事では、問いに直結する「形式」と「機能」に絞って紹介します。
1-1. 3つの形式:メモリはどこに保存されるか
メモリの「形式」とは、情報がどこに、どのような方法で保存されるかを指します。私たちが「ノートにメモするか、頭で覚えるか」を選ぶのと似ています。
Token-level(トークンレベル) は、最も一般的な形式です。外部のベクトルデータベース、知識グラフ(概念同士の関係性を図のように構造化して保存したもの)、生のテキストログなどに、はっきりと区切られた形のデータとして保存されます。代表的なシステムとして、パソコンのメモリ管理のように階層化された記憶システムを実現したMemGPT、時系列知識グラフを構築するZep、スケーラブルな長期記憶を提供するMem0などがあります。
Parametric(パラメトリック) は、AIのモデル重み自体に知識を埋め込む形式です。モデル編集や継続学習(既存の知識を保持しながら新しい知識を追加学習する手法)を通じて実現されます。アクセスは高速ですが、情報の更新には計算コストがかかります。代表的な研究として、既存の知識に影響を与えない範囲で編集するAlphaEdit、生涯学習を目指すWISEやELDERがあります。
Latent(潜在的) は、AIの隠れ状態やKVキャッシュ(AIが計算中に一時的に保持するデータ)内に、圧縮された表現として保持される形式です。R3MemやRazorAttentionなどが該当します。
1-2. 3つの機能:メモリは何のために使われるか
メモリの「機能」は、エージェントの目的に応じた分類です。
Factual Memory(ファクト記憶) は、世界やユーザーに関する知識を長期にわたって保持する機能です。私たちが「あの人は甘いものが好き」と覚えているようなものですね。ChatGPTのMemory機能やClaude Projectsの設定機能で実現されています。
Experiential Memory(経験記憶) は、過去の行動の軌跡、成功や失敗の経験、学んだスキルを保持する機能です。Reflexionは、エージェントが失敗を言語的に反省し、その反省テキストを記憶として保存することで、効率的な自己修正を実現しました。「前回この方法でうまくいかなかったから、今度は違うやり方を試そう」と学ぶ人間の姿に似ています。
Working Memory(作業記憶) は、現在進行中のタスクを実行するための短期的なコンテキストです。AIが一度に処理できる文章量の制限を克服するために使われます。
1-3. 現状の数字:Token-levelへの偏り
サーベイ論文のリストを見ると、Token-levelの研究が約半数を占めています。一方、Parametricは十数本程度です。あくまでこのサーベイがカバーした範囲での傾向ですが、Token-levelへの偏りは明らかです。
さて、この偏りはなぜ生じているのでしょうか。どうやら、Parametric Memoryには現時点でいくつかの技術的ハードルがあるようです。
2. Parametric Memory(モデル編集)の現在地
Parametric Memoryは、AIのモデル重みを直接修正することで、知識を恒久的に組み込む手法です。外部データベースへのアクセスを必要としないため、素早く知識を引き出せます。AIに「外付けハードディスク」ではなく「脳内記憶」として情報を持たせるようなものです。
2-1. 代表的な研究
AlphaEdit(2024年10月)は、「Null-Space制約」という手法を用いて、モデルの他の領域の知識を損なうことなく、特定の知識を効率的に編集することを目指しています。
WISEは、AIの知識を生涯にわたって永続的にアップデートする方法を研究しています。タイトルに「Rethinking the Knowledge Memory for Lifelong Model Editing」とあるように、従来のモデル編集の考え方を根本から見直そうとしています。
ELDER(2025年4月)は、LoRA(AIモデル全体を書き換えずに、小さな追加パーツで学習効果を得る手法)を複数組み合わせることで、継続的な知識更新を実現しようとしています。
また、古典的な継続学習の研究としてELLA(2013年)もリストに含まれており、この分野の長い歴史を物語っています。
2-2. なぜまだ主流になれないのか
Parametric Memoryが主流になれていない理由として、サーベイ論文は以下の課題を指摘しています。
第一に、壊滅的忘却(Catastrophic Forgetting)のリスクです。モデルの重みを更新すると、既存の知識が失われてしまう可能性があります。新しい言語を学んだら母語を忘れてしまった、というような状況でしょうか。AlphaEditやWISEの研究は、まさにこの問題に取り組んでいます。
第二に、更新の即時性がないことです。Token-level Memoryなら、ベクトルデータベースに新しい情報を追加すれば数秒で反映されます。一方、モデル編集には計算コストと時間がかかります。
第三に、透明性・検証可能性の課題です。外部データベースなら「何が記憶されているか」を直接確認できますが、モデル重みに埋め込まれた知識は可視化が困難です。
これらの課題があるため、「今すぐ動くもの」を作るには、Token-level Memoryを選ぶのが合理的な判断となります。私もそうすると思います。
3. Token-levelは無に帰すのか?

さて、ここまでの整理を踏まえて、冒頭の問いに戻ってみましょう。事後学習が誰でも手軽にできるようになったら、Token-level Memoryは無に帰すのでしょうか。
3-1. サーベイが示唆する方向性:ハイブリッド化
サーベイ論文を読み進めると、今後の方向性として「ハイブリッドアーキテクチャ」への収束が見えてきます。
O-MemやMultiple Memory Systems for Enhancing the Long-term Memory of Agentといった研究は、複数のメモリ形式を統合したシステムを提案しています。Token-levelの長期知識、Parametricの即時スキル、Latentの短期コンテキストを組み合わせ、AIエージェントがタスクや状況に応じてメモリ形式を自動的に切り替える設計です。
興味深いのは、強化学習を用いて「AIがどの情報を短期記憶から長期記憶に昇格させるか」を学習するアプローチです。Mem-αは、どの情報を保存し、どの情報を破棄するかを自動的に学習します。Memory-R1は、エージェントがいつ、どのようにメモリを使うべきかを最適化します。
これらの研究が示唆しているのは、Token-levelとParametricは二者択一ではなく、人間の記憶システムのように階層化されていく可能性です。短期記憶はToken-levelで、長期記憶や手続き記憶はParametricで、という役割分担です。なんだか人間の脳の仕組みに近づいているような気がしてきませんか。
3-2. 時間軸の推測
サーベイ論文の研究リストを時系列で見ると、Parametric Memoryの研究は2024年後半から2025年にかけて増加傾向にあります。AlphaEdit(2024年10月)、ELDER(2025年4月)と、壊滅的忘却を克服しようとする研究が続いています。
この傾向から推測すると、短期的(1〜3年)にはToken-level全盛が続くのではないでしょうか。実際のところ、外部データベースを使う方が圧倒的に実用的ですし、すぐに動くものが作れます。
中期的(3〜7年)には、ハイブリッド化が進むと考えられます。LoRAを素早く切り替えたり、ユーザーごとに専用の記憶層を持たせたりする技術が実用化されれば、両者の使い分けが一般的になるかもしれません。
長期的には、Parametricがインフラ化し、アプリ開発者がメモリ形式を意識しなくなる可能性もあります。ただし、これはあくまで私の推測にすぎません。
3-3. 消滅ではなく、役割分担の変化
冒頭の問いへの私の答えは、「完全消滅ではなく、役割分担の変化」です。
考えてみれば、私たち人間も外部メモ(ノート、スマホ)と脳内知識を併用しています。買い物リストは毎回覚え直す必要はないけれど、自転車の乗り方は一度覚えたら体が覚えている。AIエージェントも同様の使い分けに向かっていくのかもしれません。
あなたの業務では、どのような情報をAIに「深く記憶」してほしいと感じるでしょうか。そして、どのような情報は「外部メモ」として参照できれば十分でしょうか。営業職なら顧客の好みや過去の商談履歴、エンジニアならプロジェクト固有のコーディング規約など、具体的にイメージしてみると、この研究領域が実際のAI活用にどう影響するか見えてくるのではないでしょうか。
About me
現在、市場調査やデスクリサーチの生成AIエージェントを作っています 仲間探し中 / Founder of AI Desk Research Agent @deskrex , https://deskrex.ai
ぜひお気軽にチャットしましょう!
お仕事のご相談は以下まで、AIエージェントの開発や研修、調査代行やビジネスコンサルなどの対応も可能です。
生成AIデスクリサーチサービス Deskrex | サービスページ
生成AIデスクリサーチエージェント Deskrex App | アプリケーションサイト
DeskrexAIリサーチ | メディア
株式会社Deskrex | 会社概要
Deskrex | Xページ
- 会社概要:https://www.deskrex.ai/
- Deskrex App:https://app.deskrex.ai/
- サービスページ:https://lp.deskrex.ai/
- メディア:https://media.deskrex.ai/
- X:https://x.com/deskrex
Discussion