📝

MastraによるAIエージェントの”メモリ”について

ytaisei（たいせー）

2025/05/27に公開

こんにちは。AI ShiftでWebフロントエンジニアをしている安井です。今回はMastraのメモリに焦点を当てて解説をしていきます。

 はじめにMastraはTypeScriptでAIエージェントを構築するためのフレームワークです。エージェント、ワークフロー、RAG、評価といった主要機能だけでなく、直感的にデバッグ可能なplayground uiや運用を見据えたOpsの機能なども豊富に備わっています。
https://mastra.ai/
また本記事は2025/05時点での内容に基づいています。

 コンテキストウィンドウメモリは、エージェントが会話の文脈を把握するために重要な情報を整理・保持する仕組みです。これは、すべてのチャットメッセージを圧縮し、言語モデルが任意の時点で見ることができる情報の総量（コンテキストウィンドウ）を効率的に管理します。
https://mastra.ai/ja/docs/memory/overview
Mastraではこのコンテキストは大きく3つに分類されます。

 1. メッセージ履歴MastraでMemoryを使用する方法は、Agent ClassにMemory Classのインスタンスを接続するだけです。会話の履歴を永続化したい場合は、UpstashやPostgresなどのStorageアダプターと接続する必要があり、デフォルトではLibSQLStoreを使用するためサーバープロセスが再起動すると履歴が消えてしまいます。
export const myMemoryAgent = new Agent({
  name: "MemoryAgent",
  instructions: "...",
  model: openai("gpt-4o"),
  memory: new Memory(),
});
また、デフォルトでMemoryインスタンスは現在のスレッドから最新40件のメッセージを各新規リクエストに含めます。
!新規リクエストに含めるメッセージ履歴の件数を調整することでエージェントが参照する情報の量を制御でき、応答の精度に影響を与えることができます。

 2. セマンティックリコール次にセマンティックリコールです。先ほどのメッセージ履歴はデフォルトで最新40件のメッセージに絞ってリクエストに含めることで、直近の文脈に基づいた応答を可能にしていました。
しかし、デフォルトでは40件を超える過去のメッセージはリクエストに含まれないため、以前の会話内容が参照されず、文脈が途切れてしまうことがあります。
セマンティックリコールは、そうした制約を補うための仕組みです。


https://mastra.ai/image/semantic-recall.png
セマンティックリコールはベクトルベースの検索手法で、過去の会話が直近の履歴に含まれていなくても、エージェントが長期的な文脈を維持できるようにします。
const agent = new Agent({
  memory: new Memory({
    options: {
      semanticRecall: {
        topK: 3, // 最も類似した3つのメッセージを取得
        messageRange: 2, // 各一致の前後2つのメッセージを含める
      },
    },
  }),
});
設定方法は先ほどのMemory ClassのoptionsにsemanticRecallを追加し、topK（意味的に類似したメッセージを何件取得するか）とmessageRange（各一致に対してどれだけの周囲のコンテキストを含めるか）の値を設定します。
!セマンティックリコールは、ベクトルベースの検索手法で過去の会話から意味的に関連するメッセージを検索し現在のリクエストに組み込むことができます。

 3. ワーキングメモリそして最後がワーキングメモリです。
ワーキングメモリは、エージェントがスレッド全体を通じてユーザーに関する重要な情報を保持し、常に利用可能な状態にしておく仕組みです。これはエージェントの「メモ帳」のような役割を果たし、会話中に人が相手の名前や好みを覚えておくことに似ています。
また、ワーキングメモリの挙動は公式ドキュメント内にあるデモ動画を見ていただくと直感的に理解ができます。
https://youtu.be/ik-ld_XA96s?si=i0Kq4eV2FmnQYsGE
ワーキングメモリを使用するにはMemory ClassのoptionでworkingMemoryを有効化し、管理したい内容をtemplateとして設定します。
const memory = new Memory({
  options: {
    workingMemory: {
      enabled: true,
      use: "tool-call",
      template: `
# User Profile
 
## Personal Info
 
- Name:
- Location:
- Timezone:
`,
    },
  },
});
!ワーキングメモリは、エージェントが会話全体を通してユーザーに関する重要な情報を保持し、常に利用できるようにする仕組みです。
＊注意： workingMemory optionのuseにはtool-callとtext-streamの二つが設定可能です。デフォルトはtext-streamですが、今後のbreaking changeで選択肢がtool-callのみに限定される予定のため、本記事ではtool-callを前提にして解説します。

 ワーキングメモリのtemplate設計ワーキングメモリに設定するtemplateは以下の内容に気をつける必要があります。

短く、焦点を絞ったラベル付け
段落や非常に長い見出しは避け、## Personal Infoのように簡潔にする


一貫した大文字小文字の使用
大文字小文字の不一致は更新を乱雑にする可能性がある


プレースホルダーテキストはシンプルに設定

[Date]などのヒントを使用して、LLMが正しい場所に入力できるようにする

これらの内容は要約するとわかりやすく、シンプルにtemplateを設計する必要があるというものです。
それに加えて、更新ルールをinstructionsで言及することも必要です。毎回ワーキングメモリを更新してほしいのか、特定の条件下でのみ更新してほしいのかなどを制御することができます。
https://mastra.ai/ja/docs/memory/working-memory#効果的なテンプレートの設計

 ワーキングメモリの内部実装これまででMastraのメモリには3つのコンテキストウィンドウ（メッセージ履歴、セマンティックリコール、ワーキングメモリ）があり、それぞれの特徴が何であるかを整理しました。
メッセージ履歴は過去コンテキストを最新何件まで使用するかを調整するもので、セマンティックリコールはメッセージ履歴に入りきらない過去の会話から意味的に関連するメッセージを検索し現在のリクエストに組み込むものでした。
これら二つは直感的に理解しやすいかと思います。しかし、ワーキングメモリが内部でどのように実現されているのか不透明な点があると考え、本章ではMastraがどのようにワーキングメモリを実装しているのか見ていきたいと思います。
https://github.com/mastra-ai/mastra/tree/main/packages/memory
MastraのMemoryに関する実装はpackages/memoryの中に配置されています。

 ツールとしてワーキングメモリの更新を実装するsrc/tools/working-memory.tsの中にupdateWorkingMemoryToolというツールが実装されていることがわかります。
https://github.com/mastra-ai/mastra/blob/mastra%400.6.3/packages/memory/src/tools/working-memory.ts
このツールの役割を整理すると以下の内容で構成されています。
description（ツールの役割）
Update the working memory with new information
訳）ワーキングメモリを新しい情報で更新する

parameters（ツールの引数）
memory
The Markdown-formatted working memory content to store
訳）保存するMarkdown形式のワーキングメモリの内容


execute（実行内容）
指定されたスレッドIDのメタデータに更新するワーキングメモリの情報を保存

!src/tools/working-memory.tsに「更新するワーキングメモリの内容を指定されたスレッドIDに保存する」というツールが実装されています。

 エージェントのツールにupdateWorkingMemoryToolを拡張するここで用意されたupdateWorkingMemoryToolですが、ツールが作成されただけではワーキングメモリを更新することはできないため、エージェントがこのツールを使用できるように拡張する必要があります。
updateWorkingMemoryToolはMemory ClassのgetToolsメソッドで設定されており、workingMemory optionがenabledかつtool-callが設定されている状況で有効になります。
https://github.com/mastra-ai/mastra/blob/mastra%400.6.3/packages/memory/src/index.ts#L577-L585
そしてこのMemoryのツールとユーザが独自に定義したツールなどをMergeする形でAgent Classを拡張することでエージェントのツールの選択肢にワーキングメモリの更新が拡張されます。
https://github.com/mastra-ai/mastra/blob/mastra%400.6.3/packages/core/src/agent/index.ts#L659-L675
https://github.com/mastra-ai/mastra/blob/mastra%400.6.3/packages/core/src/agent/index.ts#L945-L1015

 改めて、なぜワーキングメモリの更新ルールをinstructionsで言及する必要があるのか先ほどワーキングメモリのtemplate設計の項目で更新ルールをinstructionsで言及することが必要であると解説しました。その理由もワーキングメモリの内部実装を踏まえると理解できます。
ワーキングメモリの更新（updateWorkingMemoryTool）はAgent Classが使用するツールの1つとして拡張されていました。そしてエージェントがどのようにツールを選択するかはユーザからのリクエストとinstructionsによって影響を受けます。
!つまり、いつ、どのようにワーキングメモリを更新してほしいかinstructionsに定義することで、エージェントはツールとしてupdateWorkingMemoryToolを使用してワーキングメモリを更新してくれます。
これらを踏まえるとワーキングメモリを使用する際に重要な点として、templateをシンプルに設計するだけでなく、instructionsでその更新タイミングと振る舞いを制御することがいかに重要かがわかると思います。

 まとめ今回はMastraにおけるメモリの特徴として3つのコンテキストウィンドウ（メッセージ履歴、セマンティックリコール、ワーキングメモリ）を紹介しました。
その中でも内部の実装がブラックボックス化していたワーキングメモリに焦点を当てて、実装を解説しその上でどのように扱うべきかを整理しました。
エージェントにおけるメモリの扱いはユーザが期待する振る舞いを実現する上でも重要な要素の1つになります。

AI Shift Tech BlogPublication

株式会社AI Shift（サイバーエージェント100％子会社）開発チームのTech Blogです。

はじめに

コンテキストウィンドウ

1. メッセージ履歴

2. セマンティックリコール

3. ワーキングメモリ

ワーキングメモリのtemplate設計

ワーキングメモリの内部実装

ツールとしてワーキングメモリの更新を実装する

エージェントのツールにupdateWorkingMemoryToolを拡張する

改めて、なぜワーキングメモリの更新ルールをinstructionsで言及する必要があるのか

まとめ

Discussion