MARFT: Multi-Agent Reinforcement Fine-Tuning
はじめに
この論文は、新しいファインチューニングの枠組みとして**マルチエージェントシステム(LaMAS)の設計やマルチエージェント強化学習(MARL)の理論的基盤を広く扱っており、前半はやや survey的な立ち位置を持つ内容になっています。
興味のある方はぜひ原文を読んでみてください
MARFT: Multi-Agent Reinforcement Fine-Tuning (arXiv, 2025)
今回はその中でも、特にMARFTの重要な理論・設計部分だけを抜き出してまとめます。
MARFTとは何か
MARFT(Multi-Agent Reinforcement Fine-Tuning)は、
複数のLLMエージェント(LaMAS)を強化学習を通じて最適化するための新しい枠組みです。
従来の単一エージェント型強化学習(RLHFやRFTなど)を拡張し、
「複数のLLMが協調しながら自己改善していく」ことを目的としています。
ポイント:
あくまで理論枠組みであり、現段階ではfuture-work的な性格が強いですが、
今後のLaMAS研究の基盤になる重要な提案です。
MARFTシステム設計
Flex-POMDP モデル
この Flex-POMDP モデルは、各エージェントがどのように行動を選ぶかを定義する理論です。
従来の single-agent 強化学習では、
エージェントは POMDP(Partially Observable Markov Decision Process) を用いて
観測できない未来の報酬を考慮して行動します。
しかし、LaMAS のようなマルチエージェント環境では、
「他のエージェントの出力を見て次の行動を決める」
という構造が一般的です(例:Pioneer → Observer構造)。
このとき、どのタイミングで他エージェントの出力を参照すべきかは従来のPOMDPでは表現できません。
そこで登場するのが Flex-POMDP です。
Flex-POMDPでは「他エージェントの出力をどの程度観測するか」を決める依存関数 ( D_t ) が導入されます。
数式による定義
各エージェントの行動は次のように定義されます:
このとき、各エージェントへの入力は他のエージェントの出力を加味した観測ベクトルになります:
ここで
( D_t ) の具体形は以下のように softmax attention として定義されています:
つまり、各エージェントが他エージェントの出力に対してどの程度依存するかが
Transformer型Attentionで学習されるという発想です。
PPOとの関係
MARFTでは、PPO(Proximal Policy Optimization)による方策更新の中で
この ( D_t ) も同時に最適化されます。
ただし論文著者によると、この理論的 ( D_t ) 学習は現段階では実装に至っていない(Appendix C)。
理由は、Attention計算の膨大さと安定性問題のため。
そのため、現状のMARFT実装では「他エージェントの出力を待ち、それを観測に含める固定構造」を採用しています。
関連研究とのつながり
この「協調構造を最適化できない」というMARFTの制約を解決するために、
後続研究として発表されたのが以下の論文です👇
Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs
こちらでは、MARFTで理論的にしか扱えなかった「他エージェントの参照タイミングの最適化」を
実装レベルで実現しています。
推論フェーズ(Inference Phase)
MARFTでは、推論フェーズと学習フェーズを交互に繰り返す構造になっています。
推論フェーズでは「学習のための経験データ」を収集します。
フェーズの流れ
-
Formatter
- 各エージェントのプロンプトを生成。
Profiles for Agents にまとめられた設定をもとに、観測情報をエージェントごとに再構成。 - テンプレートベースの簡易的な処理。
- 各エージェントのプロンプトを生成。
-
LoRA Adapter経由の出力
- 各エージェントは LoRA アダプタを介して出力。
- LoRAの切り替えにより、単一LLM上でも複数エージェント最適化を実現。
-
Central Critic Head (CCH)
- 各エージェントの状態・行動を統合して value を推定。
- 結果をBufferに保存し、次の学習フェーズで利用。
学習フェーズ(Training Phase)
学習フェーズでは、Bufferからサンプルを取り出し、
LoRAアダプタおよびCentral Criticを更新します。
流れの概要
-
GAE (Generalized Advantage Estimation)
- Central CriticのV値を使ってTD誤差を計算。
- 各エージェントのGAEを求め、依存関係 ( D_t ) に基づき正規化。
-
Central Criticの更新
-
エージェントの方策更新(PPO)
- 各エージェントごとに Modified PPO Loss を最小化。
MARFT Trainer の1サイクル
ステップ | 内容 |
---|---|
① | サンプル収集(Flex-POMDP上でエピソード生成) |
② | GAEでアドバンテージを算出 |
③ | Central Critic更新 |
④ | 各エージェントのPPO更新 |
⑤ | LoRA/依存関数更新・次エピソードへ |
評価と今後の展望
現段階では、MARFTは限定的な評価設定で実験が行われています。
主に協調タスク(例:MATHタスク)を用いて検証されました。
主な結果
- 複数エージェント+MARFT は、単エージェントや従来RFTよりも高いチーム報酬を達成。
- 学習の安定性(報酬変動幅、Critic損失の揺らぎ)が向上。
- Token-level版はより細かい制御が可能だが、初期は不安定で収束が遅い。
- Action-level版は安定性と収束速度が優れている。
🧭 まとめ
現状ではまだ理論段階の色が強いものの、
MARFTは「LLMを用いたマルチエージェント強化学習」の設計において
非常に重要な概念的礎を提供しています。
今後、この枠組みをベースに「協調的ファインチューニング」や
「Meta-policy Collaboration」などの発展系が登場していくと考えられます。
🔗 参考リンク
- MARFT: Multi-Agent Reinforcement Fine-Tuning (arXiv, 2025)
- Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs (arXiv, 2025)
💬 おわりに
今回は論文の重要部分だけを抜き出して整理しました。
まだ評価は限定的ですが、この考え方をもとにLaMASの最適化を試すことで、
より「協調的に学ぶLLM」 への発展が期待できます。
今後、実装例や自分なりの実験結果を追記できたらまた記事にします。
Discussion