📄
MARFT: Multi-Agent Reinforcement Fine-Tuning

2025/10/19に公開
 はじめにこの論文は、新しいファインチューニングの枠組みとして**マルチエージェントシステム（LaMAS）の設計やマルチエージェント強化学習（MARL）の理論的基盤を広く扱っており、前半はやや survey的な立ち位置を持つ内容になっています。
興味のある方はぜひ原文を読んでみてください

MARFT: Multi-Agent Reinforcement Fine-Tuning (arXiv, 2025)
今回はその中でも、特にMARFTの重要な理論・設計部分だけを抜き出してまとめます。

 MARFTとは何かMARFT（Multi-Agent Reinforcement Fine-Tuning）は、

複数のLLMエージェント（LaMAS）を強化学習を通じて最適化するための新しい枠組みです。
従来の単一エージェント型強化学習（RLHFやRFTなど）を拡張し、

「複数のLLMが協調しながら自己改善していく」ことを目的としています。
ポイント：

あくまで理論枠組みであり、現段階ではfuture-work的な性格が強いですが、

今後のLaMAS研究の基盤になる重要な提案です。

 MARFTシステム設計
 Flex-POMDP モデル

この Flex-POMDP モデルは、各エージェントがどのように行動を選ぶかを定義する理論です。
従来の single-agent 強化学習では、

エージェントは POMDP（Partially Observable Markov Decision Process） を用いて

観測できない未来の報酬を考慮して行動します。
しかし、LaMAS のようなマルチエージェント環境では、
「他のエージェントの出力を見て次の行動を決める」

という構造が一般的です（例：Pioneer → Observer構造）。
このとき、どのタイミングで他エージェントの出力を参照すべきかは従来のPOMDPでは表現できません。
そこで登場するのが Flex-POMDP です。

Flex-POMDPでは「他エージェントの出力をどの程度観測するか」を決める依存関数 ( D_t ) が導入されます。

 数式による定義各エージェントの行動は次のように定義されます：

a_t^i \sim \pi_{\theta_i}(a_t^i \mid o_t^i, D_t(\{ a_t^j \mid j < i \}))
このとき、各エージェントへの入力は他のエージェントの出力を加味した観測ベクトルになります：

\tilde{o}_t^i = o_t^i + \sum_j \alpha_{ij,t} \, f(a_t^j)
ここで \alpha_{ij,t} は attention weight、

( D_t ) の具体形は以下のように softmax attention として定義されています：

D_t(i, j) = \text{softmax}\!\left( \frac{(W_q h_i)^\top (W_k h_j)}{\sqrt{d}} \right)
つまり、各エージェントが他エージェントの出力に対してどの程度依存するかが

Transformer型Attentionで学習されるという発想です。

 PPOとの関係MARFTでは、PPO（Proximal Policy Optimization）による方策更新の中で

この ( D_t ) も同時に最適化されます。

L_{\text{PPO}} =
-\mathbb{E}\big[ r_t(\theta) A_t \big], \quad
r_t = \frac{\pi_\theta(a_t|o_t, D_t)}{\pi_{\text{old}}(a_t|o_t, D_t)}
ただし論文著者によると、この理論的 ( D_t ) 学習は現段階では実装に至っていない（Appendix C）。

理由は、Attention計算の膨大さと安定性問題のため。
そのため、現状のMARFT実装では「他エージェントの出力を待ち、それを観測に含める固定構造」を採用しています。

 関連研究とのつながりこの「協調構造を最適化できない」というMARFTの制約を解決するために、

後続研究として発表されたのが以下の論文です👇
Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs
こちらでは、MARFTで理論的にしか扱えなかった「他エージェントの参照タイミングの最適化」を

実装レベルで実現しています。

 推論フェーズ（Inference Phase）MARFTでは、推論フェーズと学習フェーズを交互に繰り返す構造になっています。
推論フェーズでは「学習のための経験データ」を収集します。


 フェーズの流れFormatter
各エージェントのプロンプトを生成。

Profiles for Agents にまとめられた設定をもとに、観測情報をエージェントごとに再構成。
テンプレートベースの簡易的な処理。
LoRA Adapter経由の出力
各エージェントは LoRA アダプタを介して出力。
LoRAの切り替えにより、単一LLM上でも複数エージェント最適化を実現。
Central Critic Head (CCH)
各エージェントの状態・行動を統合して value を推定。
結果をBufferに保存し、次の学習フェーズで利用。

 学習フェーズ（Training Phase）学習フェーズでは、Bufferからサンプルを取り出し、

LoRAアダプタおよびCentral Criticを更新します。

 流れの概要GAE (Generalized Advantage Estimation)
Central CriticのV値を使ってTD誤差を計算。
各エージェントのGAEを求め、依存関係 ( D_t ) に基づき正規化。
Central Criticの更新

L_{critic} = \mathbb{E}[(V_\phi(s_t) - \hat{R}_t)^2]

エージェントの方策更新（PPO）
各エージェントごとに Modified PPO Loss を最小化。


 MARFT Trainer の1サイクル

ステップ
内容


①
サンプル収集（Flex-POMDP上でエピソード生成）

②
GAEでアドバンテージを算出

③
Central Critic更新

④
各エージェントのPPO更新

⑤
LoRA／依存関数更新・次エピソードへ


 評価と今後の展望現段階では、MARFTは限定的な評価設定で実験が行われています。

主に協調タスク（例：MATHタスク）を用いて検証されました。

 主な結果
複数エージェント＋MARFT は、単エージェントや従来RFTよりも高いチーム報酬を達成。
学習の安定性（報酬変動幅、Critic損失の揺らぎ）が向上。

Token-level版はより細かい制御が可能だが、初期は不安定で収束が遅い。

Action-level版は安定性と収束速度が優れている。

 🧭 まとめ現状ではまだ理論段階の色が強いものの、

MARFTは「LLMを用いたマルチエージェント強化学習」の設計において

非常に重要な概念的礎を提供しています。
今後、この枠組みをベースに「協調的ファインチューニング」や

「Meta-policy Collaboration」などの発展系が登場していくと考えられます。

 🔗 参考リンクMARFT: Multi-Agent Reinforcement Fine-Tuning (arXiv, 2025)
Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs (arXiv, 2025)

 💬 おわりに今回は論文の重要部分だけを抜き出して整理しました。

まだ評価は限定的ですが、この考え方をもとにLaMASの最適化を試すことで、

より「協調的に学ぶLLM」 への発展が期待できます。
今後、実装例や自分なりの実験結果を追記できたらまた記事にします。
ステップ	内容
①	サンプル収集（Flex-POMDP上でエピソード生成）
②	GAEでアドバンテージを算出
③	Central Critic更新
④	各エージェントのPPO更新
⑤	LoRA／依存関数更新・次エピソードへ
はじめに

MARFTとは何か

MARFTシステム設計

Flex-POMDP モデル

数式による定義

PPOとの関係

関連研究とのつながり

推論フェーズ（Inference Phase）

フェーズの流れ

学習フェーズ（Training Phase）

流れの概要

MARFT Trainer の1サイクル

評価と今後の展望

主な結果

🧭 まとめ

🔗 参考リンク

💬 おわりに

Discussion