📄

MARFT: Multi-Agent Reinforcement Fine-Tuning

に公開

はじめに

この論文は、新しいファインチューニングの枠組みとして**マルチエージェントシステム(LaMAS)の設計やマルチエージェント強化学習(MARL)の理論的基盤を広く扱っており、前半はやや survey的な立ち位置を持つ内容になっています。

興味のある方はぜひ原文を読んでみてください
MARFT: Multi-Agent Reinforcement Fine-Tuning (arXiv, 2025)

今回はその中でも、特にMARFTの重要な理論・設計部分だけを抜き出してまとめます。


MARFTとは何か

MARFT(Multi-Agent Reinforcement Fine-Tuning)は、
複数のLLMエージェント(LaMAS)を強化学習を通じて最適化するための新しい枠組みです。

従来の単一エージェント型強化学習(RLHFやRFTなど)を拡張し、
「複数のLLMが協調しながら自己改善していく」ことを目的としています。

ポイント:
あくまで理論枠組みであり、現段階ではfuture-work的な性格が強いですが、
今後のLaMAS研究の基盤になる重要な提案です。


MARFTシステム設計

Flex-POMDP モデル


この Flex-POMDP モデルは、各エージェントがどのように行動を選ぶかを定義する理論です。

従来の single-agent 強化学習では、
エージェントは POMDP(Partially Observable Markov Decision Process) を用いて
観測できない未来の報酬を考慮して行動します。

しかし、LaMAS のようなマルチエージェント環境では、

「他のエージェントの出力を見て次の行動を決める」
という構造が一般的です(例:Pioneer → Observer構造)。

このとき、どのタイミングで他エージェントの出力を参照すべきかは従来のPOMDPでは表現できません。

そこで登場するのが Flex-POMDP です。
Flex-POMDPでは「他エージェントの出力をどの程度観測するか」を決める依存関数 ( D_t ) が導入されます。


数式による定義

各エージェントの行動は次のように定義されます:

a_t^i \sim \pi_{\theta_i}(a_t^i \mid o_t^i, D_t(\{ a_t^j \mid j < i \}))

このとき、各エージェントへの入力は他のエージェントの出力を加味した観測ベクトルになります:

\tilde{o}_t^i = o_t^i + \sum_j \alpha_{ij,t} \, f(a_t^j)

ここで \alpha_{ij,t} は attention weight、
( D_t ) の具体形は以下のように softmax attention として定義されています:

D_t(i, j) = \text{softmax}\!\left( \frac{(W_q h_i)^\top (W_k h_j)}{\sqrt{d}} \right)

つまり、各エージェントが他エージェントの出力に対してどの程度依存するかが
Transformer型Attentionで学習されるという発想です。


PPOとの関係

MARFTでは、PPO(Proximal Policy Optimization)による方策更新の中で
この ( D_t ) も同時に最適化されます。

L_{\text{PPO}} = -\mathbb{E}\big[ r_t(\theta) A_t \big], \quad r_t = \frac{\pi_\theta(a_t|o_t, D_t)}{\pi_{\text{old}}(a_t|o_t, D_t)}

ただし論文著者によると、この理論的 ( D_t ) 学習は現段階では実装に至っていない(Appendix C)。
理由は、Attention計算の膨大さと安定性問題のため。

そのため、現状のMARFT実装では「他エージェントの出力を待ち、それを観測に含める固定構造」を採用しています。


関連研究とのつながり

この「協調構造を最適化できない」というMARFTの制約を解決するために、
後続研究として発表されたのが以下の論文です👇

Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs

こちらでは、MARFTで理論的にしか扱えなかった「他エージェントの参照タイミングの最適化」を
実装レベルで実現しています。


推論フェーズ(Inference Phase)

MARFTでは、推論フェーズと学習フェーズを交互に繰り返す構造になっています。

推論フェーズでは「学習のための経験データ」を収集します。

フェーズの流れ

  1. Formatter

    • 各エージェントのプロンプトを生成。
      Profiles for Agents にまとめられた設定をもとに、観測情報をエージェントごとに再構成。
    • テンプレートベースの簡易的な処理。
  2. LoRA Adapter経由の出力

    • 各エージェントは LoRA アダプタを介して出力。
    • LoRAの切り替えにより、単一LLM上でも複数エージェント最適化を実現。
  3. Central Critic Head (CCH)

    • 各エージェントの状態・行動を統合して value を推定。
    • 結果をBufferに保存し、次の学習フェーズで利用。

学習フェーズ(Training Phase)

学習フェーズでは、Bufferからサンプルを取り出し、
LoRAアダプタおよびCentral Criticを更新します。

流れの概要

  1. GAE (Generalized Advantage Estimation)

    • Central CriticのV値を使ってTD誤差を計算。
    • 各エージェントのGAEを求め、依存関係 ( D_t ) に基づき正規化。
  2. Central Criticの更新

L_{critic} = \mathbb{E}[(V_\phi(s_t) - \hat{R}_t)^2]
  1. エージェントの方策更新(PPO)
    • 各エージェントごとに Modified PPO Loss を最小化。

MARFT Trainer の1サイクル

ステップ 内容
サンプル収集(Flex-POMDP上でエピソード生成)
GAEでアドバンテージを算出
Central Critic更新
各エージェントのPPO更新
LoRA/依存関数更新・次エピソードへ

評価と今後の展望

現段階では、MARFTは限定的な評価設定で実験が行われています。
主に協調タスク(例:MATHタスク)を用いて検証されました。

主な結果

  • 複数エージェント+MARFT は、単エージェントや従来RFTよりも高いチーム報酬を達成。
  • 学習の安定性(報酬変動幅、Critic損失の揺らぎ)が向上。
  • Token-level版はより細かい制御が可能だが、初期は不安定で収束が遅い。
  • Action-level版は安定性と収束速度が優れている。

🧭 まとめ

現状ではまだ理論段階の色が強いものの、
MARFTは「LLMを用いたマルチエージェント強化学習」の設計において
非常に重要な概念的礎を提供しています。

今後、この枠組みをベースに「協調的ファインチューニング」や
「Meta-policy Collaboration」などの発展系が登場していくと考えられます。


🔗 参考リンク


💬 おわりに

今回は論文の重要部分だけを抜き出して整理しました。
まだ評価は限定的ですが、この考え方をもとにLaMASの最適化を試すことで、
より「協調的に学ぶLLM」 への発展が期待できます。

今後、実装例や自分なりの実験結果を追記できたらまた記事にします。

Discussion