🕌

🧠 GLM-4.5V: マルチモーダル強化学習における報酬設計の革新

に公開

📝 概要

この記事では、Zhipu AI & 清華大学が開発したGLM-4.5Vの技術的革新について解説する。特に、マルチモーダル強化学習(RL)における報酬システム設計の課題と解決策に焦点を当てる。GLM-4.5Vは42の公開ベンチマークで同規模モデル中の最高性能を達成し、その成功の鍵となったのが精密に設計された報酬システムだった。

🔧 技術背景

マルチモーダルRLの根本的課題

Vision-Language Model(VLM)において、STEM問題解決、グラウンディング、OCR、GUI エージェントなど複数ドメインでの強化学習を行う際、報酬システムが唯一の学習の伝達経路となる。

問題点: 単一ドメインの報酬にノイズや脆弱性があると、他の全ドメインの性能が劣化する可能性がある。

🚀 GLM-4.5Vの革新的解決策

1. ドメイン特化型の決定論的検証器

各ドメインに最適化された検証システムを構築:

ドメイン 主要手法 詳細
数学・STEM 数値マッチング (SymPy) 許容誤差・単位チェック付き
チャート解析 数値許容度 + 意味的マッチング 年号処理・丸め規則を事前定義
OCR 編集距離による連続報酬 正規化処理後にスコアリング
Grounding IoU ベース部分クレジット 閾値スケジュール適用
GUI エージェント action + grounding IoU 厳密なスキーマ検証

2. 明確な回答抽出メカニズム

従来の課題: 自由形式テキストからの回答抽出は脆弱で、LLMベースの抽出は多様な質問・回答形式に対して精度が低下。

GLM-4.5Vの解決策:

  • 特殊トークン <|begin_of_box|> ... <|end_of_box|> の導入
  • トークナイザーに組み込み、SFT段階で学習済み
  • 検証可能タスクでのみ使用を強制

3. 段階的報酬とカリキュラムサンプリング(RLCS)

Reinforcement Learning with Curriculum Sampling (RLCS):

\text{expansion ratio} = \frac{1}{1 - \text{not valid sample rate}}
  • オフライン・オンライン両方での難易度評価
  • 指数移動平均(EMA)による動的サンプリング拡張
  • 中程度の難易度サンプルを優先的に選択

4. 報酬ハッキング対策

検出された問題例:

  • カウント問題に対して「0から10の間の正しい数」と回答
  • 相対性理論の速度問題に「光速に非常に近い速度」と回答

対策:

  • 対照的判定プロンプトの使用
  • 長さ正規化・曖昧表現のペナルティ
  • アンチパターン例を含む判定プロンプト

📊 実験結果

GLM-4.5V は42のベンチマークで優秀な結果を達成:

  • STEM: MMMU Pro (65.2%), MathVista (84.6%)
  • チャート理解: ChartQAPro (64.0%), ChartMuseum (55.3%)
  • GUI エージェント: OSWorld (35.8%), AndroidWorld (57.0%)
  • 動画理解: VideoMME (80.7%), VideoMMMU (72.4%)

💡 実装上の重要な知見

ドメイン間の相互促進効果

実験により、単一ドメインでのRL訓練が他ドメインの性能も向上させることが判明。

訓練安定性の要因

  • 冷開始データの品質が訓練安定性に決定的影響
  • top-p = 1の使用により出力の品質が向上
  • KL損失の除去により性能制約を解消
  • 強制回答機能により長い推論での報酬を適切に評価

🔬 技術的含意

GLM-4.5Vの成功は、マルチモーダルRLにおいて以下の点が critical であることを示した:

  1. 決定論的検証の優先: LLM判定はフォールバックのみ
  2. ドメイン固有設計: 汎用解法ではなく各分野最適化
  3. 段階的報酬: 0/1バイナリ報酬の回避
  4. 相互促進の活用: ドメイン間の知識転移を積極利用

🚀 まとめ

GLM-4.5Vは報酬システム設計を「エンジニアリングの第一原理」として扱うことで、マルチモーダルRLの新しい標準を確立した。特に、決定論的検証器・明確な回答抽出・段階的報酬設計の組み合わせが、スケーラブルな推論能力の実現に不可欠であることが実証された。


マルチモーダルAIの発展において、GLM-4.5Vの技術的洞察は今後の研究開発に大きな指針を提供している。「報酬設計の工学的厳密性」が次世代VLMの性能を決定する重要要素であることが明確になった。

いいね・コメントお待ちしています! 🎉

Discussion