🧠 GLM-4.5V: マルチモーダル強化学習における報酬設計の革新
📝 概要
この記事では、Zhipu AI & 清華大学が開発したGLM-4.5Vの技術的革新について解説する。特に、マルチモーダル強化学習(RL)における報酬システム設計の課題と解決策に焦点を当てる。GLM-4.5Vは42の公開ベンチマークで同規模モデル中の最高性能を達成し、その成功の鍵となったのが精密に設計された報酬システムだった。
🔧 技術背景
マルチモーダルRLの根本的課題
Vision-Language Model(VLM)において、STEM問題解決、グラウンディング、OCR、GUI エージェントなど複数ドメインでの強化学習を行う際、報酬システムが唯一の学習の伝達経路となる。
問題点: 単一ドメインの報酬にノイズや脆弱性があると、他の全ドメインの性能が劣化する可能性がある。
🚀 GLM-4.5Vの革新的解決策
1. ドメイン特化型の決定論的検証器
各ドメインに最適化された検証システムを構築:
ドメイン | 主要手法 | 詳細 |
---|---|---|
数学・STEM | 数値マッチング (SymPy) | 許容誤差・単位チェック付き |
チャート解析 | 数値許容度 + 意味的マッチング | 年号処理・丸め規則を事前定義 |
OCR | 編集距離による連続報酬 | 正規化処理後にスコアリング |
Grounding | IoU ベース部分クレジット | 閾値スケジュール適用 |
GUI エージェント | action + grounding IoU | 厳密なスキーマ検証 |
2. 明確な回答抽出メカニズム
従来の課題: 自由形式テキストからの回答抽出は脆弱で、LLMベースの抽出は多様な質問・回答形式に対して精度が低下。
GLM-4.5Vの解決策:
- 特殊トークン
<|begin_of_box|>
...<|end_of_box|>
の導入 - トークナイザーに組み込み、SFT段階で学習済み
- 検証可能タスクでのみ使用を強制
3. 段階的報酬とカリキュラムサンプリング(RLCS)
Reinforcement Learning with Curriculum Sampling (RLCS):
- オフライン・オンライン両方での難易度評価
- 指数移動平均(EMA)による動的サンプリング拡張
- 中程度の難易度サンプルを優先的に選択
4. 報酬ハッキング対策
検出された問題例:
- カウント問題に対して「0から10の間の正しい数」と回答
- 相対性理論の速度問題に「光速に非常に近い速度」と回答
対策:
- 対照的判定プロンプトの使用
- 長さ正規化・曖昧表現のペナルティ
- アンチパターン例を含む判定プロンプト
📊 実験結果
GLM-4.5V は42のベンチマークで優秀な結果を達成:
- STEM: MMMU Pro (65.2%), MathVista (84.6%)
- チャート理解: ChartQAPro (64.0%), ChartMuseum (55.3%)
- GUI エージェント: OSWorld (35.8%), AndroidWorld (57.0%)
- 動画理解: VideoMME (80.7%), VideoMMMU (72.4%)
💡 実装上の重要な知見
ドメイン間の相互促進効果
実験により、単一ドメインでのRL訓練が他ドメインの性能も向上させることが判明。
訓練安定性の要因
- 冷開始データの品質が訓練安定性に決定的影響
- top-p = 1の使用により出力の品質が向上
- KL損失の除去により性能制約を解消
- 強制回答機能により長い推論での報酬を適切に評価
🔬 技術的含意
GLM-4.5Vの成功は、マルチモーダルRLにおいて以下の点が critical であることを示した:
- 決定論的検証の優先: LLM判定はフォールバックのみ
- ドメイン固有設計: 汎用解法ではなく各分野最適化
- 段階的報酬: 0/1バイナリ報酬の回避
- 相互促進の活用: ドメイン間の知識転移を積極利用
🚀 まとめ
GLM-4.5Vは報酬システム設計を「エンジニアリングの第一原理」として扱うことで、マルチモーダルRLの新しい標準を確立した。特に、決定論的検証器・明確な回答抽出・段階的報酬設計の組み合わせが、スケーラブルな推論能力の実現に不可欠であることが実証された。
マルチモーダルAIの発展において、GLM-4.5Vの技術的洞察は今後の研究開発に大きな指針を提供している。「報酬設計の工学的厳密性」が次世代VLMの性能を決定する重要要素であることが明確になった。
いいね・コメントお待ちしています! 🎉
Discussion