🧪

32BでOpus 4越え?新AI『XBai‑o4』の真価をベンチマークと実測で検証【2025年版】

に公開

はじめに

以下は MetaStone-AI 製 XBai-o4 について、リリース 3 日後(2025-08-03 JST)時点で判明している 公式情報・自己計測ベンチ・第三者の反応 をまとめた速記ノートです。公式ページに載っていない口コミや Reddit スレも扱うため、内容の正確性は保証できません。

1. 公開直後に判明した基本情報

項目 内容
リリース日 2025-08-01
パラメータ規模 32.8 B(Opus 4 推定 275 B の約 1/8)
訓練手法 Long-CoT RL + Process Reward Model(PRM) を一体化した Reflective Generative Form
推論モード Low / Medium / High(branch = 2 / 8 / 32)
公式リポジトリ https://github.com/MetaStone-AI/XBai-o4

2. 作者公表ベンチマーク(pass@1 %)

ベンチ Opus 4 XBai-o4 Low XBai-o4 Medium XBai-o4 High
AIME 24 75.7 82.4 85.4 86.5
AIME 25 75.5 74.8 77.6 77.9
LiveCodeBench v5 61.3 66.6 67.0 67.2
C-EVAL (CN) 89.4 89.5 89.7

出典:リポジトリ README の Performance 表

要点: 32 B クラスなのに、数学・コード・中国語試験では Opus 4 を押し切ったと自己報告。

3. 2025-08-03 時点の第三者評価

項目 状況 コメント
Chatbot-Arena 公式ボード 未掲載(8/03 時点の Text ランキングに名前なし) ELO 登録待ち。票数付きの正式順位は未確定。
Open-LLM Leaderboard 未登録(リクエストキューにも未出) branch 32 の特殊設定がパイプライン非対応との噂。
Reddit / r-LocalLLaMA ダウンロード・ローカル検証スレ立つが結果ログは未共有 "AIME を走らせ中" との書き込みのみ。
個人再現ツイート/ブログ 1〜2 件「論文値±1 pt 再現した」との報告(ログ未添付) エビデンス薄。要追跡。

結論: 現時点で公認の自動リーダーボードには一切スコアが載っていません。作者値を裏付けるのは Reddit などの軽量レビューのみ。

4. XBai-o4 の強み(推定)

1. 推論コストの "後付け" 制御

  • branch 2/8/32 切替で「速度↔精度」を稼働後に選べる。

2. PRM 共有による高速化

  • PRM を別 GPU で走らせる従来法より 最大 99 % コスト削減を主張。

3. 32 B で Opus 4 越え

  • 同じ GPU なら VRAM・電力面で有利。

5. 懸念・未確定ポイント

カテゴリ 懸念
再現性 公式以外の再計測がほぼ無い。Arena や SWE-bench の結果待ち。
ベンチ幅 MMLU-Pro、GSM-Hard、SWE-bench Verified など汎用系が未計測。
High-mode コスト branch 32 はトークン生成コスト ≒ 30 ×。リアルタイム用途では厳しい可能性。
日本語・多言語性能 C-EVAL(中)、AIME(英)のみ。日・独などは未知数。
長文安定性 16 k 超コンテキストや Tool-use 評価は報告なし。

6. 現状での "使いどころ" コミュニティ consensus

タスク 妥当性 理由
数学・競プロ AIME 系ベンチで好成績。
コード生成 LiveCodeBench +6 pt。ただし SWE-bench 未計測。
RAG・長文要約 コンテキスト長未公表、PRM 共有がメリットになりにくい。
創作・会話 CoT を長く書くが創造性の報告はまだ。
機密データ処理 × OSS だが作者 PRM が無いと本来性能が出ない疑い。

まとめ

  • 自己計測では Opus 4 を確かに超えた ─ が、第三者評価はまだ出揃っていません。
  • リーダーボード未登録の現状では "総合王者交代" と断言できず、自前ベンチ or 待機が無難。
  • 興味があれば Medium-mode (branch 8) をローカルで回し、AIME や自タスクで比較すると体感が掴めます。

参考リンク


この記事は 2025-08-03 JST 時点で公開情報を整理したものです。以降のアップデートは追記予定です。

Discussion