🧪

32BでOpus 4越え？新AI『XBai‑o4』の真価をベンチマークと実測で検証【2025年版】

2025/08/09に公開

 はじめに以下は MetaStone-AI 製 XBai-o4 について、リリース 3 日後（2025-08-03 JST）時点で判明している 公式情報・自己計測ベンチ・第三者の反応 をまとめた速記ノートです。公式ページに載っていない口コミや Reddit スレも扱うため、内容の正確性は保証できません。
!この記事は未確定情報を含みます。正式スペックや公式ベンチが出るまで鵜呑みにせずご自身でも検証ください。

 1. 公開直後に判明した基本情報

項目
内容


リリース日
2025-08-01

パラメータ規模
32.8 B（Opus 4 推定 275 B の約 1/8）

訓練手法
Long-CoT RL + Process Reward Model（PRM） を一体化した Reflective Generative Form

推論モード
Low / Medium / High（branch = 2 / 8 / 32）

公式リポジトリ
https://github.com/MetaStone-AI/XBai-o4


 2. 作者公表ベンチマーク（pass@1 %）

ベンチ
Opus 4
XBai-o4 Low
XBai-o4 Medium
XBai-o4 High


AIME 24
75.7
82.4
85.4
86.5

AIME 25
75.5
74.8
77.6
77.9

LiveCodeBench v5
61.3
66.6
67.0
67.2

C-EVAL (CN)
—
89.4
89.5
89.7

出典：リポジトリ README の Performance 表
要点: 32 B クラスなのに、数学・コード・中国語試験では Opus 4 を押し切ったと自己報告。

 3. 2025-08-03 時点の第三者評価

項目
状況
コメント


Chatbot-Arena 公式ボード
未掲載（8/03 時点の Text ランキングに名前なし）
ELO 登録待ち。票数付きの正式順位は未確定。

Open-LLM Leaderboard
未登録（リクエストキューにも未出）
branch 32 の特殊設定がパイプライン非対応との噂。

Reddit / r-LocalLLaMA
ダウンロード・ローカル検証スレ立つが結果ログは未共有
"AIME を走らせ中" との書き込みのみ。

個人再現ツイート／ブログ
1〜2 件「論文値±1 pt 再現した」との報告（ログ未添付）
エビデンス薄。要追跡。

結論: 現時点で公認の自動リーダーボードには一切スコアが載っていません。作者値を裏付けるのは Reddit などの軽量レビューのみ。

 4. XBai-o4 の強み（推定）
 1. 推論コストの "後付け" 制御branch 2/8/32 切替で「速度↔精度」を稼働後に選べる。

 2. PRM 共有による高速化PRM を別 GPU で走らせる従来法より 最大 99 % コスト削減を主張。

 3. 32 B で Opus 4 越え同じ GPU なら VRAM・電力面で有利。

 5. 懸念・未確定ポイント

カテゴリ
懸念


再現性
公式以外の再計測がほぼ無い。Arena や SWE-bench の結果待ち。

ベンチ幅
MMLU-Pro、GSM-Hard、SWE-bench Verified など汎用系が未計測。

High-mode コスト
branch 32 はトークン生成コスト ≒ 30 ×。リアルタイム用途では厳しい可能性。

日本語・多言語性能
C-EVAL（中）、AIME（英）のみ。日・独などは未知数。

長文安定性
16 k 超コンテキストや Tool-use 評価は報告なし。


 6. 現状での "使いどころ" コミュニティ consensus

タスク
妥当性
理由


数学・競プロ
◎
AIME 系ベンチで好成績。

コード生成
○
LiveCodeBench +6 pt。ただし SWE-bench 未計測。

RAG・長文要約
△
コンテキスト長未公表、PRM 共有がメリットになりにくい。

創作・会話
△
CoT を長く書くが創造性の報告はまだ。

機密データ処理
×
OSS だが作者 PRM が無いと本来性能が出ない疑い。


 まとめ
自己計測では Opus 4 を確かに超えた ─ が、第三者評価はまだ出揃っていません。

リーダーボード未登録の現状では "総合王者交代" と断言できず、自前ベンチ or 待機が無難。
興味があれば Medium-mode (branch 8) をローカルで回し、AIME や自タスクで比較すると体感が掴めます。

 参考リンクGitHub — MetaStone-AI/XBai-o4
Hugging Face ModelCard — MetaStoneTec/XBai-o4
Reddit Thread — MetaStoneTec/XBai-o4 : r/LocalLLaMA
Chatbot-Arena Leaderboard（2025-08-03 版）
この記事は 2025-08-03 JST 時点で公開情報を整理したものです。以降のアップデートは追記予定です。

項目	内容
リリース日	2025-08-01
パラメータ規模	32.8 B（Opus 4 推定 275 B の約 1/8）
訓練手法	Long-CoT RL + Process Reward Model（PRM）を一体化した Reflective Generative Form
推論モード	Low / Medium / High（branch = 2 / 8 / 32）
公式リポジトリ	https://github.com/MetaStone-AI/XBai-o4

ベンチ	Opus 4	XBai-o4 Low	XBai-o4 Medium	XBai-o4 High
AIME 24	75.7	82.4	85.4	86.5
AIME 25	75.5	74.8	77.6	77.9
LiveCodeBench v5	61.3	66.6	67.0	67.2
C-EVAL (CN)	—	89.4	89.5	89.7

項目	状況	コメント
Chatbot-Arena 公式ボード	未掲載（8/03 時点の Text ランキングに名前なし）	ELO 登録待ち。票数付きの正式順位は未確定。
Open-LLM Leaderboard	未登録（リクエストキューにも未出）	branch 32 の特殊設定がパイプライン非対応との噂。
Reddit / r-LocalLLaMA	ダウンロード・ローカル検証スレ立つが結果ログは未共有	"AIME を走らせ中" との書き込みのみ。
個人再現ツイート／ブログ	1〜2 件「論文値±1 pt 再現した」との報告（ログ未添付）	エビデンス薄。要追跡。

カテゴリ	懸念
再現性	公式以外の再計測がほぼ無い。Arena や SWE-bench の結果待ち。
ベンチ幅	MMLU-Pro、GSM-Hard、SWE-bench Verified など汎用系が未計測。
High-mode コスト	branch 32 はトークン生成コスト ≒ 30 ×。リアルタイム用途では厳しい可能性。
日本語・多言語性能	C-EVAL（中）、AIME（英）のみ。日・独などは未知数。
長文安定性	16 k 超コンテキストや Tool-use 評価は報告なし。

タスク	妥当性	理由
数学・競プロ	◎	AIME 系ベンチで好成績。
コード生成	○	LiveCodeBench +6 pt。ただし SWE-bench 未計測。
RAG・長文要約	△	コンテキスト長未公表、PRM 共有がメリットになりにくい。
創作・会話	△	CoT を長く書くが創造性の報告はまだ。
機密データ処理	×	OSS だが作者 PRM が無いと本来性能が出ない疑い。

はじめに

1. 公開直後に判明した基本情報

2. 作者公表ベンチマーク（pass@1 %）

3. 2025-08-03 時点の第三者評価

4. XBai-o4 の強み（推定）

1. 推論コストの "後付け" 制御

2. PRM 共有による高速化

3. 32 B で Opus 4 越え

5. 懸念・未確定ポイント

6. 現状での "使いどころ" コミュニティ consensus

まとめ

参考リンク

Discussion