🧪
32BでOpus 4越え?新AI『XBai‑o4』の真価をベンチマークと実測で検証【2025年版】
はじめに
以下は MetaStone-AI 製 XBai-o4 について、リリース 3 日後(2025-08-03 JST)時点で判明している 公式情報・自己計測ベンチ・第三者の反応 をまとめた速記ノートです。公式ページに載っていない口コミや Reddit スレも扱うため、内容の正確性は保証できません。
1. 公開直後に判明した基本情報
項目 | 内容 |
---|---|
リリース日 | 2025-08-01 |
パラメータ規模 | 32.8 B(Opus 4 推定 275 B の約 1/8) |
訓練手法 | Long-CoT RL + Process Reward Model(PRM) を一体化した Reflective Generative Form |
推論モード | Low / Medium / High(branch = 2 / 8 / 32) |
公式リポジトリ | https://github.com/MetaStone-AI/XBai-o4 |
2. 作者公表ベンチマーク(pass@1 %)
ベンチ | Opus 4 | XBai-o4 Low | XBai-o4 Medium | XBai-o4 High |
---|---|---|---|---|
AIME 24 | 75.7 | 82.4 | 85.4 | 86.5 |
AIME 25 | 75.5 | 74.8 | 77.6 | 77.9 |
LiveCodeBench v5 | 61.3 | 66.6 | 67.0 | 67.2 |
C-EVAL (CN) | — | 89.4 | 89.5 | 89.7 |
出典:リポジトリ README の Performance 表
要点: 32 B クラスなのに、数学・コード・中国語試験では Opus 4 を押し切ったと自己報告。
3. 2025-08-03 時点の第三者評価
項目 | 状況 | コメント |
---|---|---|
Chatbot-Arena 公式ボード | 未掲載(8/03 時点の Text ランキングに名前なし) | ELO 登録待ち。票数付きの正式順位は未確定。 |
Open-LLM Leaderboard | 未登録(リクエストキューにも未出) | branch 32 の特殊設定がパイプライン非対応との噂。 |
Reddit / r-LocalLLaMA | ダウンロード・ローカル検証スレ立つが結果ログは未共有 | "AIME を走らせ中" との書き込みのみ。 |
個人再現ツイート/ブログ | 1〜2 件「論文値±1 pt 再現した」との報告(ログ未添付) | エビデンス薄。要追跡。 |
結論: 現時点で公認の自動リーダーボードには一切スコアが載っていません。作者値を裏付けるのは Reddit などの軽量レビューのみ。
4. XBai-o4 の強み(推定)
1. 推論コストの "後付け" 制御
- branch 2/8/32 切替で「速度↔精度」を稼働後に選べる。
2. PRM 共有による高速化
- PRM を別 GPU で走らせる従来法より 最大 99 % コスト削減を主張。
3. 32 B で Opus 4 越え
- 同じ GPU なら VRAM・電力面で有利。
5. 懸念・未確定ポイント
カテゴリ | 懸念 |
---|---|
再現性 | 公式以外の再計測がほぼ無い。Arena や SWE-bench の結果待ち。 |
ベンチ幅 | MMLU-Pro、GSM-Hard、SWE-bench Verified など汎用系が未計測。 |
High-mode コスト | branch 32 はトークン生成コスト ≒ 30 ×。リアルタイム用途では厳しい可能性。 |
日本語・多言語性能 | C-EVAL(中)、AIME(英)のみ。日・独などは未知数。 |
長文安定性 | 16 k 超コンテキストや Tool-use 評価は報告なし。 |
6. 現状での "使いどころ" コミュニティ consensus
タスク | 妥当性 | 理由 |
---|---|---|
数学・競プロ | ◎ | AIME 系ベンチで好成績。 |
コード生成 | ○ | LiveCodeBench +6 pt。ただし SWE-bench 未計測。 |
RAG・長文要約 | △ | コンテキスト長未公表、PRM 共有がメリットになりにくい。 |
創作・会話 | △ | CoT を長く書くが創造性の報告はまだ。 |
機密データ処理 | × | OSS だが作者 PRM が無いと本来性能が出ない疑い。 |
まとめ
- 自己計測では Opus 4 を確かに超えた ─ が、第三者評価はまだ出揃っていません。
- リーダーボード未登録の現状では "総合王者交代" と断言できず、自前ベンチ or 待機が無難。
- 興味があれば Medium-mode (branch 8) をローカルで回し、AIME や自タスクで比較すると体感が掴めます。
参考リンク
- GitHub — MetaStone-AI/XBai-o4
- Hugging Face ModelCard — MetaStoneTec/XBai-o4
- Reddit Thread — MetaStoneTec/XBai-o4 : r/LocalLLaMA
- Chatbot-Arena Leaderboard(2025-08-03 版)
この記事は 2025-08-03 JST 時点で公開情報を整理したものです。以降のアップデートは追記予定です。
Discussion