🔍

Horizon Beta（2025-08-01公開）の噂・所感・未確定情報まとめ

2025/08/03に公開

 はじめに以下は Horizon Beta（2025-08-01 公開）について、現時点でネット上に出回っている "噂・所感・未確定情報" を整理したメモです。公式ページに載っていない口コミ・推測を中心にまとめています。
!この記事は公式情報ではなく、コミュニティからの噂や推測をまとめたものです。正確性は保証できません。

 1. 公開直後に判明した基本情報

項目
内容


リリース日
2025-08-01

位置づけ
「Horizon Alpha の改良版」—長文汎用モデル

コンテキスト長
256 k tokens（Alpha と同等）

料金
テスト期間中 無料（入力・出力とも $0/M）

ログポリシー
すべてのプロンプト／レスポンスを収集しモデル改善に利用


 2. SNS のリアクション・初期レビュー
 温度感別の代表的な投稿例

温度感
代表的な投稿例


期待派
「Alpha より推論が強化され EQ-Bench も微増🆙」

懐疑派
「Creative Writing はむしろ劣化、トーンが平板」

UI/UX ベンチ勢
「7/27 更新の独自ベンチで50モデル中トップ5入り」

4chan/Reddit 民
「"Alpha→Beta" は安全フィルタ強化のコードネームでは？」

まとめ: 推論・堅牢性は向上したが創作系はトレードオフ ─ という声が目立ちます。

 3. 性能ベンチマークに関する噂

指標
噂される数値
出所
信憑性


EQ-Bench3
ELO 1580±（Alpha 1571）
Reddit スレ比較表
★★☆

MMLU-pro
Alpha より +3 pt 高い
LocalLLaMA コメント
★★☆

HumanEval
「未測定／コード弱いかも？」
複数スレ
★☆☆

!公式スコアはまだ掲示なし。コミュニティ計測のみでブレ幅大。

 4. モデルの "正体" を巡る３大説
 仮説と根拠

仮説
根拠
注目点


① GPT-5 プレビルド
Alpha で GPT-5 説が拡散 → Beta も同作者？
OpenAI は沈黙

② DeepSeek R2 派生
256 k 対応 & 無料公開パターンが酷似
中国系研究所説

③ OpenRouter 内製 (o3 系)
ドメイン名に openrouter/、無料 A/B テスト常連
自社実験説

決定的証拠はなく、X 公式アカの発表も「stealth model」の一言のみ。

 5. 懸念点・ネガティブな声
ログ保存 — 企業機密を投げられない点は Alpha と同じ

出力の"無味乾燥化" — 創造性タスクでのテンプレ回答化

ベータ名義ゆえの不安定さ — レイテンシが日ごとに揺れる報告多数

 6. 現状での使いどころ（コミュニティ consensus）

タスク
妥当性
理由


長文要約／RAG
◎
256 k コンテキストをそのまま投入可

感情理解ロールプレイ
○
EQ-Bench 向上の報告あり

創作・脚本
△
Alpha 比で描写が平板という声

数理・厳密推論
△
改善説あるが未検証

機密データ処理
×
全ログ保存ポリシー


 まとめHorizon Beta は「Alpha の改良版」ながら評価は二極化。
推論や安全性はアップ、創造性はダウン という感想が主流で、依然として開発元・モデルサイズなどは謎のまま。
正式スペックと公式ベンチが出るまで、検証・遊び用途での試用が推奨される──というのが現時点の空気感です。

 参考リンクOpenRouter Horizon Beta
この記事は2025年8月時点の情報を基に作成されています。最新情報については公式発表をご確認ください。

項目	内容
リリース日	2025-08-01
位置づけ	「Horizon Alpha の改良版」—長文汎用モデル
コンテキスト長	256 k tokens（Alpha と同等）
料金	テスト期間中無料（入力・出力とも $0/M）
ログポリシー	すべてのプロンプト／レスポンスを収集しモデル改善に利用

温度感	代表的な投稿例
期待派	「Alpha より推論が強化され EQ-Bench も微増🆙」
懐疑派	「Creative Writing はむしろ劣化、トーンが平板」
UI/UX ベンチ勢	「7/27 更新の独自ベンチで50モデル中トップ5入り」
4chan/Reddit 民	「"Alpha→Beta" は安全フィルタ強化のコードネームでは？」

指標	噂される数値	出所	信憑性
EQ-Bench3	ELO 1580±（Alpha 1571）	Reddit スレ比較表	★★☆
MMLU-pro	Alpha より +3 pt 高い	LocalLLaMA コメント	★★☆
HumanEval	「未測定／コード弱いかも？」	複数スレ	★☆☆

仮説	根拠	注目点
① GPT-5 プレビルド	Alpha で GPT-5 説が拡散 → Beta も同作者？	OpenAI は沈黙
② DeepSeek R2 派生	256 k 対応 & 無料公開パターンが酷似	中国系研究所説
③ OpenRouter 内製 (o3 系)	ドメイン名に openrouter/、無料 A/B テスト常連	自社実験説

タスク	妥当性	理由
長文要約／RAG	◎	256 k コンテキストをそのまま投入可
感情理解ロールプレイ	○	EQ-Bench 向上の報告あり
創作・脚本	△	Alpha 比で描写が平板という声
数理・厳密推論	△	改善説あるが未検証
機密データ処理	×	全ログ保存ポリシー

はじめに

1. 公開直後に判明した基本情報

2. SNS のリアクション・初期レビュー

温度感別の代表的な投稿例

3. 性能ベンチマークに関する噂

4. モデルの "正体" を巡る３大説

仮説と根拠

5. 懸念点・ネガティブな声

6. 現状での使いどころ（コミュニティ consensus）

まとめ

参考リンク

Discussion