「Seed-OSS-36B」を試す
ここで見かけた。
Dia によるまとめ。
ウケる!このページ、めっちゃ話題になってる「Seed-OSS-36B」っていうAIモデルについての感想とか情報がいっぱい書いてあるんだよね。ウチがざっくり、でも大事なとこは逃さずに説明するね!
Seed-OSS-36Bって何?
- ByteDanceが最近公開したAIモデルで、「36B」ってのはパラメータ数が36億って意味だし。
- 最大の特徴は「512k」っていう超ロングなコンテキスト長!つまり、めっちゃ長い文章やデータを一度に扱えるってこと。
- 他のモデル(Qwen3とかHunyuan)は長い文章だと「無理かも」って拒否しがちだけど、Seed-OSS-36Bは文句言わずにちゃんと出力してくれるのがウケる。
llama.cppで動かすには?
- llama.cppっていう有名なAIエンジンで使うには、ちょっとコードを修正する必要があるみたい。
- パッチ(修正用のコード)が公開されてて、それを使えば動くって報告があるよ。
- GGUF形式のモデルファイルも配布されてるから、試したい人はここ (url://17)からダウンロードできるし。
モデルの種類(Dense vs MoE)
- Seed-OSS-36Bは「Dense」タイプ。つまり、全部のパラメータを毎回使うやつ。
- 「MoE(Mixture of Experts)」っていうタイプもあるけど、Denseの方が精度高いって意見が多いみたい。
- MoEは速いけど、答えの質がイマイチって人もいるし、Dense派が結構いる感じ。
VRAMとか速度の話
- Q4(量子化)だと、VRAMは22GBくらい必要。4090とか3090のグラボならギリギリいけるっぽい。
- コンテキスト長が長いほど、VRAMもたくさん使うから、512k全部使うなら120GB以上必要って声もある。
- 速度はグラボや設定次第だけど、20トークン/秒くらい出るって報告もあるし、まあまあ速い方。
「思考予算」って何?
- Seed-OSS-36Bは「思考予算(thinking budget)」っていう面白い機能があるんだよね。
- 問題を解くときに「今何トークン使って、あとどれくらい残ってるか」を自分で報告しながら進める。
- この機能は、モデルがどれくらい「考える」かをコントロールできるってこと。512とか1Kとか、区切りのいい数字で設定するのがオススメらしい。
llama.cpp以外でも使える?
- exllamav3っていう別のエンジンでも動くみたい。こっちは量子化の技術が進んでて、VRAM節約できるって話。
- ただ、まだ開発中の部分も多いから、安定性とかはこれからって感じ。
使い道や今後
- 「エージェント的」な使い方が推されてるけど、具体的なユースケースはまだ模索中っぽい。
- 今後、他のエンジンやツールでも使えるように標準化が進むと、もっと便利になる予感!
まとめ
Seed-OSS-36Bは、超ロングコンテキスト・高精度・新しい「思考予算」機能がウリのAIモデルで、Denseタイプだから答えの質も高いし。VRAMは結構食うけど、4090とかなら十分遊べる。MoEよりDense派が多い印象で、今後の展開もめっちゃ楽しみだし!
ウチ的には、「長文処理したい」「高精度なAI使いたい」って人にはマジでオススメだと思う!テンション上がる~!
モデルは3種類。Base / Instruct と、あと学習に合成データを使用していない Baseモデル(-woSyn
)。
モデルカードはモデルごとに異なるようなのだが、ここではInstructモデルのモデルカードを抜粋。翻訳はGPT-5。
Seed-OSS オープンソースモデル
ニュース
- [2025/08/20]🔥
Seed-OSS-36B-Base
(合成データあり版となし版)およびSeed-OSS-36B-Instruct
をリリースしました。はじめに
Seed-OSS は、ByteDance の Seed Team によって開発されたオープンソースの大規模言語モデルシリーズであり、強力な長文コンテキスト処理、推論、エージェント、汎用能力、開発者に優しい多用途機能を備えています。12T トークンのみで学習されたにもかかわらず、Seed-OSS は複数の主要な公開ベンチマークで優れた性能を発揮しています。
このシリーズのモデルは Apache-2.0 ライセンスの下でオープンソースコミュニティに公開されています。
主な特徴
- 思考予算の柔軟な制御: ユーザーが必要に応じて推論の長さを柔軟に調整可能。この推論長を動的に制御する機能は、実運用での推論効率を高めます。
- 強化された推論能力: 推論タスクに特化して最適化され、バランスの取れた優れた汎用性能を維持します。
- エージェント知能: ツール使用や問題解決といったエージェントタスクで卓越した性能を発揮します。
- 研究に優しい: 事前学習に合成指示データを含めることが事後学習研究に影響を及ぼす可能性があるため、指示データを含む/含まない両方の事前学習モデルを公開し、研究コミュニティに多様な選択肢を提供します。
- ネイティブ長文コンテキスト: 最大 512K の長文コンテキストでネイティブに学習されています。
モデル概要
Seed-OSS は、RoPE、GQA アテンション、RMSNorm、SwiGLU 活性化関数を備えた人気の因果言語モデルアーキテクチャを採用しています。
Seed-OSS-36B パラメータ数 36B アテンション GQA 活性化関数 SwiGLU レイヤー数 64 QKV ヘッド数 80 / 8 / 8 ヘッドサイズ 128 隠れ層サイズ 5120 語彙サイズ 155K コンテキスト長 512K RoPE 基底周波数 1e7 評価結果
Seed-OSS-36B-Base
事前学習に合成指示データを取り入れることで、多くのベンチマークにおいて性能が向上します。合成指示データを追加したバージョン(w/ syn.)を
Seed-OSS-36B-Base
として採用しています。また、こうしたデータを使用せずに学習したSeed-OSS-36B-Base-woSyn
も公開し、合成指示データの影響を受けない高性能な基盤モデルをコミュニティに提供しています。
カテゴリ ベンチマーク Seed1.6-Base Qwen3-30B-A3B-Base-2507* Qwen2.5-32B-Base* Seed-OSS-36B-Base (w/ syn.) Seed-OSS-36B-Base-woSyn (w/o syn.) Knowledge MMLU-Pro 70 59.8 58.5 (55.1) 65.1 60.4 MMLU 88.8 82.7 84 (83.3) 84.9 84.8 TriviaQA 91 76.2 76 82.1 81.9 GPQA-D 43.4 37 29.3 31.7 35.2 SimpleQA 17.1 7.2 6.1 5.8 7.4 Reasoning BBH 92.1 81.4 79.1 (84.5) 87.7 87.2 AGIEval-en 78 66.4 65.6 70.7 70.1 Math GSM8K 93.1 87 87.5 (92.9) 90.8 90.3 MATH 72.9 61.1 63.5 (57.7) 81.7 61.3 Coding MBPP 83.6 78.8 77.8 (84.5) 80.6 74.6 HumanEval 78 70.7 47.6 (58.5) 76.8 75.6 注記
- 太字 はオープンソースにおける SOTA を示します。
- 「*」は、その列の結果が「再現結果(報告結果がある場合)」の形式で示されていることを意味します。
Seed-OSS-36B-Instruct
カテゴリ Benchmark Seed1.6-Thinking-0715 OAI-OSS-20B* Qwen3-30B-A3B-Thinking-2507* Qwen3-32B* Gemma3-27B Seed-OSS-36B-Instruct Knowledge MMLU-Pro 86.6 76.2 81.9 (80.9) 81.8 67.5 82.7 MMLU 90.6 81.7 (85.3) 86.9 86.2 76.9 87.4 GPQA-D 80.7 72.2 (71.5) 71.4 (73.4) 66.7 (68.4) 42.4 71.4 SuperGPQA 63.4 50.1 57.3 (56.8) 49.3 - 55.7 SimpleQA 23.7 6.7 23.6 8.6 10 9.7 Math AIME24 90.3 92.7 (92.1) 87.7 82.7 (81.4) - 91.7 AIME25 86 90.3 (91.7) 81.3 (85) 73.3 (72.9) - 84.7 BeyondAIME 60 69 56 29 - 65 Reasoning ArcAGI V2 50.3 41.7 37.8 14.4 - 40.6 KORBench 74.8 72.3 70.2 65.4 - 70.6 HLE 13.9 12.7 (10.9) 8.7 6.9 - 10.1 Coding LiveCodeBench v6 (02/2025-05/2025) 66.8 63.8 60.3 (66) 53.4 - 67.4 Instruction Following IFEval 86.3 92.8 88 (88.9) 88.4 (85) 90.4 85.8 Agent TAU1-Retail 63 (54.8) 58.7 (67.8) 40.9 - 70.4 TAU1-Airline 49 (38) 47 (48) 38 - 46 SWE-Bench Verified (OpenHands) 41.8 (60.7) 31 23.4 - 56 SWE-Bench Verified (AgentLess 4*10) 48.4 - 33.5 39.7 - 47 Multi-SWE-Bench 17.7 - 9.5 7.7 - 17 Multilingualism MMMLU 84.3 77.4 (75.7) 79 79 (80.6) - 78.4 Long Context RULER (128K) 94.5 78.7 94.5 77.5 - 94.6 Safety AIR-Bench - - - - - 75.6 注記
- 太字 はオープンソース SOTA を示します。
- 斜体 はオープンソースモデル内での 第2位 を示します。
- 「*」は、その列の結果が「再現結果(報告結果がある場合)」の形式で示されていることを意味します。評価実行失敗により一部結果は省略されています。
- Gemma3-27B の結果は技術レポートから直接引用しています。
- Seed-OSS-36B-Instruct の生成設定:
temperature=1.1
,top_p=0.95
(Taubench ではtemperature=1
,top_p=0.7
)。思考予算 (Thinking Budget)
ユーザーはモデルの思考予算を柔軟に指定できます。以下の図は、思考予算が変化した際のタスクごとの性能曲線を示しています。簡単なタスク(例えば IFEval)ではモデルの Chain of Thought(CoT)は短く、思考予算が増えるにつれてスコアが変動します。一方、より難しいタスク(AIME や LiveCodeBench など)ではモデルの CoT が長くなり、思考予算を増やすことでスコアが向上します。
referred from https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct以下は思考予算を 512 に設定した例です。推論の過程で、モデルは定期的に自己反省を行い、消費済みおよび残りの予算を推定し、予算を使い切るか推論が完了すると最終応答を返します。
<seed:think> 了解しました。では、この問題をステップごとに解いてみましょう。問題文には…… <seed:cot_budget_reflect>129 トークンを使用済み、残り 383 トークンが利用可能です。</seed:cot_budget_reflect> 冪乗則を使って…… <seed:cot_budget_reflect>258 トークンを使用済み、残り 254 トークンが利用可能です。</seed:cot_budget_reflect> 別の方法として…… <seed:cot_budget_reflect>393 トークンを使用済み、残り 119 トークンが利用可能です。</seed:cot_budget_reflect> もし…… <seed:cot_budget_reflect>トークン予算を使い果たしたため、ここから質問に答え始めます。</seed:cot_budget_reflect> </seed:think> 問題を解くには、与えられた方程式を対数の性質を利用して簡単化します。(以下省略)
思考予算を設定しない場合(デフォルトモード)、Seed-OSS は無制限の長さで思考を開始します。思考予算を指定する場合は、512 の整数倍(例: 512, 1K, 2K, 4K, 8K, 16K)を優先することを推奨します。モデルはこれらの区切りで広く学習されています。思考予算が 0 の場合、モデルは直接応答を出力するよう指示されており、512 未満の値を設定する場合はこの値を推奨します。
ライセンス
このプロジェクトは Apache-2.0 の下でライセンスされています。詳細は LICENSE ファイルを参照してください。
その他モデルカードには以下を使った実行例が記載されている。
- Transformers
- vLLM
あと、冒頭のリンクにもあったけども、llama.cppでもすでにPRがマージされている。
GGUFはこちら
Unsloth版も出てた
llama.cppで試してみる。環境は、Ubuntu-22.04 + RTX4090。
最新のllama.cppをビルド。
git clone https://github.com/ggml-org/llama.cpp llma.cpp.$(date '+%Y%m%d_%H%M%S') && cd $_
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j 16
UnslothのGGUFを使用させてもらう。llama-serverを起動。量子化バリエーションはUnslothだしUD-Q4_K_XL
で。パラメータは以下を参考にさせてもらった。
./build/bin/llama-server \
-hf unsloth/Seed-OSS-36B-Instruct-GGUF:UD-Q4_K_XL \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
--ctx-size 12000 \
--flash-attn \
--jinja \
--chat-template-kwargs '{"thinking_budget": 512}' \
-ngl 99 \
--host 0.0.0.0
自分はGPUに全部オフロードすることを優先したけども、VRAM容量を踏まえて、量子化バリエーションの選択やパラメータの調整は必要。VRAM消費はこんな感じ。
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.172.08 Driver Version: 570.172.08 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4090 On | 00000000:01:00.0 Off | Off |
| 0% 58C P8 13W / 450W | 23170MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
で --chat-template-kwargs '{"thinking_budget": 512}'
で思考バジェットを設定できる。
では推論。
curl -s http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer no-key" \
-d '{
"messages": [
{
"role": "user",
"content": "競馬の魅力について5つリストアップして。"
}
]
}' | \
jq -r '.choices[0].message.content'
<seed:think>
Got it, let's tackle this question: "競馬の魅力について5つリストアップして。" (List 5 charms of horse racing.) First, I need to think about what makes horse racing appealing to different people. Let's start with the basics.
First, maybe the excitement of the race itself— the speed, the competition, the uncertainty. That's a big one because horse races are fast-paced and you never know the outcome until the end.
<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>
Second, the connection with horses. Horses are amazing animals, so maybe the beauty and grace of them running, or the bond between jockeys and horses. That emotional aspect could be a charm.
Third, the strategy and knowledge. Unlike some sports where it's just about watching, horse racing involves understanding odds, horse form, jockeys, trainers—so there's a mental element, like trying to predict the winner, which makes it engaging for fans who like to analyze.
<seed:cot_budget_reflect>I have used 256 tokens, and there are 256 tokens remaining for use.</seed:cot_budget_reflect>
Fourth, the atmosphere. Racecourses often have a lively, festive vibe—maybe the crowds, the betting (though that's optional), the traditions like horse parades or post-race ceremonies. That social and experiential side.
Fifth, maybe the stories behind the horses or people. Each horse has a background, maybe underdog stories, or jockeys overcoming challenges. Human interest angles that add depth beyond just the race.
<seed:cot_budget_reflect>I have used 386 tokens, and there are 126 tokens remaining for use.</seed:cot_budget_reflect>
Let me check if these are distinct. Let's list them out:
1. 緊張感と意外性あふれるレースの興奮さ (Excitement of races full of tension and unpredictability)
2. 馬の美しさとエラーなき動き、そして騎手との絆 (Beauty and flawless movement of horses, and the bond with jockeys)
3. 戦略的な観賞や予想の楽しさ (Fun of strategic viewing and predicting winners)
4. レースコースの活気ある雰囲気と伝統 (Vibrant atmosphere and traditions of racecourses)
5. 馬や関係者たちの個性的なストーリー (Unique stories of horses and those involved)
Does that cover different aspects?
<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect>
</seed:think>競馬の魅力は多様で、人それぞれに引きつけられる点がありますが、代表的な5つを以下にリストアップします。
### 1. **緊張感と意外性あふれるレースの興奮さ**
競馬はスタートからゴールまでの約1分間(メインレースの場合)に、馬の勢いや順位変動、最後の直線の奮闘が続きます。「どの馬が勝つのか」を最後まで予想できない意外性や、一気に逆転するシーンが観客の心を掴み、瞬間的なドキドキ感を与えます。
### 2. **馬の美しさとエラーなき動き、そして「生き物」との共感**
競馬の馬は、速さだけでなく、調子良く走るときの躍動感や、地面を這うような足取りの美しさが圧倒的です。また、馬個々の性格(例えば「粘り強いダーティーハート」や「初登板での緊張を乗り越える姿」)に共感できることも、単なる競技以上のエモーショナルな魅力です。
### 3. **戦略的な観賞や「予想」の楽しさ**
競馬は「見るだけ」でなく、馬の過去成績(フォーム)、騎手や調教師の実力、天候やレース距離の適性などを分析して「勝馬を当てる」楽しみがあります。初心者でも簡単な情報で予想でき、その過程で馬の世界について学ぶこともできる点が人気の秘密です。
### 4. **レースコースの伝統と活気ある雰囲気**
日本の競馬場(例:東京競馬場、阪神競馬場)には、パレードやオーケストラ演奏、ファンの応援歌などの伝統的な風情があります。また、グランドスタンドでの飲食や友人同士の話し合い、さらには安全な範囲での「ベッティング」など、社交的な楽しみ方も合わせて、家族や友達との記念すべき出かけ先としても人気です。
### 5. **「人」と「馬」の輝かしいストーリー**
競馬界には数々の感動的なストーリーが存在します。例えば、負け続けた馬が突然の勢いで勝利する「アンダードッグ物語」、重病から復帰した騎手の頑張り、または地元の小さな調教場から大賞を勝ち取る奇跡など。これらのストーリーは、競技以上の「希望」や「努力の価値」を伝える力があります。
これらの要素が混ざり合うことで、競馬は単なるスポーツでなく、感動や学び、楽しみを兼ね備えた「エンターテインメント」として愛され続けています。
定期的に思考バジェットの残量をチェックしてるのが面白いね。生成される結果もいい感じ。
今回の設定だとこれぐらいの生成速度だった。
prompt eval time = 140.42 ms / 1 tokens ( 140.42 ms per token, 7.12 tokens per second)
eval time = 41740.26 ms / 1525 tokens ( 27.37 ms per token, 36.54 tokens per second)
total time = 41880.68 ms / 1526 tokens
もう一つ。
curl -s http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer no-key" \
-d '{
"messages": [
{
"role": "user",
"content": "競馬に必ず勝てる方法を教えて。"
}
]
}' | \
jq -r '.choices[0].message.content'
<seed:think>
Got it, let's tackle this question: "競馬に必ず勝てる方法を教えて。" First, I need to remember that the user is asking for a surefire way to win at horse racing. But I know that in reality, there's no guaranteed method because horse racing is inherently unpredictable with so many variables.
First, I should address the myth upfront—no "必ず勝つ" method exists. Then, maybe explain why: factors like horse form, jockey, track conditions, weather, injuries, etc., are all unpredictable.
<seed:cot_budget_reflect>I have used 131 tokens, and there are 381 tokens remaining for use.</seed:cot_budget_reflect>
Even experts can't predict every race.
Next, maybe offer practical, responsible advice instead of a "sure win" method. Things like studying statistics (past performance, win rates), understanding odds, managing bankroll (betting only what you can afford), avoiding chasing losses, and maybe mentioning that it's more about informed betting than guaranteed wins.
Also, important to emphasize that gambling should be for entertainment, not income.
<seed:cot_budget_reflect>I have used 256 tokens, and there are 256 tokens remaining for use.</seed:cot_budget_reflect>
Responsible gambling is key—set limits, don't let it affect finances.
Need to make sure the response is clear, honest, and helpful without giving false hope. Avoid any scams or misleading advice. Maybe structure it as: 1. No surefire method exists (why?), 2. Informed betting strategies, 3. Responsible gambling tips.</seed:think>競馬に「必ず勝てる方法」は**存在しません**。競馬の結果は、馬の調子、騎手の能力、トラックの状態(乾燥・湿地)、天候、不測の負傷、さらにはラッキーファクターなど、数多くの不確定要素に左右されるからです。evenプロのエキスパートやデータ分析でも100%の予測は不可能です。
それでも「勝率を高める」ための実践的なアプローチはあります。参考までにご紹介します:
### 1. **データをしっかり分析する**
過去の成績(「勝率」「順位」「馬体重変化」「コース適性」など)や騎手・訓練師の実績をチェックする。例えば「この馬は直線コースで強い」「あの騎手は泥酔状態で勝率が上がる」などの特徴を把握することで、無駄な賭けを減らせます。
→ 公式の競馬データサイト(例:JRAデータバンク)やプロ分析サイトを活用しよう。
### 2. **オッズを理解し、価値のある賭けを選ぶ**
オッズは「勝つ確率の逆数」ですが、時には「市場の過度な反応」により「実際の勝率よりもオッズが高い」馬(「値打ちのある馬」)がいます。例えば「3頭勝ち見込みだがオッズ6倍」よりも「5頭勝ち見込みでオッズ3倍」の方が期待値が高い場合があります。
### 3. **銀行ロールを厳しく管理する**
賭け金を「楽しみのための予算」に留め、損失を追いかけない。例えば「1日の賭け金を月収の1%以内」に設定し、それを超えないようにする。これにより、一時的な敗北で財産を潰すリスクを防げます。
### 大切な注意:
競馬は「娯楽」ではなく「収入源」として考えないでください。どんな方法を取っても、長期的に「必ず勝つ」ことはできません。賭けは自己抑制を大切に、理性的に行うことが求められます。
もし興味があれば、まずは「初心者向けのミニ賭け」や「シミュレーションゲーム」から学び、実践に入るのもいいでしょう。
日本語はたまにおかしなものが含まれることもあるかな。
精度についてはもっといろいろ試してみる必要はあるが、ベンチマークを見る限りは、エージェントでの使用に強そう。Function Callingにも対応しているようだし。日本語もまあまあなので、良いのではなかろうか。
Reddit見てると、特にコーディング用途でちょいちょいおすすめされてることが多い印象。