🧠
4Bモデルがモンティホール問題を解いた——Qwen3:4b 24問ローカルベンチマーク
4Bモデルがモンティホール問題を正解する時代が来た。それは本当だった。
ただし「蛙は夏の季語です」とも言い切った。同じモデルが。
スコア
| カテゴリ | スコア |
|---|---|
| A: 意地悪・引っかけ | 57/60(95%) |
| B: 論理・推論 | 57/60(95%) |
| C: コーディング | 37/60(62%) |
| D: 日本語力 | 31/60(52%) |
| 合計 | 182/240(75.8%)ランクA |
環境:RTX 4070 Ti + Ollama v0.17.4。推論速度 104.8 tok/s。VRAM消費約3.5GB。この数字は素直に速い。
A・Bカテゴリで95%という数字
引っかけ問題(A)と論理パズル(B)でほぼ満点は、4Bとしては驚く水準だ。
- バットとボール:即答で5円・連立方程式で根拠提示
- モンティホール問題:確率2/3を3ケースで整理して正解
- 100人の囚人と帽子:99人を確実に助けるパリティ戦略を自力構築
- 川渡り問題:ヤギ→狼→キャベツの7ステップを完全記述
パリティ戦略まで自力で展開できるのは、パラメータ数を考えると正直予想外だった。
コーディングで崩れた理由
CとDカテゴリは62%と52%に落ちた。
コーディングカテゴリで0点が2問(C2・C6)出た理由は、thinkingモードで思考しきって回答ゼロになったためだ。同じ問題をQwen3.5:4bでthink: false指定で再テストすると解けていた。
ちなみにQwen3系とQwen3.5系は制御方法が異なる場合があり、/no_think指定で改善できる可能性がある。
「蛙は夏の季語です」
日本語カテゴリ(D2)で、「古池や蛙飛び込む水の音」の季語を問うと「蛙は夏の季語です」と断言した。
正解は春だ。松尾芭蕉の俳句として最も有名なものの一つで、センター試験でも出題されるレベルの知識だが、Qwen3:4bはここを外した。
論理パズルで囚人のパリティ戦略を展開できるモデルが、蛙の季語を間違える。この落差が4Bモデルの現在地だと思う。
詳細スコアカードと全問の回答比較は META-MARK にまとめています。
Discussion