🧠

4Bモデルがモンティホール問題を解いた——Qwen3:4b 24問ローカルベンチマーク

に公開

4Bモデルがモンティホール問題を正解する時代が来た。それは本当だった。

ただし「蛙は夏の季語です」とも言い切った。同じモデルが。


スコア

カテゴリ スコア
A: 意地悪・引っかけ 57/60(95%)
B: 論理・推論 57/60(95%)
C: コーディング 37/60(62%)
D: 日本語力 31/60(52%)
合計 182/240(75.8%)ランクA

環境:RTX 4070 Ti + Ollama v0.17.4。推論速度 104.8 tok/s。VRAM消費約3.5GB。この数字は素直に速い。


A・Bカテゴリで95%という数字

引っかけ問題(A)と論理パズル(B)でほぼ満点は、4Bとしては驚く水準だ。

  • バットとボール:即答で5円・連立方程式で根拠提示
  • モンティホール問題:確率2/3を3ケースで整理して正解
  • 100人の囚人と帽子:99人を確実に助けるパリティ戦略を自力構築
  • 川渡り問題:ヤギ→狼→キャベツの7ステップを完全記述

パリティ戦略まで自力で展開できるのは、パラメータ数を考えると正直予想外だった。


コーディングで崩れた理由

CとDカテゴリは62%と52%に落ちた。

コーディングカテゴリで0点が2問(C2・C6)出た理由は、thinkingモードで思考しきって回答ゼロになったためだ。同じ問題をQwen3.5:4bでthink: false指定で再テストすると解けていた。

ちなみにQwen3系とQwen3.5系は制御方法が異なる場合があり、/no_think指定で改善できる可能性がある。


「蛙は夏の季語です」

日本語カテゴリ(D2)で、「古池や蛙飛び込む水の音」の季語を問うと「蛙はの季語です」と断言した。

正解は春だ。松尾芭蕉の俳句として最も有名なものの一つで、センター試験でも出題されるレベルの知識だが、Qwen3:4bはここを外した。

論理パズルで囚人のパリティ戦略を展開できるモデルが、蛙の季語を間違える。この落差が4Bモデルの現在地だと思う。


詳細スコアカードと全問の回答比較は META-MARK にまとめています。

https://meta-mark.com/blog/qwen3-4b-benchmark-ollama-24q

Discussion