Nexta Tech Blog
💯

今度こそAIは人間の「割り切れない思い」を理解できるのか?共通テスト2026 国語・小説を最新12モデルで追加検証してみた

に公開

はじめに

こんにちは!
ネクスタで開発エンジニアをしている日野岡です。

毎年恒例となっている、株式会社LifePromptさんの「AI vs 共通テスト」の実験、
【満点9科目!】共通テスト2026を最新版AIに解かせてみた(ChatGPT、Gemini、Claude)
という記事を読みました。

AIが共通テストで驚異的な点数を叩き出している結果に「恐るべし…」と身が引き締まる思いだったのですが、個人的に非常に気になった部分がありました。

それは、「AIが読み違えた『割り切れない思い』(国語・小説)」というトピックです。 主人公が現状に妥協する「割り切れない思い」(正解:④)を読み取れず、AIたちがこぞって「過去の過ちへの反省」(③)という道徳的な選択肢を選んでしまったという内容でした。

この問題について、「他のモデルや自律型AIエージェントの場合、どのような結果になるのだろうか…?」気になり出したら夜も眠れなくなってしまったので、手元で使えるAIモデルたちを総動員して、実際どうなのか追加検証をやってみました!

※本記事の内容は、2026年2月24日時点での検証結果に基づく個人的な見解です。LLMの性能は日々進歩しているため、将来的に結果が変わる可能性があります。

検証方法

LifePromptさんの記事の手法を参考にしつつ、以下の方法で検証を行いました。

  1. テキスト化: 2026年度大学入学共通テスト 国語 第2問のPDFを、NotebookLMを使ってテキスト化する。
  2. プロンプト: 以下の形式でAIに質問を投げる。
添付したテキストの、解答番号 [ 17 ]について回答してください
###
[以下、国語 第2問のテキスト]

正解は「④」です。果たして結果はどうなるでしょうか…!

まずは元記事の再現検証から

まずは記事に登場していた3つのモデルで試してみました。

モデル名 結果
GPT-5.2 Thinking 不正解(③を選択)
Claude 4.5 Opus 不正解(③を選択)
Gemini 3.0 Pro 不正解(③を選択)

見事に全滅です。確かに記事の通り、間違いなさそうです。

最新のモデルで追加検証してみた

しかし、AIの進化は日進月歩。
ここ最近リリースされた最新モデルなら、この「割り切れない思い」の壁を越えられそうです!
一気に検証してみました。

1. 最新クローズドモデル編

モデル名 結果
Claude 4.6 Opus 不正解(③を選択)
Gemini 3.1 Pro 正解(④を選択)
Grok 4.2 正解(④を選択)

Claude 4.6 Opusは、開発の際は大変お世話になっているモデルですが、今回は残念な結果となってしまいました。今後に期待しています!

2. 中国オープンウェイトモデル編

モデル名 結果
Kimi 2.5 Thinking 正解(④を選択)
DeepSeek R1 / V3.2 不正解(③を選択)
GLM-5 不正解(③を選択)
Qwen 3.5-Plus 不正解(③を選択)

評判の良い Kimi 2.5 はさすがです!
他の強力なモデルが③の「反省」に逃げる中、しっかりと文脈を読み取って正解を導き出しました。

3. 自律型AIエージェント編(おまけ)

最後に、普段の開発でもお世話になっているAIエージェントたちにも聞いてみました。

モデル名 結果
Manus 1.6 Lite 正解(④を選択)
Devin 不正解(③を選択)

まとめ

今回の検証を通して、AIの進化の凄まじさを改めて実感しました。モデル選びや使い方次第では、共通テストで本当に満点が取れる時代が来ているのかもしれません。

また、Kimi 2.5Manusといったモデルが最近エンジニア界隈で急速に人気を集めている理由が、この「読解力(コンテキストの理解力)」の高さからもよく分かります。これだけ行間を読めるなら、曖昧な仕様書からコードの裏にある「人間の意図」を汲み取る能力が高いのも頷けます。

最後に……普段の業務で「一緒に汗をかいてくれる同僚」として頼りにしているDevinくんですが、人間の複雑な感情を理解するには、もう少し時間がかかりそうです(笑)
Devinくんには、レガシーコードの技術的負債だけじゃなく、人間の「割り切れない思い」も読み解けるように頑張ってほしい…!これからも期待しています 🙏

この記事が、少しでも皆さんのAI活用の参考になれば幸いです!

Nexta Tech Blog
Nexta Tech Blog

Discussion