同じAIを使っても偏差値が50開く ── 全国統一生成AI試験とthought-analyzerが測るもの
**全国統一生成AI活用技能試験(全統AI)**は、生成AIコンサルタントとSaaS開発メンバーが立ち上げた試験で、2026年3月に第1回が開催された。「AIが東大に受かる時代、人間は何を証明すべきか」というコンセプトのもと、知識量ではなくAIの「活用力」を実務で測ることを目的に設計されている。
AIを使って課題を解き、その成果物をAI採点で評価する。結果は偏差値で返ってくる。分布は30台から80台まで広がる。同じAIを使っているのに、50ポイントの差が生まれる。
その差は何からくるのか。そして「AIを使いこなせる」とは、何を意味するのか。
試験が測っていること
試験の採点で興味深い傾向が報告されている。機械的なAI出力は低評価になる。AIに丸投げして出てきた答えをそのまま提出すると、スコアが伸びない。一方、基礎問題でも業務レベルの質があれば高評価になる。
実際に受験した人の評として「AIの使い方テストという体裁だが、中身は完全に人間の知性そのものを試されている。倫理判断、抽象化、システム設計、問題解決」という言葉がある。評価されているのはAIの性能ではなく、人間の側の思考の質だ。
ただし設計上の限界もある。採点の中心は**成果物(出力)**であり、「そもそも何を目的にAIに何をさせようとしたか」という意図・プロセスは直接測定されない。出力から意図を間接推定することはできるが、思考のプロセス自体を見ているわけではない。
スコアが出やすい人の傾向
試験の評価軸(要件の分解・AIへの指示・出力の検証・システム設計)から逆算すると、スコアが出やすいプロファイルが見えてくる。公式データに基づくものではなく、評価軸から推測される傾向だ。
長年コーディングをしている人は、構造化・仕様の分解・「完成」の定義が体に染みついている。AIへの指示が自然と明確になり、出力の品質を自分で判断できる。
分野の専門家(医師・法律家・コンサルタントなど)は、AIの出力が正しいか・実際に使えるかを自分の専門知識で検証できる。丸のみしないのは意志ではなく能力だ。専門知識がなければ、そもそも検証できない。
PMや企画職は「何のためか」を常に問う癖がある。AIに何かを作らせるとき、「誰が読むか」「何を決めるための成果物か」「どこまで書けば十分か」を自然に意識する。AIの出力が目的に対して過不足ないかを判断できる。
| プロファイル | 強みの源泉 |
|---|---|
| 長年のコーダー | 構造化・分解・完成の定義が染みついている |
| 分野の専門家 | AIの出力が正しいか・使えるかを自分で検証できる |
| PMや企画職 | 「何のためか」を常に問う。出力を目的に照らして評価できる |
逆に、AIの出力をそのまま使う癖がついている人・問いの立て方が曖昧なまま渡す人はスコアが伸びにくい傾向があると推測される。
thought-analyzerの軸で言えば、integrative_complexity(統合的複雑性)が高い人がこの試験に強い可能性が高い。複数の側面を統合して考えるため、AIの出力を批判的に読んで再構成できる。problem_styleがfix型・pivot型の人も同様で、受け取った出力に対して能動的に働きかける。
thought-analyzerが測っていること
thought-analyzerは、最終成果物ではなく入力側を測る。
会話ログのなかで、あなたがどう問い、どう軌道修正し、どこから発想しているか。9軸のスコアとして出てくるのは、「AIをどう使ったか」ではなく「あなたがどう考えたか」だ。
| 全国統一試験 | thought-analyzer | |
|---|---|---|
| 測定対象 | 成果物の質(出力) | 思考パターン(入力) |
| 評価手法 | AIスウォーム採点 | 9軸スコアリング+類型判定 |
| 問い | うまく使えるか | どう使っているか |
| 結果の形式 | 偏差値 | スコア+類型 |
| 時間軸 | 1回の課題 | 会話の蓄積 |
「機械的な出力が低評価」の裏側
試験の採点基準にある「機械的なAI出力は低評価」という観察は、thought-analyzerの統合的複雑性(integrative_complexity)という軸と対応している。
統合的複雑性が低い状態では、問題をそのままAIに渡して返ってきたものを使う。統合的複雑性が高い状態では、問題の構造を自分で解釈し、複数の側面を統合してAIへの指示を設計する。試験で「機械的」と判断されるのは、前者のパターンだ。
スコアの差を生んでいるのは、AIの性能ではなく、問いを立てる人間の思考の深さかもしれない。
二つのアプローチが見ている同じもの
全国統一試験とthought-analyzerは、異なる方法で同じ問いに向かっている。
試験は成果物を見ることで、AIとの協働の質を間接的に評価する。thought-analyzerは思考プロセスを見ることで、その人がAIをどう使う傾向があるかを直接測る。
「AIを使って良い成果物を作れる人」と「AIとの対話で特定の思考パターンを示す人」は重なるか。おそらく重なる部分が多いが、完全には一致しない。試験で高スコアを取れる人が必ずしもBRIDGER型(遠い概念を接続する発想者)ではなく、ANALYST型(根本原因を多層的に掘り下げる人)が試験に強い可能性もある。
この交差点は、まだ検証されていない。
「測る」ことの哲学的な差
試験は資格・認定という文脈を持つ。「できる・できない」の判定が目的だ。
thought-analyzerは診断という文脈を持つ。「あなたはこういう思考をしている」という記述が目的で、優劣を判定しない。ARCHITECTが優れていてNAVIGATORが劣っているわけではなく、それぞれに強みと盲点がある。
同じ「AI活用を評価する」という行為でも、能力検定と思考特性診断はまったく異なる問いを立てている。
どちらが正しいということではない。試験は「これだけできる」という証明になる。thought-analyzerは「自分がどう考える傾向にあるか」という自己認識になる。両方あってはじめて、AIとの協働を多角的に理解できる。
偏差値の差を生むもの
全国統一試験の偏差値が50開くとき、そこには技術の差だけではなく、思考スタイルの差がある可能性が高い。
AIに渡す前に問いを構造化しているか。返ってきた出力を批判的に読んでいるか。複数の角度から問題を見ているか。これらは試験のスコアに影響するが、同時にthought-analyzerが測っている軸でもある。
「AIを使いこなす」とは、ツールを使う技術だけでなく、その手前にある思考の質の話でもある。
thought-analyzer を試してみる
Claude Codeで「思考パターンを分析して」と伝えるだけで動く。30件以上の会話ログを渡すと、9軸のスコアと類型・ペルソナラベルが出てくる。
→ thought-analyzer(GitHub):https://github.com/thought-analyzer/thought-analyzer
→ skill.md(直接利用):https://github.com/thought-analyzer/thought-analyzer/blob/main/skills/skill.md?plain=1
より詳しく知りたい方へ
[zenn の投稿記事]
AIで理想を実現する3層フレームワーク ── 発想力×構想力×指示力
思考パターン8類型の設計根拠 ── 9軸からキャラクターを導出する仕組み
[zenn 書籍も出しております]
Discussion