Copilotなど一般向け主要AIモデル3種の画像分析比較、同一プロンプト検証
前回はプロンプトで描いた画像を比較検証しましたが、今回が画像を分析して出力する検証をしてみたいとおもいます♪
このような比較検証は、各モデルの「理解の癖」を可視化する貴重な取り組みであり、それぞれ同一の画像を読み取らせ、その描写内容や推論の違いを分析することで、精度・表現傾向といった特徴が浮き彫りになります。
今回は特にアニメ画像のように抽象度が高い素材では、モデルごとの判断基準や推測の幅が明確に分かれると思い、画像理解技術の成熟度を測る指標として実施しました。

*AI画像の検証に使う素材はこれです!
分析にするプロントについて考える
AI画像認識を比較する際、1つのプロンプトで多面的な分析を求めるのがよいと考えました。
要素抽出、表情解析、行動推定、構図理解・・など複数の観点を同時に要求し、各モデルの認識精度や推論の癖を一度に浮き彫りにします。
プロンプトを分割すると、AIが文脈を再構築してしまい比較軸が揺らぐが、統合プロンプトなら同一条件下での処理能力を純粋に測定できると考えられるからです。
さらに、情報の粒度、推測の慎重さ、構造化の仕方といった「モデルの個性」も明確に現れ、技術的な差異を可視化しやすく、AIの理解力を客観的に評価するうえで最も効率的なアプローチだと思います。
実際に試してみました
プロンプトはこちらです
なお投稿用として出力する文字数を200文字とさせていただきましたが、実際の検証は文字数制約なしで実施しております。
この画像に描かれている人物について、できるだけ細かく分析してください。
出力する文字数は200文字とします。
各人物ごとに分けて、
- 顔の向き
- 目の形・視線の方向
- 口の形
- 体の向き・姿勢
- 手や腕、足の動き
を具体的に描写してください。
それぞれの人物が「どんな感情」に見えるかを推測し、その根拠も説明してください。
各人物が「何をしている最中」に見えるかを、できるだけ具体的に説明してください。
人物同士の関係性や、やり取りがあるように見える場合は、その内容を推測してください。
事実として見える部分と、あなたの推測は、必ず分けて書いてください。
各モデルの出力結果(代表3つ)
■■Copilot
人物A・顔の向き: やや右向きで、こちら側に少し傾けている。
目・視線: 大きく丸く開き、進行方向より少し手前を見ている。
口の形: 口角が上がった笑顔。
体の向き・姿勢: 体は前方へ向けて歩行中、上体は軽くひねり気味。
手足の動き: 右手を前に上げて軽く差し出し、左手は下げて振り、足は一歩踏み出している。
人物同士: 他の人物は描かれていない。
推測(感情・行動・関係性)
感情の推測: 楽しさ・安心感。
根拠: 笑顔、開いた目、弾むような腕の振り、柔らかい服装と明るい公園の雰囲気。
何をしている最中か: 公園の小道を散歩しながら、前方の誰かに話しかけている、もしくは何かに気づいて手を上げて応じているように見える。
関係性の推測: 画面外に知人や友人がいて、軽く挨拶や会話を交わしている最中の一場面のように感じられる。
■■Gemini
描かれているのは、笑顔を浮かべた若い女性一人です。
顔の向き: 右斜め前を向き、顔は少し上がっています。
目と視線: ぱっちりとした丸い目で、視線は右前方(鑑賞者側)を向いています。
口: 大きく開き、上の歯が見える明るい笑顔です。
体と手足: 体は正面を向きつつ、左へ歩を進める姿勢です。右手は下げ、左手は手のひらを上にして右方向へ差し出しています。
【感情と根拠】 非常に明るく社交的な感情に見えます。根拠は、口角が上がった表情と、誰かを案内するかのような開かれた手の動きです。
【行動】 公園の小道を歩きながら、隣にいる誰かに「あっちを見て」と景色を紹介している最中に見えます。
【関係性と推測】 事実として、彼女の視線と手の先には誰も描かれていません。しかし、その親密な表情から、気心の知れた友人やパートナーと一緒に散歩をしており、楽しさを共有しようとしていると推測できます。
■■ChatGPT
【人物1】
【事実】顔はやや右向き。丸い目で右前方を見る。口は開き笑顔。体は進行方向に半身、軽い前傾の歩行姿勢。右手を上げ示し、左腕は自然に下げる。足は一歩前。背景に園路とベンチ。
【推測】感情は期待と親しみ。根拠は明るい表情と案内的ジェスチャー。公園散策中、景色や目的地を紹介。相手は同伴者で会話中。短い説明や感想を伝達。関係は友人か家族。歩調を合わせる様子が見て取れる。全体的に穏やか。印象です。
各出力結果の考察
分析した三モデルは用途に応じて明確に使い分けられているの印象的でした。
Copilotは観察項目を細かく箇条化し、顔・目・口・姿勢・手足を具体的に記述することで、事実と推測を明確に分離しており、感情の根拠や行動推定まで論理的に示しています。
これは現場報告や検証メモに最適で再現性の高い観察記録を出していました。
Geminiは物語性と感情表現を重視し、視線や仕草から関係性や場面を豊かに想像するため、聞き手の共感を誘う一方で、やや事実と推測の境界が曖昧になりやすい印象で、創作的な解釈が混入しているように見えました。
ChatGPTは簡潔で構造化された要約を好みますね、事実と推測を短く明瞭に分離して提示するため、学術的要約や発表スライド向けに適していると思います。

Discussion