GPT-4Vで画像を深く分析してみる
実現したいこと
GPT-4Vの画像分析として、ポインティングという技術が紹介されています。
画像中に「ここ」と指すと、しっかりと認識して説明してくれる技術のようなのですが、実際に試してみたいと思います。
利用するデータ
ここでは、事前に用意された画像ではなく、私が撮影した画像で検証してみます。
これは、先日参加したAI・人工知能EXPOの写真です。
これは、ポインティングがない状態ですが、これをGPT-4Vで「これはなんの写真でしょうか?日本語で回答してください。」とすると、次のようなアウトプットがでます。
この写真は、屋内の展示会または商業見本市の様子を捉えたものです。天井が高く、多数のブースや展示スペースが設置されており、各々の企業や団体が製品やサービスを紹介している様子が見受けられます。ブースの一部には「AI」という文字が見えるため、おそらく人工知能に関連する技術展示会の可能性が高いです。また、「デジタルトランスフォーメーションEXPO」というバナーも見えるため、デジタル変革に焦点を当てたイベントの可能性もあります。
「AI」という文字から、「人工知能に関連する技術展示会の可能性が高い」と、かなり確からしい回答をしてくれています。
「デジタルトランスフォーメーションEXPO」というのは、「デジタル人材育成支援EXPO」の部分を間違って読み取っているようですね。やはり、日本語の読み取りはまだまだですね。惜しい。
検証
さて、ここからがメインです。
写真に、矢印を入れてポインティングをしたのが次のものです。かなりのフリーハンドですが、①・②・③とそれぞれの矢印を入れました。
かなり適当な感じですが、これでいけるのでしょうか。
ポイント①
まず、①は「日本テレビ」のロゴですが、わかるのでしょうか?
うーん、残念。あまり、具体的な説明にはなっていないですね。
たしかに、展示ブースですが、それ以上は全く当たり障りのない内容でした。
改めて、①がロゴだとして聞いてみましょう。
一応、企業名の調べ方についての案を示してくれていますが、回答はやはり微妙ですね。
そもそも、①で指している部分を理解しているのかが、これではわかりません。
ポイント②
さて、気を取り直して②にいきましょう。
こちらは、先に②の数値と聞いてしまいましょう。
おお。かなり、しっかりと②で指している場所を理解して読み取ってくれていますね。
「30,000社」とあるので、社数と入れていただけるとより良かったですが、それはポインティングとはあまり関係ないので、ひとまずおいておきましょう。
とりあえず、フリーハンドで適当に書いた②と矢印で指している部分を、しっかりと理解して読み取ってくれていることがわかりました。
ポイント③
偶然じゃないことを確かめるためにも、もう1つ③を見てみましょう。
こちらも、③の文章として聞いてみましょう。
これは、すごい。しっかりと文章を画像からテキストに起こしてくれています。
別で検証した通り、日本語の読み取りは苦手ですが、英語での読み取りはかなり精度が高いですね。
しかも、「展示会でこのような問いを提示することは、訪問者の興味を引き、ディスカッションを誘発するための方法として一般的です。」といった解説までつけてくれています。
これを更に応用して、
「写真③の指す文章をもとに、よりAIの専門的な知識がない人でも興味を引くような文章の候補を考えてください。」といった、画像読み取りと、新たな文章生成の指示を同時に出したとすると。
写真の「③」で指されている「Can a Machine Be Intelligent?」という問いかけは、AIに関する興味を引くために用いられていますが、AIの専門的な知識がない人にも理解しやすく、興味を持ってもらうためには、もっと親しみやすく、日常生活に即した表現を用いることが効果的です。以下にいくつかの文章候補を提案します:
「あなたのスマートフォンは、あなたの次の一手を予測できるでしょうか?」
「ロボットはペットのように私たちの心を癒せるか?」
「未来のAIは、あなたのお気に入りのレシピを考え出せるかな?」
「機械にも"直感"はある?AIが判断を下す仕組みをのぞいてみよう!」
「音楽から絵画まで: AIはクリエイティブな才能を持つことができるのでしょうか?」
これらの文章は、AI技術がどのように日常生活に役立っているか、また将来的にどのような可能性を秘めているかに焦点を当てており、より幅広い聴衆に訴えかけることができるでしょう。
といった感じで、元の画像での内容と、こちらの指示の意図を踏まえつつ、いい感じの候補を出すところまでやってくれました。
まとめ
最後の方は、ポインティングの検証というよりも、GPT-4Vの機能の凄さを見せられただけでしたが、本当に的確な内容をアウトプットしてくれました。
改めて、今回検証した「ポインティング」という技術ですが、画像上にフリーハンドでも数値や矢印を入れると、それが指したものを把握し、適切なアウトプットにつなげることができました。
画像だけで考えると、元の写真に赤の要素が追加されただけなのですが、それを矢印や数値だと理解して、解釈してくれているのが、なぜなのか。
なかなかその裏付けの技術には理解が及ばないですが、凄さは実感しました。
これができると、例えば建物の画像を見せて、全体では異常が見つからなかったときに、人が「じゃあ、ここはどう?」とか気になる部分を示すと、より深掘りして分析してくれるみたいな。人とAIが協業するのにピッタリの形なのではないか、とか想像してみたりしました。
Discussion