😊
GENESIS：AIが画像を「理解」する技術 - 写真の中の物体を自動で見分け、新しい風景も創り出せる

2025/01/07に公開
 はじめに皆さんは写真を見るとき、どのように認識していますか？例えば、公園の写真を見れば「ベンチがあって、その後ろに木々があり、空が広がっている」というように、自然と場面を要素ごとに分解して理解できますよね。
しかし、AIにとってこの「当たり前」が大きな課題でした。写真の中の物体を正確に識別し、それらの位置関係を理解することは、ロボットや自動運転車の開発において重要な技術です。特に、人間による細かい指示なしで、AIが自動的に画像を理解できるようになることが求められていました。
オックスフォード大学の研究チームは、この課題を解決する画期的なAIシステム「GENESIS」を開発しました。このシステムの特徴は、教師なし学習によって画像の中の物体を自動的に見つけ出し、さらにそれらの関係性を理解した上で、新しい風景を生成できる点にあります。


図1: GENESISの基本的な処理の流れ
入力画像を受け取り、物体ごとに分解
物体間の関係性を理解
学習した知識を基に新しい画像を生成

 本文研究手法の説明

GENESISは、人間の視覚認識システムにヒントを得て設計されています。私たちが部屋を見回すとき、視線を素早く動かしながら、シーンの全体像を組み立てていきます。GENESISも同様の方法で画像を処理します。


図2: GENESISの処理ステップ
画像全体のスキャン
要素への分解プロセス
関係性の学習メカニズム
システムはまず、画像全体をスキャンして主要な要素（床、壁などの背景、物体など）を特定します。これは、パズルのピースを分けるような作業です。次に、それぞれの要素がどのように関連しているかを学習します。例えば、「物体は必ず何かの上に置かれている」「同じ場所に複数の物体は存在できない」といった基本的な物理法則を自動的に理解していきます。
主要な発見や成果



図3: 性能評価結果のグラフ
GENESISと従来手法の比較
物体認識精度の向上
シーン生成の品質評価
実験では、GENESISは従来のAIシステムを大きく上回る性能を示しました。物体の識別精度を示すARI（調整ランド指数）では0.73を達成し、従来手法の0.63を上回りました。これは、野球の打率に例えると、.300と.260の差に相当する大きな改善です。
特に注目すべきは、シーンの生成能力です。[図4参照] のように、システムは人間のような直感的な方法で新しい風景を作り出します。まず床と空で基本構造を作り、その後で物体を適切な位置に配置していくという戦略を、自然に獲得しました。


図4: シーン生成のステップ例
背景の生成（床と空）
物体の配置
最終的な画像
研究の意義と影響

この技術は、私たちの生活に大きな変革をもたらす可能性を秘めています。例えば、家庭用ロボットが部屋の状況を理解し、物を適切に片付けたり、必要なものを取ってきたりする際に、このような物体認識・理解能力は不可欠です。


図5: GENESISの応用例
ロボットによる物体認識
自動運転での環境理解
VR/ARでの活用
【結論】

GENESISの開発は、AIによる視覚認識の新しい時代の幕開けを告げるものです。人間のような直感的な視覚認識能力をAIに実装することで、より自然なヒューマン・マシン・インタラクションが可能になります。
今後は、より複雑な環境での認識能力の向上や、実世界のアプリケーションへの応用が期待されます。この技術は、自動運転やロボット工学、virtual reality など、幅広い分野での革新をもたらすでしょう。
どのように私たちの生活が変わっていくのか、皆さんも想像してみてはいかがでしょうか？
【文献情報】

原論文：
タイトル：GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations
著者：Martin Engelcke, Adam R. Kosiorek, Oiwi Parker Jones, Ingmar Posner
所属：Applied AI Lab, University of Oxford
掲載：ICLR 2020
arXiv：1907.13052
【参考リンク】
オックスフォード大学Applied AI Labのプロジェクトページ：[https://ori.ox.ac.uk/labs/a2i/]
GENESISのGitHubリポジトリ：https://github.com/applied-ai-lab/genesis
はじめに

本文

Discussion