🤼‍♂️

なんで見ていない画像を生成できる？

2025/03/03に公開

 前書き飲み会で、画像生成AIがなんで見ていない画像（学習データ以外）を生成できるん？聞かれたので答えたんだけど。

GANでも説明すればよかったなと思い、ここで書きます。

 GANでできるの理由以下はGAN(敵対的生成モデル）のサーベイ論文からとってきた図です。
ここで画像作っているのはGのGeneratorです。Realって画像が学習データですが、直接みていません。なので、作るうえで逆に全く同じ画像になるとは直感的に反するかと思います。つまり、見ていない画像を作ることになる。
ただ、DのDicriminator(画像が本物か偽物か判断できるように学習する）から関節的に学習データに関する情報は学ぶことになるとは思いますが。

 いろんなモデルで言える理由例えば1億枚の写真見ることによって、１枚１枚の個別データでなく、全体的に存在する分布を学習することができる。その分布からサンプリングで、実際の１億枚のデータ以外が出力できる。
これは拡散モデル、変分オートエンコーダー、LLM（自己回帰）を画像に適用したAR,VARにも言える。

 GANを見直したところ以下の図の右のARは画像をブラウン管TVの走査線みたいな順で予測していたのを、左のVARは解像度高くして予測していく形にして、速く、精度あげた有名なのがある。

右から２列目の#step数で、GANは１。この点においては圧倒的と思った。
今読んでいる生成AIの本にはGANは出てきてないが、またポピュラーになるかもな？

 ついでに思ったことオートエンコーダーは生成モデルでないって言われると思うけど、オートエンコーダーのデコーダー使っても画像は生成できると思う。
題は、ランダム、カオスとかになってしまう実際の写真には似つかわない画像になりがちなだけで。芸術的にはむしろおもろい？

 あとがき記事よかったら、いいね♡　押してね！

前書き

GANでできるの理由

いろんなモデルで言える理由

GANを見直したところ

ついでに思ったこと

あとがき

Discussion