🤔

論文解説|Few-Shot Adaptation of Generative Adversarial Networks

2023/12/15に公開

Few-Shot Adaptation of Generative Adversarial Networks

FSGANの生成画像

はじめに

本論文では、少数のトレーニングサンプル(100枚未満の画像)を使用してGenerative Adversarial Networks(GANs)[1]をfine-tuningさせる方法を提案します。この手法は、特に少数ショット設定(5～100枚の画像)において、従来のGAN適応方法と比較して顕著な視覚品質の向上を実現します。この論文では、事前訓練された重みの特異値を適応させることにより、高い表現力を持つパラメータ空間を作成しています。

事前知識

GANは、画像生成タスクで優れた性能を発揮しますが、大量のトレーニングデータが必要です。fine-tuningする際も同様に大量のデータがなければそのデータに適応することは難しいです。本論文ではそれを解決するために、学習するパラメータを少なくして、収束を早めています。
この論文では特異値分解(SVD)を用いて学習するパラメータを削減していますので特異値分解について解説します。特異値分解は、任意の行列を行列と対角行列に分解する手法で、データサイエンスにおいて次元削減などに用いられます。特異値分解は正方行列の対角化を拡張したようなものになっています。
行列 $A\in R^{m\times n}$ に対して特異値分解を行うと以下のようになります。

A = U\Sigma V^T \\ U\in R^{m\times r}, V^T\in R^{r\times n} \\ \Sigma = \begin{pmatrix} \sigma_{1} \\ & \ddots & & \text{\huge{0}} \\ & & \ddots \\ & \text{\huge{0}} & & \ddots \\ & & & & \sigma_{r} \end{pmatrix} \in R^{r\times r}\\ \sigma_{1} > \sigma_{2} >...>\sigma_{r} > 0

特異値分解は様々な表記法があります。今回は論文の表記に寄せているので注意してください。機械学習の分野では、特異値分解は次元削減に多く用いられています。モデルの重みに使用すると表現や特性を保ったまま次元削減ができるようです。

提案手法

提案手法の目的は事前訓練されたGANモデルを、少数の画像サンプル(例えば、5〜100枚)の新しいドメインに適応させることです。そのために事前訓練されたモデルの重みに対して特異値分解(SVD)を適用し、特異値のみを調整することで収束を早くして新しいドメインに適応させます。
手法としては非常に簡単でGANの各層における重みにSVDを適用し、それぞれを $U_0$ 、 $\Sigma_0$ 、 $V_0^T$ の積として表現します。

W_0 = U_0\Sigma_0 V_0^T

その後fine-tuningする際に $U_0$ と $V_0^T$ をフリーズ(学習不可)にして $\Sigma_0$ のみを学習させるようにするだけです。この操作はGeneratorだけでなくDiscriminatorにも適応されます。
下図(a)では他の手法と提案手法の学習可能パラメータの数を示しています。 $k$ は畳み込み層のフィルタサイズ、 $c_{in}$ と $c_{out}$ はそれぞれ入力と出力のチャンネル数です。#paramsが一層当たりの学習可能パラメータの数、CountがGAN全体のパラメータの数です。他の手法に比べ圧倒的にパラメータ数が減っていることが分かります。(見逃してなければsについての記述がありませんでしたが、この表をみると $c_{out}$ なのかな？)
FSGANの手法

特異値を変化させたときの生成画像の変化

特異値の変化による生成画像の変化
上の画像は特定の特異値を5倍や10倍にした時の画像の変化です。 $style_4$ はlayer4層目を変化させた時の可視化結果です。 $conv_{8\times 8}$ と $conv_{1024\times 1024}$ はlayer2、layer9層目を変化させてます。 $style_4$ では年齢、肌、トーンなどの変化で $conv_{8\times 8}$ では表情、 $conv_{1024\times 1024}$ ではコントラストや色温度などが変化するようです。このことから特異値は何かしらの性質を持っていることが分ります。

実験結果

実験では、5～100枚の画像を持つ様々なターゲットドメインにおいて、提案手法の有効性が示されました。特に細部の表現において優れた結果を示しており、アニメ画像などのドメインが全く違うものに対してもある程度適応できるようです。
FSGANの精度
FSGANの生成画像

まとめと感想

非常に簡単な手法でFew-shotのfine-tuningを効率的に行った論文でした。特に特異値が何かしらの意味を持っているということを確認できた論文ではないでしょうか。また、特異値が変更されなければ性質が保持される点から、継続学習における破滅的忘却に対しても何かしら手法を考えられるのではないかと思いました。

6. 論文のリクエスト

解説してほしい論文のリクエストを受け付けています！
リクエストから2週間程度で記事を作成したします。
どなたでもお気軽にリクエストしてください！

https://forms.gle/kDRYWM7K9k1pYvZ16

参考文献

[1]

Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems 27 (2014).