👏

【論文5分まとめ】StyleSpace Analysis

2022/02/12に公開

画像生成

tech

概要

StyleGAN2の生成結果の特定の属性を操作するためのチャネルを特定するための枠組みを提案。

書誌情報

Wu, Zongze, Dani Lischinski, and Eli Shechtman. "Stylespace analysis: Disentangled controls for stylegan image generation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
https://arxiv.org/abs/2011.12799
公式実装

ポイント

潜在空間の分析

StyleGAN2の潜在空間は、大きく分けて3つある。

正規分布に従ってサンプルされる大元の潜在変数の空間 $\mathcal{Z}$
$\mathcal{Z}$ を元に、複数の変換を経て得られる中間的な潜在変数の空間 $\mathcal{W}$
全レイヤー共通の $\mathcal{W}$ を元に、各レイヤーで個別に学習された変換を施して得られる変数の空間 $\mathcal{S}$

加えて、既存の手法でよく使用されている、全レイヤーで個別の $w$ を用意するという $\mathcal{W+}$ がある。
1024x1024の18レイヤーからなるStyleGAN2では、各潜在空間の次元数は以下のようになる。

$\mathcal{Z}$ : 512
$\mathcal{W}$ : 512
$\mathcal{W+}$ : 9216
$\mathcal{S}$ : 9088

本研究では、DCI（Disentanglement / Completeness / Informativeness）指標を用いることで、どの空間が最も良いかを定量的に求めている。
DCI指標は、ある潜在次元が1つの属性のみに変化を与えているか（D）、ある属性が1つの潜在次元によって変化を与えられているか（C）、潜在表現によって属性を分類できるか（I）ということを表す指標である。

$\mathcal{Z, W, S}$ で比較すると、 $\mathcal{S}$ で最も良い性能が得られる。同様に、 $\mathcal{W+, S}$ を比較すると、こちらでも $\mathcal{S}$ の方が良いとわかる。

以上の結果から、 $\mathcal{S}$ を用いて、生成画像の操作を行うことを本研究の方針としている。 $\mathcal{S}$ をStyleSpaceと呼ぶことにする。

特定の領域への影響の分析

次に、 $\mathcal{S}$ のどの次元（チャネル）が生成される画像の意味的な領域に対応するのかを把握したい。

ある潜在変数 $s \in \mathcal{S}$ によって得られる画像 $x$ に関して、訓練済みセマンティックセグメンテーションモデルを用いて、さまざまなクラスの領域 $M_c$ をあらかじめ求めておく。下図のように、 $\mathcal{s}$ の特定のチャネルの勾配マップと、セグメンテーション領域がおおむね一致する場合、そのチャネルはクラス $c$ をコントロールしていると考えられる。

ある $s\in\mathcal{S}$ に関して、特定のチャネル $u$ の勾配マップ $G^s_u$ と、生成された画像に関する特定のクラス $c$ の領域 $M^s_c$ との重なりが大きいほど $u, c$ の対応が強いと言える。 $t_{u, c}^{s}$ は勾配マップの閾値であり、ハイパーパラメータとして $d=2$ が使われている。

O C_{u, c}^{s}=\frac{\left|\left(G_{u}^{s}>t_{u, c}^{s}\right) \cap M_{c}^{s}\right|}{\left|M_{c}^{s}\right|^{d}}

ランダムに選ばれた1Kの $s$ について ${OC}^s_{u,c}$ を求め、チャネル $u$ と最も対応が強いクラス $c$ を $c_{s, u}^{*}=\arg \max O C_{u, c}^{s}$ と求める。この時、他のクラスを2倍以上上回っていることを条件とし、特定のクラスとの対応が明確であるチャネルに絞り込む。

下図は、このようにして求められた耳に関する $u$ とその値を操作した時の結果が示されている。 $N\_C$ という表記は、 $N$ レイヤー目の $C$ チャネル目であることを表す。
それぞれのチャネルの値を増減させることで、耳の大きさ、隠れ方、（内部の）形状、アクセサリを制御できることが確認でき、特定の領域に対応しているだけでなく、チャネルによって
異なる表現に対応していることもわかった。

特定の属性に対応するチャネルの分析

先述の方法では、特定のクラス領域に対応するチャネルを特定できたが、ここでは特定の属性をコントロールできるチャネル $u$ を特定する。
InterFaceGANでは、これを実現するためにPositiveサンプルとNegativeサンプルが10Kずつ必要だが、本研究で提案する方法では10-30程度のPositiveサンプルのみで実現できる。

あるサンプル $e$ のスタイル $s^e$ と、全画像のスタイルの平均と標準偏差 $\mu^p, \sigma^p$ を元に、そのサンプルのスコア $\delta^e$ を以下のように定義する。

\delta^{e}=\frac{s^{e}-\mu^{p}}{\sigma^{p}}

Positiveサンプル中の $\delta^e$ の平均と標準偏差を $\mu^e, \sigma^e$ とし、そのチャネル $u$ の値を $\mu^e_u, \sigma^e_u$ とする。これらの値によって以下の指標 $\theta_u$ を定義し、この指標が大きいチャネル $u$ が、特定の属性に対応していると判定できる。

\theta_{u}=\frac{\left|\mu_{u}^{e}\right|}{\sigma_{u}^{e}}

この指標のTOP5のチャネルについて、本当に特定の属性と対応づけられるかを実験によって評価している（下図）。Positiveサンプル数を増やせばその精度は向上することが確認されている。また、先に示したクラス領域へとの対応も組み合わせることで、特定の属性と対応するチャネルの特定がより確実になることが示されている。

合成画像の操作

以上のように求められた特定の属性を操作できるチャネルをの値を変動させ、合成画像がどのように変化するのかを確認する。既存手法であるGANSpace, InterfaceGANと比較すると、下図のように、本手法では他の属性にほとんど影響を与えずに特定の属性だけを制御できることが確認できた。

定量的な比較のために、Attribute Dependencyという指標を導入している。これにより、ある方向への操作が他の属性にどの程度影響を与えるかを定量的に評価できる。

操作対象のチャネル $t$ の値を変化させると、学習済みの画像属性分類器の出力であるlogitに差異 $\Delta l_t$ が生じる。この差異の大きさ（ $l_t$ の標準偏差 $\sigma\left(l_{t}\right)$ で正規化する）に対して、他の属性はどの程度変動するかを評価する。操作対象の属性 $t$ を除く全属性 $\mathcal{A} \backslash t$ について、属性分類器の出力logitの変化量 $\Delta l_i$ がどの程度大きいかを測定している（こちらも、各属性のlogitの標準偏差 $\sigma\left(l_{i}\right)$ によって正規化する）。これにより、 $t$ への操作が $i$ に与える影響を定量化できる。

2つのパターンとして、mean-ADとmax-ADを以下のように定義する。いずれの指標も、本手法の方が既存手法よりも小さい値で推移し、本手法の有効性が示されている。

mean-AD: $E\left(\frac{1}{k} \sum_{i \in \mathcal{A} \backslash t}\left(\frac{\Delta l_{i}}{\sigma\left(l_{i}\right)}\right)\right)$
max-AD: $E\left(\max_{i \in \mathcal{A} \backslash t}\left(\frac{\Delta l_{i}}{\sigma\left(l_{i}\right)}\right)\right)$

実画像の操作

実画像に対する操作は、実際の画像から潜在変数を求め、その後スタイル潜在変数を操作して生成画像を操作する、という流れになる。

潜在変数の求め方としては、以下の２通りが一般的である。

潜在変数を直接最適化する方法
実画像から潜在変数を求めるEncoderを訓練し、使用する方法

前者の方法は、 $\mathcal{W, W+, S}$ の3種類について実験している。 $\mathcal{S, W+, W}$ の順で再構成は高精度になるが、そこから操作を行うと、 $\mathcal{S}$ では大きなアーティファクトが生じてしまい、使い物にならないことが判明した。一方で、アーティファクトの観点からは、 $\mathcal{W}$ に関して最適化した上で、 $\mathcal{S}$ を操作することで、最も現実的な画像を生成できることを確認している。

後者の方法として、画像から $\mathcal{S}$ を求めるエンコーダー（構造はStyleALAE）を訓練する。計算リソースの関係上、FFHQの128x128の画像を使用して訓練している。

下図が、そのようなエンコーダーを用いて実画像から求められた $s$ を用いた再構成画像（Inverted）、および特定の属性に対応するチャネルを操作して得られる操作画像を示したものである。ややぼやけてはいるものの、各属性を個別に操作できていることがわかる。

Discussion

ログインするとコメントできます