✍️

（自分用メモ）User-Guided Line Art Flat Filling with Split Filling Mechanism

2021/03/30に公開

機械学習

論文サイト：https://lllyasviel.github.io/SplitFilling/

どんなもの？

線画とヒント（走り書き）から平坦な（アニメ）塗りをしてくれるアーキテクチャ。

先行研究と比べてどこがすごい？

以下の図を見てください。自明。

技術や手法のキモはどこ？

概要

ユーザの走り書き（色のヒント） $U$ を $N$ 個のグループに分割して、グループインデックスを示す $i\in$ {1, ..., $N$ }を持つ $N$ 個の分割走り書きマップ $U_i∈R^{w×h×4}$ (RGB+A(アルファ値)なので4)を得ます。各グループの色 $C_i∈R^{w×h×3}$ と影響範囲 $I_i∈R^{w×h}$ を推定し、それらを統合して結果 $Y$ を得ることが目的となります。先に図6（下の方にあります）を見たほうが理解しやすいかもしれません。

Splitting user scribbles

ユーザの走り書きマップ $U$ に使われている色を、k-meansクラスタリングアルゴリズムを用いて $N$ 個のクラスタにクラスタリングし、得られた色クラスタを用いて、ユーザーのらくがきマップ $U$ を分割走り書きマップの集合{ $U_{1...N}$ }に分割します（図3(a)参照）。

ここで注意すべきなのはRGB空間のk-meansアルゴリズムは、知覚的に区別できるわずかな色相／彩度の違いには比較的弱いので、色彩度変換を用いて次のように強調します。

そして色彩強度と彩度の重要性のバランスをとるために、色彩強度を $β$ でスケーリングします。

Masking scribbles

図3(a)に示すように、学習タスクを簡単にするために、走り書きマスク $M_i$ を計算する。各マスク $M_i$ では、 $U_i$ の走り書きのピクセルは"1"とマークされ、 $U$ の残りの走り書きのピクセルは"-1"とマークされ、その他のピクセルは"0"となります。

Estimating influence areas and resulting colours

畳み込みニューラルネットワーク(CNN)を訓練して、各走り書きグループの影響領域と結果の色を推定します。線画 $X$ 、分割走り書きマップ $U_i$ 、分割走り書きマスク $M_i$ を入力とし、出力は予測領域スケルトンマップ $S'_i$ 、カラーマップ $C'_i$ 、影響マップ $I'_i$ となる。
これらのカラーマップと影響マップは，flat fillingのラフな初期値として機能する。
このスケルトンマップは、領域スケルトン強度アプローチを用いて計算され、end-to-endの領域操作が可能になります。任意の離散領域は、skeleton-from-region変換により、学習可能なピクセル単位のスケルトン強度に変換することができ、また、このようなスケルトンは、region-from-skeleton変換により、元の領域を再構築することができる。

Interpreting regions

図3-(c)に示すように、全ての推定したスケルトンマップの平均値を

として計算し、region-from-skeleton変換を用いて、領域{ $Ω_{i...n}$ }を得ます。
最終的なカラーマップ $C_i$ は，予測されたカラーマップ $C'_i$ からサンプリングされた中央値の色ですべての領域を埋めます．
同様に、最終的な影響マップ $I_i$ は，各領域で最大の値を持つ最良の $i$ 番目の影響マップに"1"を設定し、他のものに"0"を設定することによって $I'_i$ から計算される。

Finalizing results.

最終的なマージの出力は次のように計算されます（図2(g)）。

colour consistency optimization

ユーザーの走り書きや入力された線画に応じて、モデルがスマートかつ選択的に複数の領域をマージして一貫した色で着色できるように学習します。
特に各分割された走り書きマスク $M_i$ が、領域セット $Ψ_i$ を次のように示すことに注目します。

マージが可能な領域ペア $(Ω_a,Ω_b)$ のセットを推定します。

$N(Ω_i)$ は $Ω_i$ に隣接する領域の集合
$\bar{Ω_i}$ は $Ω_i$ の平均色値
$||・||_2$ はユークリッド距離
$τ$ は閾値ハイパーパラメータ

${(Ω_a,Ω_b)}$ は、ブルートフォース（しらみつぶし）で解くことができます。
このセットから領域ペアをマージして色の一貫性を確保するために、それらの色をそれらを覆う走り書きの色に置き換えます。

Dataset synthesis

図4に示すように、線画マップ $X$ 、分割走り書きマップ $U_i$ 、分割落書きマスク $M_i$ 、スケルトンマップ $S$ 、カラーマップ $C$ 、影響マップ $I_i$ のペアデータを用いて、モデルを学習するためのデータセットを合成します。
具体的には、Danbooruデータセットより100万枚のイラストをサンプリングし、各イラストにSimo-Serraらの方法で線画マップ $X$ を生成し（図4(b)）、Zhangらの方法で初期領域 $Ω_{i...n}$ を抽出します（図4(b)）。そして、skeleton-from-region変換を用いて、これらの領域をスケルトンマップ $S$ に変換します（図4(b)）。
イラストからサンプリングした色の中央値ですべての領域を塗りつぶすことで、平坦なカラーマップ $C$ を得ます（図4(b)）。
k-meansを用いて、平坦なカラーマップ $C$ をクラスター化し、影響マップ $I_i$ を得ます（図4(c)）。
各影響マップ $I_i$ に対して、分割された走り書きマップ $U_i$ を合成し（図4(d)）、これらの分割された走り書きマップを1つの $U$ に統合する（図4(e)）。最後に、各分割された走り書きマップ $U_i$ に対して、走り書きマスク $M_i$ を計算します（図4(f)）。

User scribble simulation

各分割された走り書きマップ $U_i$ を模倣するために、2つのポイント $p1,p2\inR^2$ の間に3pxの幅を持つ直線を使用します。走り書きの色は， $p1$ の $C$ の値を用い，端点{ $p1,p2$ }は，現在の $i$ 番目の影響マップ $I_i$ で指定された領域セット $Φ_i$ に属するランダムな領域 $Ω_j$ からランダムに取り出されます。

一般的なユーザの落書きをいくつか観察し，3つの問題について指摘します。

図5(a)のようにどの領域が描く走り書きの影響を受けるべきなのかが明らかじゃないこと。近い領域のみから伝搬してほしいときもあるし、遠くから伝搬してほしいときもあります。
図5(b)のように領域を超えて走り書きをしてしまう場合があります。
図5(c)のように平坦な塗りが良いときもあれば色のバリエーションがあったほうがいいときもある。

まず1つ目の問題に対してはモデルが各走り書きの影響を受ける適切な領域を推定することを学習できるようにします。 $p1$ と $p2$ で同じ領域 $Ω_j$ からサンプリングするのではなく、領域セットΦiの中で $p1$ から到達可能な領域から $p2$ を取得できるようにします。
$Ω_j$ からランダムウォークを行い、 $p2$ をサンプリングするランダムな $k$ ステップの近傍領域 $Ω_k$ を見つけます。 $k=3$ ステップのランダムウォークを行い、遠すぎる領域を得ないようにします。

次に2つ目の問題に取り組みとして、サンプリングされた領域外の粗い走り書きを模倣し、領域を中心に半径 $r$ ピクセル周囲の領域（デフォルトでは $r＝15$ ）からもサンプリングします。

最後に3つ目の問題の解決として、色の不確実性をシミュレートするために各カラーマップ $C_i$ においてcolour consistency optimization（前述）を行います。

Training

以下の図6に示すように1つのエンコーダーと3つのデコーダーをもつFully Convolutional Neural Network(FCNN)を用いています。
それぞれカラーマップ $C'_i$ 、影響マップ $I'_i$ そして領域スケルトンマップ $S'_i$ を推定します。

損失関数は以下で定義されます。

どうやって有効だと検証した？

実際に使ってみたら有効だった（）

議論はある？

画像の構造を壊してしまうときがあるらしい。

次に読むべき論文は？

スケルトンマップの生成（画像処理）をそもそも知らなかったので軽く知っておこう。

感想

colour consistency optimizationがいまいちピンときていないので誰か要約して教えて...。
データや手法など既存の技術をふんだんに組み合わせているなと思いました。