(自分用メモ)User-Guided Line Art Flat Filling with Split Filling Mechanism
論文サイト:https://lllyasviel.github.io/SplitFilling/
どんなもの?
線画とヒント(走り書き)から平坦な(アニメ)塗りをしてくれるアーキテクチャ。
先行研究と比べてどこがすごい?
以下の図を見てください。自明。
技術や手法のキモはどこ?
概要
ユーザの走り書き(色のヒント)
Splitting user scribbles
ユーザの走り書きマップ
ここで注意すべきなのはRGB空間のk-meansアルゴリズムは、知覚的に区別できるわずかな色相/彩度の違いには比較的弱いので、色彩度変換を用いて次のように強調します。
そして色彩強度と彩度の重要性のバランスをとるために、色彩強度を
Masking scribbles
図3(a)に示すように、学習タスクを簡単にするために、走り書きマスク
Estimating influence areas and resulting colours
畳み込みニューラルネットワーク(CNN)を訓練して、各走り書きグループの影響領域と結果の色を推定します。線画
これらのカラーマップと影響マップは,flat fillingのラフな初期値として機能する。
このスケルトンマップは、領域スケルトン強度アプローチを用いて計算され、end-to-endの領域操作が可能になります。任意の離散領域は、skeleton-from-region変換により、学習可能なピクセル単位のスケルトン強度に変換することができ、また、このようなスケルトンは、region-from-skeleton変換により、元の領域を再構築することができる。
Interpreting regions
図3-(c)に示すように、全ての推定したスケルトンマップの平均値を
として計算し、region-from-skeleton変換を用いて、領域{
最終的なカラーマップ
同様に、最終的な影響マップ
Finalizing results.
最終的なマージの出力は次のように計算されます(図2(g))。
colour consistency optimization
ユーザーの走り書きや入力された線画に応じて、モデルがスマートかつ選択的に複数の領域をマージして一貫した色で着色できるように学習します。
特に各分割された走り書きマスク
マージが可能な領域ペア
-
はN(Ω_i) に隣接する領域の集合Ω_i -
は\bar{Ω_i} の平均色値Ω_i -
はユークリッド距離||・||_2 -
は閾値ハイパーパラメータτ
このセットから領域ペアをマージして色の一貫性を確保するために、それらの色をそれらを覆う走り書きの色に置き換えます。
Dataset synthesis
図4に示すように、線画マップ
具体的には、Danbooruデータセットより100万枚のイラストをサンプリングし、各イラストにSimo-Serraらの方法で線画マップ
イラストからサンプリングした色の中央値ですべての領域を塗りつぶすことで、平坦なカラーマップ
k-meansを用いて、平坦なカラーマップ
各影響マップ
User scribble simulation
各分割された走り書きマップ
一般的なユーザの落書きをいくつか観察し,3つの問題について指摘します。
- 図5(a)のようにどの領域が描く走り書きの影響を受けるべきなのかが明らかじゃないこと。近い領域のみから伝搬してほしいときもあるし、遠くから伝搬してほしいときもあります。
- 図5(b)のように領域を超えて走り書きをしてしまう場合があります。
- 図5(c)のように平坦な塗りが良いときもあれば色のバリエーションがあったほうがいいときもある。
まず1つ目の問題に対してはモデルが各走り書きの影響を受ける適切な領域を推定することを学習できるようにします。
次に2つ目の問題に取り組みとして、サンプリングされた領域外の粗い走り書きを模倣し、領域を中心に半径
最後に3つ目の問題の解決として、色の不確実性をシミュレートするために各カラーマップ
Training
以下の図6に示すように1つのエンコーダーと3つのデコーダーをもつFully Convolutional Neural Network(FCNN)を用いています。
それぞれカラーマップ
損失関数は以下で定義されます。
どうやって有効だと検証した?
実際に使ってみたら有効だった()
議論はある?
画像の構造を壊してしまうときがあるらしい。
次に読むべき論文は?
スケルトンマップの生成(画像処理)をそもそも知らなかったので軽く知っておこう。
感想
colour consistency optimizationがいまいちピンときていないので誰か要約して教えて...。
データや手法など既存の技術をふんだんに組み合わせているなと思いました。
Discussion