🐈

Interactive Segmentationの最新の手法(2020, 2021)について少しだけ調査

2021/09/24に公開約2,900字

Interactive Segmentationという手法があります。
これらの手法はSemantic Segmentationとは異なり、
ユーザ入力をヒントとして、Segmentationを行う手法です。

アノテーション支援機能や画像編集ツールへの活用が期待されています。
これらの最新の手法の整理と、どれを使うか決めるまでのメモを公開します。

1. Getting to 99% Accuracy in Interactive Segmentation

コード

ディープラーニングモデルのInteractive Segmentationの性能停滞の原因を

  • ユーザとのインタラクションを最大限活用していない
  • データの不足

としており、Synthetic Dataとユーザのワークフローを更に活用する学習プロセスを導入することでそれらの課題を解決した。
なんと、IoUを99%達成できたとしており、かなり性能が高いようです。画像を見た感じでも、髪の毛やヒールの支え部分(?)も、
ネットワークの構造は次の図の通りで、ユーザの入力と画像のみではなく、前フレームのマスクも再利用しているようです。
確かに、こういう構造にするとユーザがどういう部分を消したいか特定しやすくなりそうな感じはします。

ただ、この手法の肝はSynthetic Dataの活用だと思っていて、
ネット上から集めた透過画像を背景画像に貼り付けるというシンプルな方法でSynthetic Dataを作り、
そのSyntheticDataのみで、どのデータセットでももともとの学習データから得られる性能に勝利している。

これは、割と面白いと思っていて、MediapipeのHand Landmark Detectionでは、CGのデータよりも実写データのほうが性能に寄与していた。
おそらく、次の理由から、Synthetic Dataが性能にかなり寄与しているのだと予想する。

  • マスクを作るのはキーポイントより難しい
  • Segmentationに照明や相対的なサイズの違いなどは問題ではない。

2. EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided Flow

コード

エッジ画像とユーザ入力と元画像を入力として、Segmentationを生成します。
エッジ画像を入力とするよりも、1,2のほうが筋が良さそうなので、この手法の深堀はやめておきます。ただ、性能は若干1,2より低いのみで、ほぼSOTAと言って間違いありません。

3. Reviving Iterative Training with Mask Guidance for Interactive Segmentation

コード

この手法も1の手法と同様に、修正前のセグメンテーションを入力として利用する。
具体的には、修正前のセグメンテーション、ユーザ画像、クリック画像を利用します。

クリック画像としては、ガウス分布上のマップではなく、境界がくっきりしたディスク状の点を描画したマップを使っています。

また、従来のInference時のOptimizationがないため、実行速度が早いというメリットがあります。

また、この論文では、マスクの初期値を設定できると指摘しており、
それがうまくいくのであれば、Autolabelingを入力として、それを修正するというタスクがやりやすくなる可能性を秘めています。
例えば、下記の画像のように修正できます。

この手法でも、1と同様に学習データが性能を大きく左右することが述べられており、
検証の結果、COCOとLVISデータセットを組み合わせたものが最も性能が高かったとのことです。

4. Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion

コード

この手法は、動画のセグメント化手法ですが、
下記画像のように、ユーザインタラクションでセグメントする処理と、
前後フレームにセグメントと補正を伝搬する処理が別れています。

同様に前のマスクをネットワークの入力としておりますが、点のみでなく、Scribbleも入力として受け付けます。

活用する手法

次の点を考慮して、私は3を組み込んだツールを開発することとしました。

  • ビデオのセグメンテーションではなく、画像のセグメンテーションや、2,3秒でシーンが切り替わる動画のアノテーションを対象とする
  • 評価を比較すると、若干3が良くいこと
  • ツールの使いやすさ、ライセンスの明確さ(AdobeはよくCCライセンスなので)がプラス
  • 画像ベースなのでシンプル

Discussion

ログインするとコメントできます