Closed2025/01/11にクローズ6

[論文] NeuralSVG: An Implicit Representation for Text-to-Vector Generation

プロジェクトサイト
https://sagipolaczek.github.io/NeuralSVG/
論文
https://arxiv.org/abs/2501.03992

Claude-3.5-Sonnetによる落合プロンプトの結果

 NeuralSVG: テキストからベクターグラフィックスを生成するための潜在表現
 1. どんなもの？テキストプロンプトからSVG(Scalable Vector Graphics)を生成する新しい手法を提案している。SVGは解像度に依存せず編集可能なベクターグラフィックスのフォーマットで、主にデザインやウェブ開発で使用される。本手法の特徴は、Neural Radiance Fields (NeRF)にインスパイアされた潜在的なニューラル表現を用いて、SVGを小規模なMLPネットワークの重みとして符号化する点にある。また、生成されるSVGの階層構造を強化するためのドロップアウトベースの正則化技術を導入し、背景色などのユーザー入力に基づいて動的に適応可能な柔軟な生成を実現している。

 2. 先行研究と比べてどこがすごい？既存手法（VectorFusion、SVGDreamer等）は、ピクセルのような細かい形状の過剰なパラメータ化や、SVGの本質的な特徴である階層構造を二次的な目標としてしまう問題があった。また、NIVeLやText-to-Vectorなどの手法は、意味のある階層構造を作るために複数の後処理段階を必要としていた。これに対し本手法は、SVGの生成過程自体に階層的な性質を組み込み、独立した意味を持つ形状を生成しながら全体の構図に寄与する形状を作り出すことができる。さらに、単一の学習済み表現で背景色の変更などの柔軟な編集が可能である。

 3. 技術や手法の肝はどこ？主要な技術的特徴は以下の3点：
SVGシーン全体を小規模なMLPネットワークの重みとして符号化する潜在的なニューラル表現の採用
Score Distillation Sampling (SDS)損失を用いた最適化手法
形状の意味的な順序付けを促進するドロップアウトベースの正則化技術
特に、訓練時に確率的に形状をドロップアウトすることで、早い段階で生成される形状により多くの意味的情報を持たせる工夫がなされている。

 4. どうやって有効だと検証した？定性的および定量的な評価を通じて検証を行っている。定量的評価では、CLIP空間でのコサイン類似度とR-Precision（生成されたSVGが正しいプロンプトと最大のCLIP類似度を持つ割合）を測定し、同じ数の形状（16個）を使用した場合、既存手法を上回る性能を示した。また、生成されたSVGの形状の意味的な重要性を評価するため、形状の累積的なCLIP類似度スコアを計測し、少ない形状数でも認識可能なSVGを生成できることを示した。

 5. 議論はある？形状数を増やした場合（VectorFusionの64形状やSVGDreamerの256形状）、画像ベースの評価指標では既存手法の方が高いスコアを示すケースがあることが指摘されている。しかし、これらの場合でも生成されるSVGは非常に断片的で編集が困難であり、実用的な観点からは本手法の方が優れているとしている。また、アブレーション実験を通じて、提案手法の各コンポーネント（ドロップアウト技術、2つのMLPブランチ）の重要性が示されている。

 6. 次に読むべき論文は？以下の論文が関連研究として重要：
NeRFの基礎論文：Mildenhall et al. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" (2021)
Score Distillation Samplingの原論文：Poole et al. "DreamFusion: Text-to-3D using 2D Diffusion" (2022)
比較対象となる主要な手法：
Jain et al. "VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models" (2023)
Xing et al. "SVGDreamer: Text Guided SVG Generation with Diffusion Model" (2024)

難しい。。。もう少し優しめに教えてもらう。
Q:うーん、難しいです。もう少し平易な言葉でわかりやすく教えて下さい。

 NeuralSVG: テキストから編集可能な図形を自動生成する新しい技術
 1. どんなもの？イラストレーターなどで使うベクター画像（拡大しても荒くならない図形）を、文章の説明だけで自動生成する技術です。例えば「青い背景に立っている孔雀」と入力すると、きれいな孔雀の図形を作ってくれます。しかも作られた図形は、後から色を変えたり形を調整したりできます。特に素晴らしいのは、図形の重要な部分から順番に描いていってくれるので、途中の段階でも孔雀らしい形になっているところです。

 2. 先行研究と比べてどこがすごい？従来の技術には2つの問題がありました：
細かすぎる点や線をたくさん使って図形を作るため、後から編集するのが難しい
図形の重なり順（手前に来るべきものが後ろに隠れてしまうなど）があまり考慮されていない
この研究では、人間が絵を描くように、大きな形から徐々に細部を追加していく方法を取り入れました。また、背景は背景、主役は主役として別々に管理されるので、後から簡単に編集できます。

 3. 技術や手法の肝はどこ？主なポイントは3つあります：
深層学習を使って、図形の「設計図」をコンパクトに記憶する方法を開発
最新の画像生成AI技術を活用して、テキストの意図を正確に図形化
図形を描く順番を学習させる独自の手法（訓練中にランダムに一部の図形を省いて描かせることで、重要な部分から描くよう学習）

 4. どうやって有効だと検証した？2つの方法で性能を確認しています：
人間による見た目の評価：生成された図形が自然で編集しやすいか
AIによる数値評価：入力された文章の意図をどれだけ正確に図形化できているか
結果として、少ない図形数（16個）でも、人間が理解しやすく、かつ編集もしやすい画像を生成できることが分かりました。

 5. 議論はある？既存の技術の中には、もっとたくさんの図形（64個や256個）を使うことで、見た目は良くなるものもありました。しかし、図形が多すぎると編集が難しくなってしまいます。この研究では、「見た目の良さ」と「編集のしやすさ」のバランスを重視しています。実用的な観点では、少ない図形数で十分な品質を実現できる本手法の方が優れているとしています。

 6. 次に読むべき論文は？特に以下の3つが参考になります：
3D空間を効率的に表現する技術についての論文（Mildenhall他、2021年）
テキストから画像を生成する基礎技術についての論文（Poole他、2022年）
似た目的の既存技術についての論文（Jain他、2023年とXing他、2024年）
なるほど、だいぶわかりやすくなったｗ。
自分は画像生成あまりやっていないしそれに対する理解も浅いとは思っているけど、個人的には、現時点で画像生成を業務に使う場合、ポン出し完結みたいなのはまだしんどいと思っていて、どちらかというとパーツ的に生成させたものを人間がよしなに組み合わせる、というようなワークフローが業務等には組み込みやすいのではないかと思っている。
その意味で、SVGは加工や編集がしやすいと思っていて、以下のサービスも非常に良いと感じた。
https://zenn.dev/kun432/scraps/cc63f18cdd73c1
ただ、人間が作る場合にはレイヤー等も将来的なメンテナンス性も含めて作ったりということがあると思うのだけど、上で試した画像を見る限り（この手のドローツール等については素人なので間違ってるかもしれない）そのあたりは考慮されているかどうかはちょっと怪しく感じる。
このあたりを踏まえたSVGの生成、ってのがこの論文の趣旨なのではないか、というふうに認識した。

コードは以下のGitHubレポジトリで公開される予定らしい（2024/1/11時点ではまだコードはない）

2025/4/17にコードリリースされてた。
https://github.com/SagiPolaczek/NeuralSVG
ちょっと試してみたけど、gcc-8が必要・・・そしてUbuntu-22.04以降ではgcc-8はパッケージがない・・・
参考
https://github.com/BachiLi/diffvg/issues/88

ちょっと試してみたけど、gcc-8が必要・・・そしてUbuntu-22.04以降ではgcc-8はパッケージがない・・・
Colaboratoryで軽くやってみたけど、gcc-8をソースからビルドするのにかなりの時間がかかりそうなので諦めて、ローカルのUbuntu−22.04サーバでやってみる。
上にある通り、Ubuntu-22.04以降はgcc-8のパッケージがないので、ソースからビルドする。./configure;make;make installなんてもう何年ぶりだろう・・・以下のサイトを参考にさせていただいた。とりあえずめちゃめちゃ時間がかかる。
https://notekunst.hatenablog.com/entry/cuda-cudnn-ubuntu22.04-macbookpro
wget http://ftp.tsukuba.wide.ad.jp/software/gcc/releases/gcc-8.5.0/gcc-8.5.0.tar.gz
tar zxvf gcc-8.5.0.tar.gz
cd gcc-8.5.0
./contrib/download_prerequisites
./configure --prefix=/usr/local/gcc-8.5 --program-suffix=-8.5 --disable-multilib --enable-languages=c,c++
make
sudo make install
続きは後ほど・・・

コードが公開されるまで結構な時間が経ってるうちに、SVG生成は以下のようなものも出てる。試してないけど。
https://github.com/joanrod/star-vector
https://github.com/OmniSVG/OmniSVG
とりあえず落ち着いたらこちらも試してみたい。

このスクラップは2025/01/11にクローズされました