Closed2024/12/31にクローズ13

2024 Reading List: Vision ML

データセット

小規模なサンプルデータ

https://github.com/fastai/imagenette

キャプション生成

Polos

@keio_smilab
#CVPR2024 に論文１本が採択されました（M1和田）。
画像キャプション生成における世界最高性能の評価指標Polosに関する内容です。既存最大データセットの１０倍のデータセットを構築しました（550人から13万件の評価を収集）。Appleとの共同研究成果です。

https://polos-nb3pl.kinsta.page

医学系データセット

MedMNIST: 医療系の画像分類データセットの詰め合わせ

https://medmnist.com

https://arxiv.org/abs/2110.14795

Object Detection

RetinaNetを詳しく紹介

今まで見た中で最も詳細な解説

PINTO YOLOX-Body-Head-Hand-Face-Dist

オープンボキャブラリYOLO

https://arxiv.org/abs/2401.17270

Image to Text

スクリーンショットからHTMLの構成を復元する

動画からの3D空間復元

https://yuxuan1206.github.io/NFAtlas/

@hillbig
複数画像からの各カメラの姿勢推定は3次元復元等に重要。従来はカメラ行列を直接回帰していたが、代わりに画素毎の光線の位置と方向をPlucker表現で表し、それらを回帰、または拡散モデルで復元した後、行列を求める手法を提案。推定精度を大きく改善
https://twitter.com/hillbig/status/1752088696185331963

Cameras as Rays: Sparse-view Pose Estimation via Ray Diffusion

ノイズを加える学習法

NoisyViTはImageNetのSOTAを大幅に更新し、Acc=95%を超えた

https://arxiv.org/abs/2309.10625v2

ベクター画像の生成モデル

https://arxiv.org/abs/2401.17093

画像への影付け

shadesketch

https://arxiv.org/abs/2002.11812

https://github.com/qyzdao/ShadeSketch

 3D情報復元
 TRIPS3D Gaussian Splattingより良いらしい
https://arxiv.org/abs/2401.06003
https://lfranke.github.io/trips/

 Binary Opacity Gridsメッシュベースのデータがほしいときに使える。ディテール描写は3D Gaussian Splattingのほうが良いかも
https://arxiv.org/abs/2402.12377

 VastGaussianVastGaussian: Vast 3D Gaussians for Large Scene Reconstruction
https://arxiv.org/abs/2402.17427
論文より引用

 別視点の画像生成The model from our paper, GenWarp, is now available! You can also try out an interactive demo where you can generate a novel view of a given image with camera control. Please give it a try!
https://genwarp-nvs.github.io
https://huggingface.co/spaces/Sony/genwarp

 Image to 3D
 Wonder3Dhttps://www.xxlong.site/Wonder3D/
https://github.com/xxlong0/Wonder3D
論文より引用
論文より引用

 Mesh-formerhttps://arxiv.org/abs/2408.10198

 PFN 3D Scanhttps://pfn3d.com

文字を動くモチーフに変換

 diffusion model非常に詳しい理論のチュートリアル (ほぼ本)
https://arxiv.org/abs/2406.08929
https://magattaca.hatenablog.com/entry/2021/09/04/160541

 stable-diffusion 3.5 Largehttps://huggingface.co/stabilityai/stable-diffusion-3.5-large

 Transfusionhttps://arxiv.org/abs/2408.11039

 明度調整https://arxiv.org/abs/2401.15204
https://github.com/albrateanu/LYT-Net

 離散表現を回避して自己回帰モデルを学習するhttps://x.com/mi141/status/1806622266983420033
@mi141

Kaiming Heのグループから出た論文、めっちゃ面白い。

離散表現を使わずに自己回帰型生成モデルを学習する方法の提案。離散表現の獲得が大変な画像や音の分野にはありがたい話。論文を読んでて『自己回帰』の定義で若干混乱したので、以下、備忘のためにメモ。
普通、自己回帰（AR）というと『決まった順番で１つずつ要素を生成する』というイメージだが、この論文ではとにかく『要素を順番に生成すること』となっていて、１つずつじゃなくてもよいし、順番は試行ごとにランダムでも良い。
離散表現を使った普通のARでは次のトークンの分布を直接推定するけど、提案手法では代わりに謎の特徴量zを推定する。そして、このzを条件として小さな拡散モデルに入力して、対応するトークンを生成している。つまり、トークンの分布に関する情報が埋め込まれたｚを推定するのが、ARモデルのお仕事。
なので生成時は、

(1) 次に生成するトークンを決めて、zを推定

(2) zからトークンを生成

を繰り返す。ARモデルの反復処理の中に拡散モデルの反復処理があるというなかなか面白い構図。学習は、拡散モデルの損失を使って、ARモデルと小さな拡散モデルの両方を同時に学習。
普通のARと比べると、離散表現の誤差に影響されないので性能が高い（FIDが低い）。一方、生成の初期は入力されるトークンが少ないので、毎回全てのトークンが入力される拡散モデルよりも高速。うーん、いいとこどり！
離散表現が不要っていう話も面白いけど、次に生成するトークンはランダムに決めてよいっていうのも個人的には面白い。Masked generative transformer（MaskGITやMAGE）だと、自信のあるトークンから先に推定する、みたいなことをやるけど、そういう仕組みは不要らしい…
実験がクラス条件付き画像生成だけだけど、仕組みは単純なのでtext-to-imageやtext-to-audioなどにも単純に適用できそう。そのあたりがうまくいくなら結構熱いなあ…
https://arxiv.org/abs/2406.11838

このスクラップは2024/12/31にクローズされました