Closed13

2024 Reading List: Vision ML

inaturam←inaturam←

データセット

小規模なサンプルデータ

https://github.com/fastai/imagenette

キャプション生成

Polos

@keio_smilab
#CVPR2024 に論文1本が採択されました(M1和田)。
画像キャプション生成における世界最高性能の評価指標Polosに関する内容です。既存最大データセットの10倍のデータセットを構築しました(550人から13万件の評価を収集)。Appleとの共同研究成果です。

https://polos-nb3pl.kinsta.page

医学系データセット

MedMNIST: 医療系の画像分類データセットの詰め合わせ

https://medmnist.com

https://arxiv.org/abs/2110.14795

inaturam←inaturam←

動画からの3D空間復元

https://yuxuan1206.github.io/NFAtlas/

@hillbig
複数画像からの各カメラの姿勢推定は3次元復元等に重要。従来はカメラ行列を直接回帰していたが、代わりに画素毎の光線の位置と方向をPlucker表現で表し、それらを回帰、または拡散モデルで復元した後、行列を求める手法を提案。推定精度を大きく改善
https://twitter.com/hillbig/status/1752088696185331963

Cameras as Rays: Sparse-view Pose Estimation via Ray Diffusion
https://openreview.net/forum?id=EanCFCwAjM

inaturam←inaturam←

3D情報復元

TRIPS

3D Gaussian Splattingより良いらしい

https://arxiv.org/abs/2401.06003

https://lfranke.github.io/trips/

Binary Opacity Grids

メッシュベースのデータがほしいときに使える。ディテール描写は3D Gaussian Splattingのほうが良いかも

https://arxiv.org/abs/2402.12377

VastGaussian

VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

https://arxiv.org/abs/2402.17427

論文より引用

別視点の画像生成

The model from our paper, GenWarp, is now available! You can also try out an interactive demo where you can generate a novel view of a given image with camera control. Please give it a try!

https://genwarp-nvs.github.io

https://huggingface.co/spaces/Sony/genwarp

inaturam←inaturam←

離散表現を回避して自己回帰モデルを学習する

https://x.com/mi141/status/1806622266983420033

@mi141
Kaiming Heのグループから出た論文、めっちゃ面白い。
離散表現を使わずに自己回帰型生成モデルを学習する方法の提案。離散表現の獲得が大変な画像や音の分野にはありがたい話。論文を読んでて『自己回帰』の定義で若干混乱したので、以下、備忘のためにメモ。

普通、自己回帰(AR)というと『決まった順番で1つずつ要素を生成する』というイメージだが、この論文ではとにかく『要素を順番に生成すること』となっていて、1つずつじゃなくてもよいし、順番は試行ごとにランダムでも良い。

離散表現を使った普通のARでは次のトークンの分布を直接推定するけど、提案手法では代わりに謎の特徴量zを推定する。そして、このzを条件として小さな拡散モデルに入力して、対応するトークンを生成している。つまり、トークンの分布に関する情報が埋め込まれたzを推定するのが、ARモデルのお仕事。

なので生成時は、
(1) 次に生成するトークンを決めて、zを推定
(2) zからトークンを生成
を繰り返す。ARモデルの反復処理の中に拡散モデルの反復処理があるというなかなか面白い構図。学習は、拡散モデルの損失を使って、ARモデルと小さな拡散モデルの両方を同時に学習。

普通のARと比べると、離散表現の誤差に影響されないので性能が高い(FIDが低い)。一方、生成の初期は入力されるトークンが少ないので、毎回全てのトークンが入力される拡散モデルよりも高速。うーん、いいとこどり!

離散表現が不要っていう話も面白いけど、次に生成するトークンはランダムに決めてよいっていうのも個人的には面白い。Masked generative transformer(MaskGITやMAGE)だと、自信のあるトークンから先に推定する、みたいなことをやるけど、そういう仕組みは不要らしい…

実験がクラス条件付き画像生成だけだけど、仕組みは単純なのでtext-to-imageやtext-to-audioなどにも単純に適用できそう。そのあたりがうまくいくなら結構熱いなあ…

https://arxiv.org/abs/2406.11838

このスクラップは2024/12/31にクローズされました