2024 Reading List: Vision ML

データセット
小規模なサンプルデータ
キャプション生成
Polos
@keio_smilab
#CVPR2024 に論文1本が採択されました(M1和田)。
画像キャプション生成における世界最高性能の評価指標Polosに関する内容です。既存最大データセットの10倍のデータセットを構築しました(550人から13万件の評価を収集)。Appleとの共同研究成果です。
医学系データセット
MedMNIST: 医療系の画像分類データセットの詰め合わせ

Object Detection
RetinaNetを詳しく紹介
今まで見た中で最も詳細な解説
PINTO YOLOX-Body-Head-Hand-Face-Dist
オープンボキャブラリYOLO

Image to Text
スクリーンショットからHTMLの構成を復元する

動画からの3D空間復元
@hillbig
複数画像からの各カメラの姿勢推定は3次元復元等に重要。従来はカメラ行列を直接回帰していたが、代わりに画素毎の光線の位置と方向をPlucker表現で表し、それらを回帰、または拡散モデルで復元した後、行列を求める手法を提案。推定精度を大きく改善
https://twitter.com/hillbig/status/1752088696185331963
Cameras as Rays: Sparse-view Pose Estimation via Ray Diffusion

ノイズを加える学習法
NoisyViTはImageNetのSOTAを大幅に更新し、Acc=95%を超えた

ベクター画像の生成モデル

画像への影付け
shadesketch

3D情報復元
TRIPS
3D Gaussian Splattingより良いらしい
Binary Opacity Grids
メッシュベースのデータがほしいときに使える。ディテール描写は3D Gaussian Splattingのほうが良いかも
VastGaussian
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction
論文より引用
別視点の画像生成
The model from our paper, GenWarp, is now available! You can also try out an interactive demo where you can generate a novel view of a given image with camera control. Please give it a try!

Image to 3D
Wonder3D
論文より引用
論文より引用
Mesh-former
PFN 3D Scan

文字を動くモチーフに変換

diffusion model
非常に詳しい理論のチュートリアル (ほぼ本)
stable-diffusion 3.5 Large
Transfusion

明度調整

離散表現を回避して自己回帰モデルを学習する
@mi141
Kaiming Heのグループから出た論文、めっちゃ面白い。
離散表現を使わずに自己回帰型生成モデルを学習する方法の提案。離散表現の獲得が大変な画像や音の分野にはありがたい話。論文を読んでて『自己回帰』の定義で若干混乱したので、以下、備忘のためにメモ。普通、自己回帰(AR)というと『決まった順番で1つずつ要素を生成する』というイメージだが、この論文ではとにかく『要素を順番に生成すること』となっていて、1つずつじゃなくてもよいし、順番は試行ごとにランダムでも良い。
離散表現を使った普通のARでは次のトークンの分布を直接推定するけど、提案手法では代わりに謎の特徴量zを推定する。そして、このzを条件として小さな拡散モデルに入力して、対応するトークンを生成している。つまり、トークンの分布に関する情報が埋め込まれたzを推定するのが、ARモデルのお仕事。
なので生成時は、
(1) 次に生成するトークンを決めて、zを推定
(2) zからトークンを生成
を繰り返す。ARモデルの反復処理の中に拡散モデルの反復処理があるというなかなか面白い構図。学習は、拡散モデルの損失を使って、ARモデルと小さな拡散モデルの両方を同時に学習。普通のARと比べると、離散表現の誤差に影響されないので性能が高い(FIDが低い)。一方、生成の初期は入力されるトークンが少ないので、毎回全てのトークンが入力される拡散モデルよりも高速。うーん、いいとこどり!
離散表現が不要っていう話も面白いけど、次に生成するトークンはランダムに決めてよいっていうのも個人的には面白い。Masked generative transformer(MaskGITやMAGE)だと、自信のあるトークンから先に推定する、みたいなことをやるけど、そういう仕組みは不要らしい…
実験がクラス条件付き画像生成だけだけど、仕組みは単純なのでtext-to-imageやtext-to-audioなどにも単純に適用できそう。そのあたりがうまくいくなら結構熱いなあ…