2025 Reading List: Vision ML

データセット
COCOデータセットのクリーニング
PINTO氏のようにデータセットを正しくアノテーションすることで良いモデルを作る試み
自動運転

Object Detection
DEIM
DEIM: DETR with Improved Matching for Fast Convergence
YOLO v9よりかなりいい感じらしい
PINTO 464_YOLOv9-Wholebody28
YOLOv9をPINTO氏が完全にアノテーションしたデータで最強にした。
instance segmentation
データセントリックな貢献で精度を挙げるという点に加え、Post-Processのモデルを極限までシンプルにしている。
https://x.com/pinto03091/status/1961756322971734353 より以下の議論
@PINTO03091
今回、雑にインスタンスセグメンテーションモデルの設計にチャレンジして数百回テストして分かったのは、エンコーダーに使用している UNet が B0 だろうが B7 だろうが、Head 部のパラメーター量が同じならインスタンス分離の性能は同じになるということ。Headのパラメータを増加させないと意味ない。
裏を返せば、Head部のパラメーター量を増やせば B0 でもかなり強力なインスタンス分離ができるはず。ただ、現時点の設計でも十分強力な性能が出ているので、これ以上計算量を増やす意味はあまり無い、と判断している。

GAN
新しいGANのベースライン
Diffusion Model
CogView4-6B

モデル蒸留
https://x.com/pinto03091/status/1962170473359483018 のツイートより
@PINTO03091
蒸留で生徒が教師より高性能になるのは普通にあります。っていう指摘をX上でいただいて、「知らなかったです。無知無知でした!」って言いながら方向性をその場ですぐに切り替えてB7をキリキリにチューニングしてから再蒸留したら2日で成功しました。誠にありがとうございました。
作業の方向性を切り替えた瞬間に mIoU が 1.2 ポイント以上も上がりました。
生徒による教師超えが普通に起こるということは教師がショボすぎる、っていう基本的なことに気づかなければ無限に方向転換できなかった。
教師 12M パラメータ、生徒 5.3M パラメータ の状況で教師をはるかに超えたので、明らかに教師がショボかった。という結論。
スーババイザを蒸留先のモデルで超えるという発想がなかった。

3D Gaussian Splatting
去年やけに流行っていた印象の手法もCVPR2025にあった
論文より引用

txt2img
Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps
拡散モデルの条件付けベクトルである埋め込みを、意味の類似度に関連してなんかいい感じにするため、TTOでテキストのAtention mapから構文的情報をcross Attentionにぶつける