2025 Reading List: Vision ML

 データセット
 COCOデータセットのクリーニングPINTO氏のようにデータセットを正しくアノテーションすることで良いモデルを作る試み
https://cocorem.xyz
https://www.sama.com/sama-coco-dataset
https://xdeng7.github.io/coconut.github.io/

 自動運転https://github.com/autowarefoundation/autoware

inaturam←

 Object Detection
 DEIMDEIM: DETR with Improved Matching for Fast Convergence

YOLO v9よりかなりいい感じらしい
https://github.com/ShihuaHuang95/DEIM

 PINTO 464_YOLOv9-Wholebody28YOLOv9をPINTO氏が完全にアノテーションしたデータで最強にした。
https://github.com/PINTO0309/PINTO_model_zoo/tree/main/464_YOLOv9-Wholebody28

 instance segmentationデータセントリックな貢献で精度を挙げるという点に加え、Post-Processのモデルを極限までシンプルにしている。
https://github.com/PINTO0309/human-instance-segmentation
https://x.com/pinto03091/status/1961756322971734353 より以下の議論
@PINTO03091

今回、雑にインスタンスセグメンテーションモデルの設計にチャレンジして数百回テストして分かったのは、エンコーダーに使用している UNet が B0 だろうが B7 だろうが、Head 部のパラメーター量が同じならインスタンス分離の性能は同じになるということ。Headのパラメータを増加させないと意味ない。

裏を返せば、Head部のパラメーター量を増やせば B0 でもかなり強力なインスタンス分離ができるはず。ただ、現時点の設計でも十分強力な性能が出ているので、これ以上計算量を増やす意味はあまり無い、と判断している。

inaturam←

 GAN新しいGANのベースライン
https://arxiv.org/abs/2501.05441

 Diffusion Model
 CogView4-6Bhttps://zenn.dev/discus0434/articles/cogview4-6b-commentary

inaturam←

 モデル蒸留https://x.com/pinto03091/status/1962170473359483018 のツイートより
@PINTO03091

蒸留で生徒が教師より高性能になるのは普通にあります。っていう指摘をX上でいただいて、「知らなかったです。無知無知でした！」って言いながら方向性をその場ですぐに切り替えてB7をキリキリにチューニングしてから再蒸留したら２日で成功しました。誠にありがとうございました。

作業の方向性を切り替えた瞬間に mIoU が 1.2 ポイント以上も上がりました。
生徒による教師超えが普通に起こるということは教師がショボすぎる、っていう基本的なことに気づかなければ無限に方向転換できなかった。
教師 12M パラメータ、生徒 5.3M パラメータ の状況で教師をはるかに超えたので、明らかに教師がショボかった。という結論。
スーババイザを蒸留先のモデルで超えるという発想がなかった。

inaturam←

 3D Gaussian Splatting去年やけに流行っていた印象の手法もCVPR2025にあった
https://arxiv.org/abs/2504.20403
論文より引用
https://arxiv.org/abs/2502.16652

inaturam←

 txt2imgText Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps
https://arxiv.org/abs/2411.15236
拡散モデルの条件付けベクトルである埋め込みを、意味の類似度に関連してなんかいい感じにするため、TTOでテキストのAtention mapから構文的情報をcross Attentionにぶつける