Open6

2025 Reading List: Vision ML

inaturam←inaturam←

Object Detection

DEIM

DEIM: DETR with Improved Matching for Fast Convergence
YOLO v9よりかなりいい感じらしい

https://github.com/ShihuaHuang95/DEIM

PINTO 464_YOLOv9-Wholebody28

YOLOv9をPINTO氏が完全にアノテーションしたデータで最強にした。

https://github.com/PINTO0309/PINTO_model_zoo/tree/main/464_YOLOv9-Wholebody28

instance segmentation

データセントリックな貢献で精度を挙げるという点に加え、Post-Processのモデルを極限までシンプルにしている。

https://github.com/PINTO0309/human-instance-segmentation

https://x.com/pinto03091/status/1961756322971734353 より以下の議論

@PINTO03091
今回、雑にインスタンスセグメンテーションモデルの設計にチャレンジして数百回テストして分かったのは、エンコーダーに使用している UNet が B0 だろうが B7 だろうが、Head 部のパラメーター量が同じならインスタンス分離の性能は同じになるということ。Headのパラメータを増加させないと意味ない。
裏を返せば、Head部のパラメーター量を増やせば B0 でもかなり強力なインスタンス分離ができるはず。ただ、現時点の設計でも十分強力な性能が出ているので、これ以上計算量を増やす意味はあまり無い、と判断している。

inaturam←inaturam←

モデル蒸留

https://x.com/pinto03091/status/1962170473359483018 のツイートより

@PINTO03091
蒸留で生徒が教師より高性能になるのは普通にあります。っていう指摘をX上でいただいて、「知らなかったです。無知無知でした!」って言いながら方向性をその場ですぐに切り替えてB7をキリキリにチューニングしてから再蒸留したら2日で成功しました。誠にありがとうございました。
作業の方向性を切り替えた瞬間に mIoU が 1.2 ポイント以上も上がりました。

生徒による教師超えが普通に起こるということは教師がショボすぎる、っていう基本的なことに気づかなければ無限に方向転換できなかった。

教師 12M パラメータ、生徒 5.3M パラメータ の状況で教師をはるかに超えたので、明らかに教師がショボかった。という結論。

スーババイザを蒸留先のモデルで超えるという発想がなかった。

inaturam←inaturam←

txt2img

Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps

https://arxiv.org/abs/2411.15236

拡散モデルの条件付けベクトルである埋め込みを、意味の類似度に関連してなんかいい感じにするため、TTOでテキストのAtention mapから構文的情報をcross Attentionにぶつける