Open2024/09/13にコメント追加3

2024年9月7日~2024年9月14日

 9/10faster-rcnnはcnnの特徴マップから畳み込み層に領域候補のバウンディングボックスを適用して、候補を作成し物体検出を行う。
yoloは画像にN×Nのグリッドセルを作成し、各セル内で物体の中心とバウンディングボックスのサイズを予測する。候補などは作成せず、画像の特徴量マップなどから直接、物体の中心位置とバウンディングボックスのサイズを予測する。なお候補を作成するかどうかは、各グリッドセルに物体が含まれているかどうかを判断してから。

tttttttttt

 9/12SSD: yoloと同精度で推論速度が速い。
CNNで複数の特徴マップからバウンディングボックスやクラスを予測する。
例えば8×8の特徴マップがある場合、64個の特徴マップからそれぞれ、バウンディングボックス(アスペクト比などは事前設定?)・クラス・バウンディングボックスを修正するオフセットを計算する。
バウンディングボックスが8個・クラス数が2つ・オフセットが4つだとすると、1つのセルの特徴マップに8×2×4=64個の値が格納される。
なおSSDは様々な解像度の特徴マップが使われて、上記の物体検出を行うため、小さい解像度の画像を検出しやすい。

tttttttttt

 9/13yolov1
特徴マップをN×Nのグリッドに分けて、それぞれのグリッドセルで、バウンディングボックスの中央・サイズ・信頼度を計算する。
yolov2
ImageNetを学習させた分類器を利用(fnetuing)
アンカーボックスを利用して、物体検出の候補を作成して、物体の位置を予測する。アンカーボックスのサイズの比率は、学習データのアンカーボックスを基準に決める。kmeansでクラスタリングを行い、クラスタの中心に近いバウンディングボックスを利用する。
yolov3
Darknetの新たなモデルを導入。3x3と1x1の畳み込み層に、スキップ層を使ってモデルを大きくしている。異なる画像(特徴マップ)のスケールでバウンディングボックスを予測。ボックスのクラス分類にsoftmaxを使わない、
yolov4
モデルを学習するうえでカスタマイズ可能な部分を最適化した。
データ拡張・モデルの機構(重み付け残差結合（WRC）、クロスステージ部分結合（CSP）、クロスミニバッチ正規化（CmBN）、自己逆説的学習（SAT）、ミッシュアクティベーション、モザイクデータ増強、DropBlock正則化、CIoU損失)・データ拡張の方法の組み合わせなど...
yolov5
論文はない。
FPNとPANの利用
(YOLOv5uでは)アンカーフリーのスプリットUltralytics ヘッドを採用している。
yolov6
yolov7
yolov8