✅
YOLO
はじめに
概要
- シラバス:E資格2024#2
- YOLOを勉強する
キーワード
YOLO, グリッドセル, 1ステージ検出
学習内容
YOLO(You Only Look Once)
- 「1回のCNN実行で物体検出を一気に完了させる」高速な物体検出モデル
- 位置(バウンディングボックス)とクラス(ラベル)を、画像全体を一度だけ見ることで一括で予測する
- 画像全体を一度だけ見る = You Only Look Once
基本構造
- 入力画像を正方形の固定サイズ(例:416×416)にリサイズ
- CNN を通して特徴マップを生成
- 候補領域検出を行わない代わりに、特徴マップをS×Sのグリッドに分割(グリッドセル)
- 各グリッドが 物体を含むかどうか予測し、バウンディングボックスを出力
出力される内容
各グリッドセルからは以下の情報が出力されます
- バウンディングボックスの中心座標(x, y)
- バウンディングボックスの幅と高さ(w, h)
- 信頼度(そのボックスに物体がある確率)
- 各クラスの確率(犬、人、猫、など)
特徴
- 「検出」と「識別」を同時に行うため、処理速度が速い
- 画像全体を見るため、背景の間違いが少ない
- 汎化性能が高く、絵などの識別に優れている
- 小さなものの検出が苦手
- 一つのグリッドから2つのバウンディングボックスしか生成されないため、密接したオブジェクトに弱い
1ステージ検出
- 「物体の位置(バウンディングボックス)」と「クラス(何の物体か)」を、1回のCNN処理だけで同時に予測する検出方式
- 代表モデル:YOLO、SSDなど
検出方式 | 特徴 |
---|---|
1ステージ検出 | 一度の処理で「位置+クラス」を同時に予測。高速(リアルタイム向け) |
2ステージ検出 | まず候補領域を出し、次にその分類と位置修正を行う。高精度(遅め) |
Discussion