YOLO

に公開

はじめに

概要

  • シラバス:E資格2024#2
  • YOLOを勉強する

キーワード

YOLO, グリッドセル, 1ステージ検出

学習内容

YOLO(You Only Look Once)

  • 「1回のCNN実行で物体検出を一気に完了させる」高速な物体検出モデル
  • 位置(バウンディングボックス)とクラス(ラベル)を、画像全体を一度だけ見ることで一括で予測する
  • 画像全体を一度だけ見る = You Only Look Once

基本構造

  • 入力画像を正方形の固定サイズ(例:416×416)にリサイズ
  • CNN を通して特徴マップを生成
  • 候補領域検出を行わない代わりに、特徴マップをS×Sのグリッドに分割(グリッドセル)
  • 各グリッドが 物体を含むかどうか予測し、バウンディングボックスを出力

出力される内容

各グリッドセルからは以下の情報が出力されます

  • バウンディングボックスの中心座標(x, y)
  • バウンディングボックスの幅と高さ(w, h)
  • 信頼度(そのボックスに物体がある確率)
  • 各クラスの確率(犬、人、猫、など)

特徴

  • 「検出」と「識別」を同時に行うため、処理速度が速い
  • 画像全体を見るため、背景の間違いが少ない
  • 汎化性能が高く、絵などの識別に優れている
  • 小さなものの検出が苦手
  • 一つのグリッドから2つのバウンディングボックスしか生成されないため、密接したオブジェクトに弱い

1ステージ検出

  • 「物体の位置(バウンディングボックス)」と「クラス(何の物体か)」を、1回のCNN処理だけで同時に予測する検出方式
  • 代表モデル:YOLO、SSDなど
検出方式 特徴
1ステージ検出 一度の処理で「位置+クラス」を同時に予測。高速(リアルタイム向け)
2ステージ検出 まず候補領域を出し、次にその分類と位置修正を行う。高精度(遅め)
GitHubで編集を提案

Discussion