🦔

【物体検出】特徴マップとアンカーボックスの関係って?【図解】

2023/09/27に公開

はじめに

物体検出とは、写真の中から「何が写っているか?」と「どこにあるか?」を見つける技術です。


物体検出とは?

この物体検出では、アンカーボックス という技術が使われます。

アンカーボックスの考え方を正しく理解するためには、まず 特徴マップ というものを理解していきましょう。

特徴マップって?

特徴マップとは、画像の中から重要な情報を取り出し、それを保存する技術です。


特徴マップって?

  1. 情報を取り出す: 画像はたくさんの情報を持っています。CNNを使うことで、画像の内容や形状といった特徴(情報)を抽出することができます。これらの情報は「特徴マップ」と表現され、深い層に進むほど具体的な特徴(例: 物体の部分や形状)を捉えることができます。特徴マップは、画像の中の形や模様などが整理されたものです。

  2. 情報を小さくする: CNNの層を通過するごとに特徴マップの空間的な解像度は低下します。つまり、例えば、入力画像が224×224で、最後の特徴マップが7×7になることがあります。この処理をダウンサンプリングと呼びます。

  3. チャンネルの深さ: 特徴マップは、空間的な特徴(幅と高さ)だけでなく、「深さ」という情報も持っています。この深さは、異なる特徴やパターンを表しています。例えば、幅と高さが7×7で 深さが256の特徴マップは、7×7×256のように表現され、256個の特徴を保存しているようなイメージです。

アンカーボックスって?

アンカーボックスとは、物体がどこにあるかを当てるための ヒントのような箱 のことです。


アンカーボックスって?

  1. 配置: アンカーボックスは、特徴マップ上の各位置に均等に配置されます。例えば、13×13の特徴マップの場合、各グリッドセルにアンカーボックスが配置されます。さらに、各グリッドセルには、大きさや形が違ういくつかのボックスを置くことが多いです。

  2. 物体を探す: アンカーボックスは、物体の存在や位置の予測を「補助」してくれます。具体的には、各アンカーボックスに対して、その中に物体がある確率や、サイズをどれくらい調整すればジャストフィットするかといった値が予測されます。

  3. 2つのアプローチ: アンカーボックスを使う方法と、使わない方法があります。アンカーボックスを使用するアプローチを「アンカーベース」と呼び、アンカーボックスを使用しないアプローチを「アンカーフリー」と呼びます。アンカーフリーは、物体の位置やサイズを直接予測します。

まとめ

画像から重要な情報を「特徴マップ」として取り出し、その上に「アンカーボックス」という補助する四角を置きます。このアンカーボックスを道しるべにして、物体の場所や形を予測していきます。どんな方法や技術を使うかは、求められる結果によって異なります。

機械学習をもっと詳しく

ねこアレルギーのAI

ねこアレルギーの AI
普段は YouTube で機械学習について発信しています。お時間ある方は覗いていただけると喜びます。
https://www.youtube.com/@nekoallergy22





Created by NekoAllergy

Discussion