【物体検出】マルチポジティブサンプルって?【図解】
はじめに
物体検出の目的は、写真の「どこ」に「なに」が写っているかを正確に特定することです。この際、物体がどこにあるかを当てるための ヒント として、アンカーボックス という四角いボックスが使われます。
物体検出とは?
ポジティブサンプルとは?
ポジティブサンプルとは?
これまでの物体検出は、物体の中心を最もよく取り囲んでいるアンカーボックスを1つだけ使い、予測を行っていました。このとき選ばれたアンカーボックスを「ポジティブサンプル」と呼びます。言い換えれば、それ以外のアンカーボックスは、「ネガティブサンプル」として無視し、予測には使わないということです。
マルチポジティブサンプルとは?
マルチポジティブサンプルとは、物体の中心のボックスだけでなく、物体の他の部分もポジティブサンプルとして活用しようという考え方です。
マルチポジティブサンプルとは?
実際の物体は中心だけでなく、その他の部分も含めて多くの「良質な」特徴を持っているため、その情報も最大限生かしたいということです。
マルチポジティブサンプルを使うことで、次のような良いことがあります。
-
良質な予測の最適化: 物体が持つ良質なサンプルを複数使用することで、モデルの学習が向上します。これは、多くの良質なサンプル(特徴)がモデルにとって有益な情報を持っているためです。
-
データの不均衡の軽減: 通常、物体の存在しない場所(例:背景)のサンプルが多い一方で、実際の物体のサンプルが少ないため、データの不均衡が生じます。マルチポジティブサンプルを使用することで、この不均衡を軽減することができます。
具体例で考えてみよう
例えば、ある写真に犬が写っている場合を考えてみましょう。
犬が写っている場合
この場合、その犬の頭部を取り囲むアンカーボックスも良い参照になるでしょうし、胴体の部分を取り囲むアンカーボックスも同様に良い参照となります。
- 伝統的な方法: 犬の「中心」だけをポジティブサンプルとして使用します。
- マルチポジティブサンプル: 犬の「中心」だけでなく、「耳」や「尾」などの他の部分もポジティブサンプルとして使用します。
この場合、その犬の頭部を取り囲むアンカーボックスも良い参照になるでしょうし、胴体の部分を取り囲むアンカーボックスも同様に良い参照となります。このように、複数の「良質な」アンカーボックスをすべて活用することで、モデルはより多くの情報を学び、物体検出の精度が向上することが期待されます。
このように、複数の「良質な」アンカーボックスをすべて活用することで、モデルはより多くの情報を学び、物体検出の精度が向上することが期待されます。
学習時と予測時のプロセスはどうなる?
マルチポジティブサンプルを使うことで、学習と推論の流れは次のように変わります。
学習と推論の流れ
学習時
- アンカーボックスの選択: 物体との一致度がある閾値以上のすべてのアンカーボックスを選択します。
- 情報の学習: 選択されたすべてのアンカーボックスからの情報を活用して、物体の正確な位置や種類を学習します。
- モデルの更新: 複数のアンカーボックスから得られた情報を基に、モデルをより正確に物体を検出できるように更新します。
推論時
学習時に複数のアンカーボックスを活用しても、実際の予測時には1つの物体に対して1つの最も確信度が高いバウンディングボックスだけが出力されます。これは、非最大抑制 (NMS) という手法を用いて、重複する検出を取り除く処理が行われるからです。マルチポジティブサンプルは、あくまで、学習時の精度向上の話をしている点に注意しましょう。
まとめ
「マルチポジティブサンプル」は、物体検出の学習時に、1つの物体に関連する複数の「良質な」アンカーボックスの情報を活用するアプローチです。これにより、モデルの学習がより効果的になり、物体検出の精度の向上が期待されます。
機械学習をもっと詳しく
ねこアレルギーの AI
普段は YouTube で機械学習について発信しています。お時間ある方は覗いていただけると喜びます。
Created by NekoAllergy
Discussion