CVPR2024の技術調査(異常検知の観点から)1/2
1 ねらい
こんにちは、HACARUSの技術戦略室の袴田です。今回は技術戦略室として、HACARUSの事業に資する技術調査をおこないましたのでその報告となります。この調査では外観検査や労働安全に資する最新技術の調査を目的としています。最新技術はSOTAなど非常に優れた性能を示す一方、実問題に対して必ずしも実用に耐えうるものばかりではありません。ただし、それらの内容は今後技術の成長・成熟を見込むことにより実用レベルに達することは十分期待できます。これらのことから技術を概観することにより既存課題の克服に期待できる技術シーズや、今後発生しうる課題に対する技術プールの作成を行うことをねらいます。
2 調査対象
調査対象としては近年この分野では説明が不要といっても過言ではないカンファレンスである2024年のCVPRを選びました。まず初めにAIの領域はトレンドが大きく変化するため、CVPRに登録されている論文にあるトレンドを大まかな傾向をとらえなおしてみました。CVPRのサイトを辿り、2020年から2024年までの論文に含まれるWordをWordCloud[1]で表示しました(図1a-1e)。
2020年、2021年はDeep、Networkが目立つことがわかります[2, 3]、一方で2022年、2023年はTransformerが台頭し、研究対象が変化していることが見て取れます[4, 5]。2024年はGeneration, DiffusionのWordが目立ち、Transformerを内包した画像生成系が研究の主なトレンドとなっていることがわかります[6]。一方で同時に、Segmentation などのWordも目立つことから画像生成系の他、物体認識であるSegmentationは依然研究対象としては大きな関心領域であることがわかります。今回は外観検査や労働安全に資する技術をとらえることであることを考慮すると、これらのビッグトレンドは敢えて外しながらスクリーニングをかけました。
3 調査準備
3.1 キーワードの選定
ターゲットに選んだCVPR2024は論文数にして2715報あり、すべてを読むことは実工数として不可能です。また今回はねらいで示した通り、外観検査、労働安全に資する技術の動向調査が目的ですので、以下のような絞り込みのWord設定を行いました。
# Include words
include_words = ["Anomaly", "Few-Shot", "Pose", "SAM", "Zero-Shot"]
# Exclude words
exclude_words = ["Aware", "Diffusion", "Dynamic", "Efficient", "Generation",
"Guided", "Human", "LiDAR", "Medical", "Multi", "NeRF",
"Representation", "Synthesis", "Text-to-image", "Toward",
"Transformer", "Vision-Language", "Visual"]
3.2 1stスクリーニング
Include/Exclude wordsを設定し、大まかにグループ分けしますが、いずれに属さないような論文タイトルが大量数百〜1000単位で残ります。これらの論文は絞り込みのWordとしては該当しないものの、内容として該当する可能性があるため、目視によるスクリーニングを行いました。とはいえ、依然としてタイトルを数百のこっており、これらを読むだけでも時間がかかるため、作業を簡便化するため、今回はタイトルに対してClaude3を用いて論文リストの和訳を作成しました(英語論文タイトルを読むのに日本語より早くできる方は作業は当然この作業は不要です)。この時、厳密一致したものだけど絞り込んでいるわけではなく、スクリーナーの興味に一部でもカスッた論文はスクリーニングを通過させています。この作業は論文タイトルを見る順番にも依存するため、再現性のない作業であることはご注意ください。いずれにせよ、これにより、2715報全てにフィルタをかけ抽出を行い、最終的に関心の高い論文を176報選択しました。くりかえしますが、今回のスクリーニングは再現性を担保したものではなく、論文タイトル確認する順番でも著者の興味レベルが変化する可能性や抜け漏れの可能性があることはご承知おきください。
Table 1: 1st スクリーニングで絞り込んだ論文と分野
Category | Number of papers |
---|---|
Anomaly Detection | 23 |
Few-Shot | 12 |
Object Detection | 46 |
Others | 40 |
Pose Estimation | 12 |
Segmentation | 26 |
Zero-Shot | 17 |
合計 | 176 |
3.3 2nd/3rd スクリーニング
176報であれば時間と人手があれば内容を確認できない文量ではないかもしれませんが、ここではもう少し効率化して絞り込みました。それぞれの論文に対してClaude3を活用してもう少し詳細に理解していきました。一度全体を大まかに俯瞰しているので再度176の論文タイトルを読み直し、更に気になる論文に対してClaude3で「何をおこなった論文か?」と同一プロンプトで概要の把握を行い今回の対象から外れるもの除外し、69報に絞り込みました。その後更にプロンプトを追加し「何をやった論文か?」、「先行研究からのアドバンテージ」、「手法の進歩性(改良点)」、「有効性の示しかた」をあたえ、論文のさらなる理解を進め、結果として24報に絞り込みました。
Table 2: 3rd スクリーニングで絞り込んだ論文リスト
これら24論文の中からさらに異常検知の技術として有用であろう4論文を抽出しました。以下選択の理由を示します。ただしこれは本調査目的と著者の知りうる情報から独善的に選択したものであり、残りの20報が技術的に重要でないことを意味しないことは注意してください。
双曲空間上での異常検知
Anomaly DetectionのCategoryからHyperbolic Anomaly Detectionに注目しました。これは異常検知は通常ユークリッド空間で行われているが、異常のパターンは本質的に異なるパターンとともに撮像方法や撮像条件など様々な状況でパターンが指数的に増えていくことを考えると双曲空間上で行うことでより分離性能の向上が期待できるようです。
教師なしセグメンテーション
次に、SegmentationからUnsupervised Universal Image Segmentationを選びました。良品学習といえどもアノテーションが完全に不要であるケースは少なくまた、様々な現場で取り扱う製品は各現場に特化しており、通常の一般物体検知とは異なるケースも少なくありません。この場合何らかのアノテーションタスクは発生することが容易に想像でき、その作業負担は決して軽くありません。本論文のように教師値を如何に減らした状態でSemantic/Instance segmentationを達成するかといったことは今後重要であり、製品開発の現場では依然としてHuman-in-the-loopの構築を”軽く”構築するかといった課題が残ることからUnspervised Segmentationは引き続き重要な技術になると考えられます。
All-in-One-Stage の姿勢、形状推定
Pose EstimationからはAiOS: All-in-One-Stage Expressive Human Pose and Shape Estimationを選びました。群衆の画像/動画からそれぞれを認識し、その姿勢等を認識することは労働安全では重要な課題といえるが、人や物との重なりが非常にしばしば発生し、作業場では類似の格好をしているケースも容易に想像されます。これらのことからExpressive Human Pose and Shape Estimationを高速に達成する技術は重要だと考えられます。
陰影除去のための Transformer
最後にOthersからHomoFormer: Homogenized Transformer for Image Shadow Removal を選びました。前述の3報とはやや毛色がことなるが、人が可視光下で作業するのであれば影は多くの場合ノイズとなることを考えると影の除去は得られる画像の品質向上のために基本的な技術となり得ます。撮像による工夫の後にそれでも尚残存する影やノイズの除去という観点から基本的な要素技術になると判断し選びました。
最終的に抽出した論文について、もう少し詳しい解説は 別記事 で紹介していますので、興味がある方はぜひ読んでみてください。
参考文献
[1] word_cloud
[2] CVPR2020
[3] CVPR2021
[4] CVPR2022
[5] CVPR2023
[6] CVPR2024
Discussion