🐈

CVPR2024の技術調査（異常検知の観点から）1/2

HACARUS Tech

2024/09/20に公開

 1 ねらいこんにちは、HACARUSの技術戦略室の袴田です。今回は技術戦略室として、HACARUSの事業に資する技術調査をおこないましたのでその報告となります。この調査では外観検査や労働安全に資する最新技術の調査を目的としています。最新技術はSOTAなど非常に優れた性能を示す一方、実問題に対して必ずしも実用に耐えうるものばかりではありません。ただし、それらの内容は今後技術の成長・成熟を見込むことにより実用レベルに達することは十分期待できます。これらのことから技術を概観することにより既存課題の克服に期待できる技術シーズや、今後発生しうる課題に対する技術プールの作成を行うことをねらいます。

 2 調査対象調査対象としては近年この分野では説明が不要といっても過言ではないカンファレンスである2024年のCVPRを選びました。まず初めにAIの領域はトレンドが大きく変化するため、CVPRに登録されている論文にあるトレンドを大まかな傾向をとらえなおしてみました。CVPRのサイトを辿り、2020年から2024年までの論文に含まれるWordをWordCloud[1]で表示しました（図1a-1e）。
2020年、2021年はDeep、Networkが目立つことがわかります[2, 3]、一方で2022年、2023年はTransformerが台頭し、研究対象が変化していることが見て取れます[4, 5]。2024年はGeneration,　DiffusionのWordが目立ち、Transformerを内包した画像生成系が研究の主なトレンドとなっていることがわかります[6]。一方で同時に、Segmentation などのWordも目立つことから画像生成系の他、物体認識であるSegmentationは依然研究対象としては大きな関心領域であることがわかります。今回は外観検査や労働安全に資する技術をとらえることであることを考慮すると、これらのビッグトレンドは敢えて外しながらスクリーニングをかけました。

 3 調査準備
 3.1 キーワードの選定ターゲットに選んだCVPR2024は論文数にして2715報あり、すべてを読むことは実工数として不可能です。また今回はねらいで示した通り、外観検査、労働安全に資する技術の動向調査が目的ですので、以下のような絞り込みのWord設定を行いました。
# Include words
include_words = ["Anomaly", "Few-Shot", "Pose", "SAM", "Zero-Shot"]

# Exclude words
exclude_words = ["Aware", "Diffusion", "Dynamic", "Efficient", "Generation", 
                 "Guided", "Human", "LiDAR", "Medical", "Multi", "NeRF", 
                 "Representation", "Synthesis", "Text-to-image", "Toward", 
                 "Transformer", "Vision-Language", "Visual"]

 3.2 1stスクリーニングInclude/Exclude wordsを設定し、大まかにグループ分けしますが、いずれに属さないような論文タイトルが大量数百〜1000単位で残ります。これらの論文は絞り込みのWordとしては該当しないものの、内容として該当する可能性があるため、目視によるスクリーニングを行いました。とはいえ、依然としてタイトルを数百のこっており、これらを読むだけでも時間がかかるため、作業を簡便化するため、今回はタイトルに対してClaude3を用いて論文リストの和訳を作成しました（英語論文タイトルを読むのに日本語より早くできる方は作業は当然この作業は不要です）。この時、厳密一致したものだけど絞り込んでいるわけではなく、スクリーナーの興味に一部でもカスッた論文はスクリーニングを通過させています。この作業は論文タイトルを見る順番にも依存するため、再現性のない作業であることはご注意ください。いずれにせよ、これにより、2715報全てにフィルタをかけ抽出を行い、最終的に関心の高い論文を176報選択しました。くりかえしますが、今回のスクリーニングは再現性を担保したものではなく、論文タイトル確認する順番でも著者の興味レベルが変化する可能性や抜け漏れの可能性があることはご承知おきください。
Table 1: 1st スクリーニングで絞り込んだ論文と分野


Category
Number of papers


Anomaly Detection
23

Few-Shot
12

Object Detection
46

Others
40

Pose Estimation
12

Segmentation
26

Zero-Shot
17

合計
176


 3.3 2nd/3rd スクリーニング176報であれば時間と人手があれば内容を確認できない文量ではないかもしれませんが、ここではもう少し効率化して絞り込みました。それぞれの論文に対してClaude3を活用してもう少し詳細に理解していきました。一度全体を大まかに俯瞰しているので再度176の論文タイトルを読み直し、更に気になる論文に対してClaude3で「何をおこなった論文か？」と同一プロンプトで概要の把握を行い今回の対象から外れるもの除外し、69報に絞り込みました。その後更にプロンプトを追加し「何をやった論文か？」、「先行研究からのアドバンテージ」、「手法の進歩性（改良点）」、「有効性の示しかた」をあたえ、論文のさらなる理解を進め、結果として24報に絞り込みました。
Table 2: 3rd スクリーニングで絞り込んだ論文リスト


No
Category
Title


1
Anomaly Detection
Hyperbolic Anomaly Detection

2
Anomaly Detection
Supervised Anomaly Detection for Complex Industrial Images

3
Anomaly Detection
Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection

4
Anomaly Detection
Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation

5
Segmentation
Unsupervised Universal Image Segmentation

6
Segmentation
LLaFS: When Large Language Models Meet Few-Shot Segmentation

7
Pose Estimation
AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation

8
Pose Estimation
MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation

9
Pose Estimation
Meta-Point Learning and Refining for Category-Agnostic Pose Estimation

10
Pose Estimation
Object Pose Estimation via the Aggregation of Diffusion Features

11
Few-Shot
Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach

12
Few-Shot
AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning

13
Few-Shot
Instance-based Max-margin for Practical Few-shot Recognition

14
Zero-Shot
SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

15
Object Detection
Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection

16
Others
TULIP: Multi-camera 3D Precision Assessment of Parkinson's Disease

17
Others
Instance-aware Contrastive Learning for Occluded Human Mesh Reconstruction

18
Others
Simple Semantic-Aided Few-Shot Learning

19
Others
Forecasting of 3D Whole-body Human Poses with Grasping Objects

20
Others
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

21
Others
HomoFormer: Homogenized Transformer for Image Shadow Removal

22
Others
SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control

23
Others
HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation

24
Others
Segment Every Out-of-Distribution Object

これら24論文の中からさらに異常検知の技術として有用であろう4論文を抽出しました。以下選択の理由を示します。ただしこれは本調査目的と著者の知りうる情報から独善的に選択したものであり、残りの20報が技術的に重要でないことを意味しないことは注意してください。

 双曲空間上での異常検知Anomaly DetectionのCategoryからHyperbolic Anomaly Detectionに注目しました。これは異常検知は通常ユークリッド空間で行われているが、異常のパターンは本質的に異なるパターンとともに撮像方法や撮像条件など様々な状況でパターンが指数的に増えていくことを考えると双曲空間上で行うことでより分離性能の向上が期待できるようです。

 教師なしセグメンテーション次に、SegmentationからUnsupervised Universal Image Segmentationを選びました。良品学習といえどもアノテーションが完全に不要であるケースは少なくまた、様々な現場で取り扱う製品は各現場に特化しており、通常の一般物体検知とは異なるケースも少なくありません。この場合何らかのアノテーションタスクは発生することが容易に想像でき、その作業負担は決して軽くありません。本論文のように教師値を如何に減らした状態でSemantic/Instance segmentationを達成するかといったことは今後重要であり、製品開発の現場では依然としてHuman-in-the-loopの構築を”軽く”構築するかといった課題が残ることからUnspervised Segmentationは引き続き重要な技術になると考えられます。

 All-in-One-Stage の姿勢、形状推定Pose EstimationからはAiOS: All-in-One-Stage Expressive Human Pose and Shape Estimationを選びました。群衆の画像／動画からそれぞれを認識し、その姿勢等を認識することは労働安全では重要な課題といえるが、人や物との重なりが非常にしばしば発生し、作業場では類似の格好をしているケースも容易に想像されます。これらのことからExpressive Human Pose and Shape Estimationを高速に達成する技術は重要だと考えられます。

 陰影除去のための Transformer最後にOthersからHomoFormer: Homogenized Transformer for Image Shadow Removal を選びました。前述の3報とはやや毛色がことなるが、人が可視光下で作業するのであれば影は多くの場合ノイズとなることを考えると影の除去は得られる画像の品質向上のために基本的な技術となり得ます。撮像による工夫の後にそれでも尚残存する影やノイズの除去という観点から基本的な要素技術になると判断し選びました。
最終的に抽出した論文について、もう少し詳しい解説は 別記事 で紹介していますので、興味がある方はぜひ読んでみてください。

 参考文献[1] word_cloud

[2] CVPR2020

[3] CVPR2021

[4] CVPR2022

[5] CVPR2023

[6] CVPR2024

Category	Number of papers
Anomaly Detection	23
Few-Shot	12
Object Detection	46
Others	40
Pose Estimation	12
Segmentation	26
Zero-Shot	17
合計	176

No	Category	Title
1	Anomaly Detection	Hyperbolic Anomaly Detection
2	Anomaly Detection	Supervised Anomaly Detection for Complex Industrial Images
3	Anomaly Detection	Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection
4	Anomaly Detection	Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation
5	Segmentation	Unsupervised Universal Image Segmentation
6	Segmentation	LLaFS: When Large Language Models Meet Few-Shot Segmentation
7	Pose Estimation	AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation
8	Pose Estimation	MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation
9	Pose Estimation	Meta-Point Learning and Refining for Category-Agnostic Pose Estimation
10	Pose Estimation	Object Pose Estimation via the Aggregation of Diffusion Features
11	Few-Shot	Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach
12	Few-Shot	AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning
13	Few-Shot	Instance-based Max-margin for Practical Few-shot Recognition
14	Zero-Shot	SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
15	Object Detection	Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection
16	Others	TULIP: Multi-camera 3D Precision Assessment of Parkinson's Disease
17	Others	Instance-aware Contrastive Learning for Occluded Human Mesh Reconstruction
18	Others	Simple Semantic-Aided Few-Shot Learning
19	Others	Forecasting of 3D Whole-body Human Poses with Grasping Objects
20	Others	Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
21	Others	HomoFormer: Homogenized Transformer for Image Shadow Removal
22	Others	SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control
23	Others	HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation
24	Others	Segment Every Out-of-Distribution Object

HACARUS Tech BlogPublication

株式会社HACARUS(hacarus.com/ja/)のテックブログです

1 ねらい

2 調査対象

3 調査準備

3.1 キーワードの選定

3.2 1stスクリーニング

3.3 2nd/3rd スクリーニング

双曲空間上での異常検知

教師なしセグメンテーション

All-in-One-Stage の姿勢、形状推定

陰影除去のための Transformer

参考文献

Discussion