🐈

CVPR2024の技術調査(異常検知の観点から)1/2

2024/09/20に公開

1 ねらい

こんにちは、HACARUSの技術戦略室の袴田です。今回は技術戦略室として、HACARUSの事業に資する技術調査をおこないましたのでその報告となります。この調査では外観検査や労働安全に資する最新技術の調査を目的としています。最新技術はSOTAなど非常に優れた性能を示す一方、実問題に対して必ずしも実用に耐えうるものばかりではありません。ただし、それらの内容は今後技術の成長・成熟を見込むことにより実用レベルに達することは十分期待できます。これらのことから技術を概観することにより既存課題の克服に期待できる技術シーズや、今後発生しうる課題に対する技術プールの作成を行うことをねらいます。

2 調査対象

調査対象としては近年この分野では説明が不要といっても過言ではないカンファレンスである2024年のCVPRを選びました。まず初めにAIの領域はトレンドが大きく変化するため、CVPRに登録されている論文にあるトレンドを大まかな傾向をとらえなおしてみました。CVPRのサイトを辿り、2020年から2024年までの論文に含まれるWordをWordCloud[1]で表示しました(図1a-1e)。

2020年、2021年はDeep、Networkが目立つことがわかります[2, 3]、一方で2022年、2023年はTransformerが台頭し、研究対象が変化していることが見て取れます[4, 5]。2024年はGeneration, DiffusionのWordが目立ち、Transformerを内包した画像生成系が研究の主なトレンドとなっていることがわかります[6]。一方で同時に、Segmentation などのWordも目立つことから画像生成系の他、物体認識であるSegmentationは依然研究対象としては大きな関心領域であることがわかります。今回は外観検査や労働安全に資する技術をとらえることであることを考慮すると、これらのビッグトレンドは敢えて外しながらスクリーニングをかけました。

2020年から2024年までのWordCloud

3 調査準備

3.1 キーワードの選定

ターゲットに選んだCVPR2024は論文数にして2715報あり、すべてを読むことは実工数として不可能です。また今回はねらいで示した通り、外観検査、労働安全に資する技術の動向調査が目的ですので、以下のような絞り込みのWord設定を行いました。

# Include words
include_words = ["Anomaly", "Few-Shot", "Pose", "SAM", "Zero-Shot"]

# Exclude words
exclude_words = ["Aware", "Diffusion", "Dynamic", "Efficient", "Generation", 
                 "Guided", "Human", "LiDAR", "Medical", "Multi", "NeRF", 
                 "Representation", "Synthesis", "Text-to-image", "Toward", 
                 "Transformer", "Vision-Language", "Visual"]

3.2 1stスクリーニング

Include/Exclude wordsを設定し、大まかにグループ分けしますが、いずれに属さないような論文タイトルが大量数百〜1000単位で残ります。これらの論文は絞り込みのWordとしては該当しないものの、内容として該当する可能性があるため、目視によるスクリーニングを行いました。とはいえ、依然としてタイトルを数百のこっており、これらを読むだけでも時間がかかるため、作業を簡便化するため、今回はタイトルに対してClaude3を用いて論文リストの和訳を作成しました(英語論文タイトルを読むのに日本語より早くできる方は作業は当然この作業は不要です)。この時、厳密一致したものだけど絞り込んでいるわけではなく、スクリーナーの興味に一部でもカスッた論文はスクリーニングを通過させています。この作業は論文タイトルを見る順番にも依存するため、再現性のない作業であることはご注意ください。いずれにせよ、これにより、2715報全てにフィルタをかけ抽出を行い、最終的に関心の高い論文を176報選択しました。くりかえしますが、今回のスクリーニングは再現性を担保したものではなく、論文タイトル確認する順番でも著者の興味レベルが変化する可能性や抜け漏れの可能性があることはご承知おきください。

Table 1: 1st スクリーニングで絞り込んだ論文と分野

Category Number of papers
Anomaly Detection 23
Few-Shot 12
Object Detection 46
Others 40
Pose Estimation 12
Segmentation 26
Zero-Shot 17
合計 176

3.3 2nd/3rd スクリーニング

176報であれば時間と人手があれば内容を確認できない文量ではないかもしれませんが、ここではもう少し効率化して絞り込みました。それぞれの論文に対してClaude3を活用してもう少し詳細に理解していきました。一度全体を大まかに俯瞰しているので再度176の論文タイトルを読み直し、更に気になる論文に対してClaude3で「何をおこなった論文か?」と同一プロンプトで概要の把握を行い今回の対象から外れるもの除外し、69報に絞り込みました。その後更にプロンプトを追加し「何をやった論文か?」、「先行研究からのアドバンテージ」、「手法の進歩性(改良点)」、「有効性の示しかた」をあたえ、論文のさらなる理解を進め、結果として24報に絞り込みました。

Table 2: 3rd スクリーニングで絞り込んだ論文リスト

No Category Title
1 Anomaly Detection Hyperbolic Anomaly Detection
2 Anomaly Detection Supervised Anomaly Detection for Complex Industrial Images
3 Anomaly Detection Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection
4 Anomaly Detection Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation
5 Segmentation Unsupervised Universal Image Segmentation
6 Segmentation LLaFS: When Large Language Models Meet Few-Shot Segmentation
7 Pose Estimation AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation
8 Pose Estimation MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation
9 Pose Estimation Meta-Point Learning and Refining for Category-Agnostic Pose Estimation
10 Pose Estimation Object Pose Estimation via the Aggregation of Diffusion Features
11 Few-Shot Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach
12 Few-Shot AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning
13 Few-Shot Instance-based Max-margin for Practical Few-shot Recognition
14 Zero-Shot SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
15 Object Detection Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection
16 Others TULIP: Multi-camera 3D Precision Assessment of Parkinson's Disease
17 Others Instance-aware Contrastive Learning for Occluded Human Mesh Reconstruction
18 Others Simple Semantic-Aided Few-Shot Learning
19 Others Forecasting of 3D Whole-body Human Poses with Grasping Objects
20 Others Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
21 Others HomoFormer: Homogenized Transformer for Image Shadow Removal
22 Others SmartMask: Context Aware High-Fidelity Mask Generation for Fine-grained Object Insertion and Layout Control
23 Others HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation
24 Others Segment Every Out-of-Distribution Object

これら24論文の中からさらに異常検知の技術として有用であろう4論文を抽出しました。以下選択の理由を示します。ただしこれは本調査目的と著者の知りうる情報から独善的に選択したものであり、残りの20報が技術的に重要でないことを意味しないことは注意してください。

双曲空間上での異常検知

Anomaly DetectionのCategoryからHyperbolic Anomaly Detectionに注目しました。これは異常検知は通常ユークリッド空間で行われているが、異常のパターンは本質的に異なるパターンとともに撮像方法や撮像条件など様々な状況でパターンが指数的に増えていくことを考えると双曲空間上で行うことでより分離性能の向上が期待できるようです。

教師なしセグメンテーション

次に、SegmentationからUnsupervised Universal Image Segmentationを選びました。良品学習といえどもアノテーションが完全に不要であるケースは少なくまた、様々な現場で取り扱う製品は各現場に特化しており、通常の一般物体検知とは異なるケースも少なくありません。この場合何らかのアノテーションタスクは発生することが容易に想像でき、その作業負担は決して軽くありません。本論文のように教師値を如何に減らした状態でSemantic/Instance segmentationを達成するかといったことは今後重要であり、製品開発の現場では依然としてHuman-in-the-loopの構築を”軽く”構築するかといった課題が残ることからUnspervised Segmentationは引き続き重要な技術になると考えられます。

All-in-One-Stage の姿勢、形状推定

Pose EstimationからはAiOS: All-in-One-Stage Expressive Human Pose and Shape Estimationを選びました。群衆の画像/動画からそれぞれを認識し、その姿勢等を認識することは労働安全では重要な課題といえるが、人や物との重なりが非常にしばしば発生し、作業場では類似の格好をしているケースも容易に想像されます。これらのことからExpressive Human Pose and Shape Estimationを高速に達成する技術は重要だと考えられます。

陰影除去のための Transformer

最後にOthersからHomoFormer: Homogenized Transformer for Image Shadow Removal を選びました。前述の3報とはやや毛色がことなるが、人が可視光下で作業するのであれば影は多くの場合ノイズとなることを考えると影の除去は得られる画像の品質向上のために基本的な技術となり得ます。撮像による工夫の後にそれでも尚残存する影やノイズの除去という観点から基本的な要素技術になると判断し選びました。

最終的に抽出した論文について、もう少し詳しい解説は 別記事 で紹介していますので、興味がある方はぜひ読んでみてください。

参考文献

[1] word_cloud
[2] CVPR2020
[3] CVPR2021
[4] CVPR2022
[5] CVPR2023
[6] CVPR2024

HACARUS Tech Blog

Discussion