📚
【論文紹介】近年のAudio-Visual Groundingに関する論文紹介

2024/12/07に公開
!この記事は、CyberAgent AI Lab Advent Calender 2024の7日目の記事です。

 はじめにCyberAgent AI Labの三好と申します。

私は、HRIやHCIに関するチームに所属しており、マルチモーダル情報を利用した人の状態理解やシーン理解に取り組んでいます。

本記事では、近年の著名な国際会議において発表された、Audio-Visual Groundingに関する研究について、簡単にまとめて紹介していきます。
!詳細な内容は各論文をご確認ください。

図や表は各論文から引用しています。

 Audio-Visual Groundingとは？この研究分野は、視覚的な情報と音声情報の対応付けを行うことに焦点を当てています。

動画と音声が入力され、動画中のオブジェクト、物体領域と音声を対応づけることを目的としています。

具体的には、主に以下のようなタスクが挙げられます。
Audio-Visual Segmentation
Sound Source Localization
Audio-Visual Segmentationは、音を出している物体をピクセルレベルで特定し、そのマスクを生成するタスクです。Sound Source Localizationは、画像中のオブジェクトと音源を対応づけるタスクです。近年では、動画中に複数のオブジェクトが含まれ、音声は複数の音源が混同したものを対象としている研究が多い印象です。そのため、物体認識と音源分離、それらの対応付けを同時に実行するタスクとして扱われています。

また、類似するタスクとして、Audio-Visual Event Localization、Audio-Visual Video Parsing、Audio-Visual Question Answeringがあります。Audio-Visual Event Localizationは、音声付き動画内の特定のイベントを時間的に識別するタスクです。Audio-Visual Video Parsingは、音声付き動画を時間的にセグメント化し、それぞれのセグメントを「聴覚イベント」「視覚イベント」「聴覚・視覚イベント」のいずれかに分類するタスクです。Audio-Visual Question Answeringは、音声と動画の情報から質問に応答するタスクです。これらのタスクは、対応付けとイベントの分類まで取り組むため、Reasoningを含んだタスクです。

本記事ではAudio-Visual Segmentation、Sound Source Localizationに関する研究を対象とします。

 論文紹介
 Visually Guided Sound Source Separation using Cascaded Opponent Filter Network [Zhu+,ACCV2020]
視覚的な特徴を手がかりにカスケード接続によって音源を分離する手法を提案

従来の手法は、単一ステージでの分離に限定され、視覚的手がかりの活用が限定的で動作情報を十分に利用しておらず、音源位置の識別も粗いという課題があった。

本研究では、視覚的手がかりを活用した多段階のカスケード構造を導入し、分離精度を段階的に向上させた。また、テクスチャだけでなく動き情報を活用することによって、視覚特徴を強化した。

 Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation [Tian+,CVPR2021]
音源分離とその音に対応するオブジェクトを推定する手法を提案

従来研究では、音声分離がすべての視覚オブジェクトが音を発するという仮定や、複数オブジェクトが含まれるシーンにおける音源に対応できないという課題があった。また、音声分離と視覚特徴が独立しており、モダリティ間の相互作用を活用できていなかった。

本研究では、音源分離と音の発生源のオブジェクト推定を同時に教師なし学習で学習するフレームワークを提案する。音声分離では音を発するオブジェクトのみを考慮し、視覚情報の特徴量化では分離結果を利用して学習することによって、音が発していなオブジェクトの影響を除外することによって精度の改善を図った。

 Less Can Be More: Sound Source Localization With a Classification Model [Arda+,WACV2022]
単純な分類モデルのみによる音源位置推定手法を提案

従来手法では、動画のセグメンテーションのアノテーションが必要であり、専用モジュールやタスクに特化した設計によってモデルが複雑化していた。また、動画全体を処理するのではなく、中央付近のフレームの使用により、音声と視覚の不一致や情報不足が発生し、精度を損なう可能性があった。

本研究では、単純な分類モデルを用いて音声と視覚の特徴を学習し、相関スコアで情報量の多い瞬間を選択することで効率的な音源位置推定を実現する。また、自動生成した境界ボックスを活用して学習精度を向上させる。

 Mix and Localize: Localizing Sound Sources in Mixtures [Hu+,CVPR2022]
自己教師あり学習によって，視覚と音源位置を対応づける手法を提案

従来手法では、単一音源への依存やラベルデータの必要性、動的情報への対応不足、音源が混在する複雑なシーンでの精度低下といった課題を抱えていた。

本研究では、音源分離と視覚的な対応付けを統合的に解決するため、一貫性を利用した自己教師あり学習を採用し、音声と視覚の対応関係をランダムウォークで学習する手法を提案する。この手法はラベルデータを必要とせず、複数音源が混在するシーンでも高精度な対応付けを可能とする。

 A Closer Look at Weakly-Supervised Audio-Visual Source Localization [Shentong+,NeurIPS2022]
音源がない状況における評価プロトコル、過学習を抑制し誤検出を減らす手法を提案

従来手法では、過学習により大規模データセットの恩恵を十分に活用できず、音源が存在しない場合の識別性能が低く、False Positiveが多発する問題を抱えていた。

本研究では、モーメンタムエンコーダーと視覚的ドロップアウトを活用して過学習を抑制し、音源ローカリゼーションと音声・映像対応性を同時に学習することで、False Positiveを削減しつつ高精度な音源位置推定を可能にした。

 Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes [Zengjie+,CVPR2022]
ネガティブサンプルを利用しない自己教師あり予測学習を提案

従来手法では、ランダムなネガティブペアのサンプリングによる「誤ったネガティブ」の発生が音声と視覚特徴の整合性を妨げ、定位性能を低下させる課題あった。

本研究では、ネガティブペアを排除し、ポジティブペアのみを活用する学習を採用することで、音声と視覚の特徴を正確に整合させ、音源位置推定性能を向上させる新しいアプローチを提案した。

 Visual Sound Localization in the Wild by Cross-Modal Interference Erasing [Liu+,AAAI2022]
実世界のシナリオにおける音の干渉にロバストな音源位置推定手法を提案

従来手法は、音量の大きい音源が他の音を圧倒し、混合音源の識別が困難であること、静止物体や画面外の音の影響を適切に排除できないこと、さらにノイズや多音源が存在する実世界の複雑なシナリオに対する汎化性能が不足しているという課題を抱えていた。

本研究では、混合音源の音量差を補正する識別モジュールと、静止物体や画面外の音の影響を排除する参照モジュールを組み合わせて、視覚と音声の対応を強化し、複雑な環境下での高精度に音源位置を推定する手法を提案した。

 Audio-Visual Grouping Network for Sound Localization from Mixtures [Shentong+,CVPR2023]
音声と映像から音源をカテゴリごとに分離し、複数音源のローカリゼーションを可能にする手法を提案

従来手法では、単一音源に限定されること、固定数の音源しか扱えないこと、音源ごとのカテゴリ認識のための表現を学習できないとう課題を抱えていたため、混合音源環境での柔軟性と精度が制限されていた。

本研究では、学習可能な視聴覚クラス・トークンとカテゴリ認識型グルーピングを用いて、音声混合環境から音源をカテゴリごとに分離・ローカリゼーションする新しいネットワークを提案した。これにより、柔軟な音源数に対応し、高精度な音源推定を実現した。

 Weakly-Supervised Audio-Visual Segmentation [Shentong+,NeurIPS2023]
学習にピクセルレベルのマスクを必要とせず、インスタンスレベルのアノテーションのみを用いる弱教師ありフレームワークを提案

従来手法では、ピクセルレベルの詳細なアノテーションが必要であり、その収集には高いコストがかかる一方、音源ローカライゼーション手法は粗いヒートマップしか生成できず、精度の高いピクセル単位のセグメンテーションが困難だった。

本研究では、マルチスケールなマルチインスタンスコントラスト学習を用いたモダリティの融合と、コントラストクラス非依存マップによる疑似マスク生成を組み合わせ、インスタンスレベルのアノテーションのみで高精度な音源セグメンテーションを実現した。

 iQuery: Instruments as Queries for Audio-Visual Sound Separation [Chen+,CVPR2023]
視覚特徴と音声特徴を融合するための学習可能な視覚的クエリを提案

従来手法では、音漏れや混濁音による分離精度の低下、ネットワーク全体の再訓練による効率性の低下、視覚と音声の情報の一貫性が不十分といった課題があった。

本研究では、視覚的特徴を活用して音声分離を行うクエリベースのアプローチを提案した。「視覚的に命名されたクエリ」を使用して楽器ごとの音声を分離し、クロスモーダルアテンションで視聴覚の一貫性を確保する。また、柔軟なプロンプト設計により、新しい楽器や音響イベントへの適応が可能であり、柔軟性を向上させた。

 Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation [Su+,ICCV2023]
視覚的に手がかりのない見えない音に対応した音源分離手法を提案

従来手法は、視覚的手がかりに依存し、見えない音や複数の音源への対応が困難であり、シーンセマンティクスの活用不足が課題であった。また、データセットの制約によって、実世界の複雑なシナリオへの適応が限定的であった。

本研究では、動画のシーンセマンティクスを活用することで視覚的手がかりが不足する場合でも対応可能な音分離フレームワークを提案した。視聴覚セパレータで「見える音」を、セマンティクスガイドセパレータで「見えない音」を分離し、複数の見えない音源の分離も実現した。

 Sound Source Localization is All about Cross-Modal Alignment [Arda+,ICCV2023]
音源定位とクロスモーダルな特徴アライメントを同時に学習することで、精度を向上させつつ、セマンティック理解も強化した手法を提案

従来手法は、視覚的特徴への過度な依存により、音声と映像のセマンティックな不一致（例：静かな物体や画面外の音）を適切に評価できない点、クロスモーダル相互作用を捉えられない点が課題であった。また、評価基準がセマンティック理解を十分に考慮されていなかった。

本研究では、音声と映像のセマンティックな整合性を強化するため、空間的音源ローカリゼーションとセマンティック特徴アライメントの二重の目的を同時に学習するフレームワークを提案した。また、データ増強と概念的に類似したサンプルを用いて拡張されたポジティブペアを構築し、これらを用いたコントラスト学習により、従来手法を超える性能を実現した。

 CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled Videos [Dong+,ICLR2023]
事前学習モデルを活用することにより、ラベル付きデータを使用せず、ノイズの多いラベルなし動画からテキスト指定の音源分離モデルを学習する方法を提案

従来手法では、ラベル付きデータへの依存やドメイン依存性が高く、統制環境下におけるデータによってモデルが学習されていたため、実環境における性能の低さが課題であった。また、画像やテキストなど異なるモダリティ間での情報転移が難しく、柔軟性が制限されていた。

本研究では、CLIPモデルを活用してラベルなしビデオデータから学習し、ゼロショットでテキストクエリによる音源分離を可能にした。ノイズ不変学習を導入することで、ノイズの多い環境でも高い分離性能を発揮し、従来手法の課題であったラベル依存性やノイズ耐性の不足、モダリティ間の情報転移の困難さを克服した。

 Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling [Shentong+,CVPR2024]
音声と視覚のモダリティを初期融合することで、より深い相互作用を効率的に学習するためにMasked Auto Encoder（MAE）を導入した手法を提案

従来手法では、モダリティ間の特徴をモデルの終盤で融合することによって、モダリティ間の深い相互作用を捉えられなかった。また、モデルの学習に対照学習が用いられることが多いが、初期融合に適さないことが課題であった。さらに、密な相互作用のモデル化に高い計算コストがかかり、局所的な関連性の表現力が不足していた。

本研究では、MAEを活用し、音声と視覚を初期融合するTransformerを提案した。マスクモデリングによりデータからローカルな相互作用を学習し、注意メカニズムを活用して細かな音声-視覚に関する表現を獲得した。また、音声と視覚のトークンをそれぞれ少数の集約トークンに要約し、これらの集約トークン間で相互作用を計算することで、必要な計算量を大幅に削減した。