📹

マルチモーダル感情認識コンペの優勝手法を眺める

株式会社ZENKIGEN

2024/09/13に公開

こんにちは。ZENKIGENデータサイエンスチームの川﨑です。所属チームでXアカウントを運用しており、AIに関する情報を発信していますのでご興味あれば覗いてみてください。
!今回はMER2024というマルチモーダル感情認識コンペで優勝したチームの手法に関する論文を紹介します。昨今の感情認識モデルの概観を把握するのに役立つと思いました！
論文は以下になります。

https://arxiv.org/pdf/2408.10500

図1. 提案手法のアーキテクチャ。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。

 MER2024コンペについて本コンペはIJCAIにて開催されました、マルチモーダル感情認識のコンペです。

感情認識を多様な状況に適用する観点を重視した課題設定しており、コンペは3種類に分かれています。本論文ではMER-NOISE, MER-OVに参加しています。
MER-SEMI

ラベル付きデータ以外に、大量のラベルなしデータが与えられています。
MER-NOISE

MER-SEMIデータに対して、音声は加法性のノイズを、画像はぼかしを加えたノイズを加えています。
MER-OV(Open Vocabulary)

感情ラベルの語彙を限定せず、自由に感情の表現を付与できるようにしています。

 データセットについてデータセットは、中国語の映画やテレビで放送された動画を利用しており、動画を2-16秒のクリップに分割して作成されています。

学習データとして約5000件のアノテーションデータ、さらに約110,000件程度のラベルなしデータがあり、ラベルなしデータの一部がテストデータとして評価に利用されます。
データセットの詳細な件数は以下の表となります。

図2. データセットのサンプル数に関する表。MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognitionより引用。

 手法概要本手法では、以下のような特徴があります。

 1. 各モーダルのモデルを利用した特徴量抽出Vision, Audio, Textの3つのモーダルに特化したモデルを利用し、特徴量を抽出しています。その際中国語に特化したChinese-HuBertを利用したり、Vision系のMAE/VideoMAEについては追加の学習を行った上で利用しています。

 2. Emotion-LLaMAを用いた、疑似ラベルの作成

図3. Emotion-LLaMAのアーキテクチャ。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。
Emotion-LLaMAを用いて20,000件のラベルなしデータに疑似ラベルを付与して学習データに追加しています。これにより、データの量だけでなく多様性の増加にも寄与し、モデルの汎化性能の向上に繋がったとのことです。

流れとしては、以下のとおりです。
Emotion-LLaMAに6つの感情ラベルに分類する指示を行い、固定のカテゴリーに分類したラベルを作成（データ1）
Emotion-LLaMAに動画クリップの感情に関連する説明を行うよう指示するプロンプトを与え、動画クリップに対して説明するテキストを生成
2の出力からLLaMA-3でキーワード抽出を行い、感情ラベルを抽出（データ2）
データ1とデータ2をラベルありデータに追加し、学習データを作成

 3. Conv-Attentionというアーキテクチャの利用各モーダルから抽出した特徴量を融合する手法として、Conv-Attentionという手法を提案しています。こちらは局所的な情報を捉える畳み込み演算と、大局的な情報を捉えるアテンション機構を組み合わせることで性能を向上させています。

 結果結果をいくつか抜粋します。論文ではより様々な条件における比較を行っています。

補足として、WAFは重み付けF1スコアを意味します。

 1. ユニモーダルモデルにおける精度

図4. ユニモーダルモデルにおける精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。

Audio系ではHuBERT-largeが最も高い精度を示していることがわかります。こちらは中国語向けに学習されたChinese-HuBERTを利用しているため、他のモデルと比較して有効だったと考察されていました。

また、Vision系ではMAE / VideoMAEモデルはMERデータで追加の学習を行うことで、精度が向上することが確認されました。

 2. ユニモーダルモデルを組み合わせた際の精度

図5.各ユニモーダルを組み合わせた際の精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。

各ユニモーダルモデルの中で比較的精度が高かったモデルを組み合わせた際の精度となります。例えばVisionなどの同一モーダルでも、複数のモデルを組み合わせることで精度が向上していることがわかります。

 3. Conv-Attentionの有効性の評価

図6. 各種手法でユニモーダルの出力を融合させた際の精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。

ユニモーダルモデルの出力を融合させる手法を比較している表となります。他の手法と比較してConv-Attentionの有効性が示されています。

 4. Open Vocabularyでの評価

図6. 各種手法でユニモーダルの出力を融合させた際の精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。

Emotion-LLaMAを用いた手法が最も精度が良く、GPT-4Vを上回る結果となっています。

論文内ではEmotion-LLaMAとLLaMA3を用いた結果を最終的な予測としたと言及されていたのですが、こちらの表に提案手法による結果がなかったため、提案手法の評価結果については不明です。

 まとめ以上、MER2024コンペにおいて優勝したチームの提案手法について紹介しました。ユニモーダルモデルの組み合わせやConv-Attentionの有効性など、最新の感情認識モデルの概観を把握するのに役立つと思いました。興味がある方は、ぜひ論文も読んでみてください！

 お知らせ少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。
https://hrmos.co/pages/zenkigen/jobs?jobType=FULL

https://speakerdeck.com/zenkigenforrecruit/detailed-version-recruitment-materials-for-data-scientists

ZENKIGENテックブログPublication

私たちは「はたらく人の理想」をつくるために、ITと科学で組織課題に立ち向かうAIテックカンパニーです。「テクノロジーを通じて人と企業が全機現できる社会の創出に貢献する」のVisionのもと、人の感覚に寄り添うテクノロジーを用いたでサービスを展開しています。

MER2024コンペについて

データセットについて

手法概要

1. 各モーダルのモデルを利用した特徴量抽出

2. Emotion-LLaMAを用いた、疑似ラベルの作成

3. Conv-Attentionというアーキテクチャの利用

結果

1. ユニモーダルモデルにおける精度

2. ユニモーダルモデルを組み合わせた際の精度

3. Conv-Attentionの有効性の評価

4. Open Vocabularyでの評価

まとめ

お知らせ

Discussion