📹

マルチモーダル感情認識コンペの優勝手法を眺める

2024/09/13に公開

こんにちは。ZENKIGENデータサイエンスチームの川﨑です。所属チームでXアカウントを運用しており、AIに関する情報を発信していますのでご興味あれば覗いてみてください。

論文は以下になります。
https://arxiv.org/pdf/2408.10500


図1. 提案手法のアーキテクチャ。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。

MER2024コンペについて

本コンペはIJCAIにて開催されました、マルチモーダル感情認識のコンペです。
感情認識を多様な状況に適用する観点を重視した課題設定しており、コンペは3種類に分かれています。本論文ではMER-NOISE, MER-OVに参加しています。

  1. MER-SEMI
    ラベル付きデータ以外に、大量のラベルなしデータが与えられています。

  2. MER-NOISE
    MER-SEMIデータに対して、音声は加法性のノイズを、画像はぼかしを加えたノイズを加えています。

  3. MER-OV(Open Vocabulary)
    感情ラベルの語彙を限定せず、自由に感情の表現を付与できるようにしています。

データセットについて

データセットは、中国語の映画やテレビで放送された動画を利用しており、動画を2-16秒のクリップに分割して作成されています。
学習データとして約5000件のアノテーションデータ、さらに約110,000件程度のラベルなしデータがあり、ラベルなしデータの一部がテストデータとして評価に利用されます。

データセットの詳細な件数は以下の表となります。

図2. データセットのサンプル数に関する表。MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognitionより引用。

手法概要

本手法では、以下のような特徴があります。

1. 各モーダルのモデルを利用した特徴量抽出

Vision, Audio, Textの3つのモーダルに特化したモデルを利用し、特徴量を抽出しています。その際中国語に特化したChinese-HuBertを利用したり、Vision系のMAE/VideoMAEについては追加の学習を行った上で利用しています。

2. Emotion-LLaMAを用いた、疑似ラベルの作成


図3. Emotion-LLaMAのアーキテクチャ。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。

Emotion-LLaMAを用いて20,000件のラベルなしデータに疑似ラベルを付与して学習データに追加しています。これにより、データの量だけでなく多様性の増加にも寄与し、モデルの汎化性能の向上に繋がったとのことです。
流れとしては、以下のとおりです。

  1. Emotion-LLaMAに6つの感情ラベルに分類する指示を行い、固定のカテゴリーに分類したラベルを作成(データ1)
  2. Emotion-LLaMAに動画クリップの感情に関連する説明を行うよう指示するプロンプトを与え、動画クリップに対して説明するテキストを生成
  3. 2の出力からLLaMA-3でキーワード抽出を行い、感情ラベルを抽出(データ2)
  4. データ1とデータ2をラベルありデータに追加し、学習データを作成

3. Conv-Attentionというアーキテクチャの利用

各モーダルから抽出した特徴量を融合する手法として、Conv-Attentionという手法を提案しています。こちらは局所的な情報を捉える畳み込み演算と、大局的な情報を捉えるアテンション機構を組み合わせることで性能を向上させています。

結果

結果をいくつか抜粋します。論文ではより様々な条件における比較を行っています。
補足として、WAFは重み付けF1スコアを意味します。

1. ユニモーダルモデルにおける精度


図4. ユニモーダルモデルにおける精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。
Audio系ではHuBERT-largeが最も高い精度を示していることがわかります。こちらは中国語向けに学習されたChinese-HuBERTを利用しているため、他のモデルと比較して有効だったと考察されていました。
また、Vision系ではMAE / VideoMAEモデルはMERデータで追加の学習を行うことで、精度が向上することが確認されました。

2. ユニモーダルモデルを組み合わせた際の精度


図5.各ユニモーダルを組み合わせた際の精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。
各ユニモーダルモデルの中で比較的精度が高かったモデルを組み合わせた際の精度となります。例えばVisionなどの同一モーダルでも、複数のモデルを組み合わせることで精度が向上していることがわかります。

3. Conv-Attentionの有効性の評価


図6. 各種手法でユニモーダルの出力を融合させた際の精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。
ユニモーダルモデルの出力を融合させる手法を比較している表となります。他の手法と比較してConv-Attentionの有効性が示されています。

4. Open Vocabularyでの評価


図6. 各種手法でユニモーダルの出力を融合させた際の精度。SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognitionより引用。
Emotion-LLaMAを用いた手法が最も精度が良く、GPT-4Vを上回る結果となっています。
論文内ではEmotion-LLaMAとLLaMA3を用いた結果を最終的な予測としたと言及されていたのですが、こちらの表に提案手法による結果がなかったため、提案手法の評価結果については不明です。

まとめ

以上、MER2024コンペにおいて優勝したチームの提案手法について紹介しました。ユニモーダルモデルの組み合わせやConv-Attentionの有効性など、最新の感情認識モデルの概観を把握するのに役立つと思いました。興味がある方は、ぜひ論文も読んでみてください!

お知らせ

少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。

https://hrmos.co/pages/zenkigen/jobs?jobType=FULL
https://speakerdeck.com/zenkigenforrecruit/detailed-version-recruitment-materials-for-data-scientists

ZENKIGENテックブログ

Discussion