パラ言語認識の実用化のための半教師ありドメイン適応
はじめに
音声には話者が伝えたい言葉、すなわち言語の情報だけではなく、感情・態度などのパラ言語情報が含まれています。(音声が伝える多様な情報については、以前の記事 をご覧ください。)パラ言語情報を音声から自動的に認識する技術を、パラ言語認識と呼びます。パラ言語認識の実用化においては、タスクの多様性・データ量の少なさなど、さまざまな課題があります。これらの課題を解決するために、弊社ではパラ言語認識タスクを対象とした半教師ありドメイン適応法を開発しました [2, 3, 4]。この手法には以下のような利点があります。
- 大規模データセットを新たに構築する必要がなく、既存のラベル付きデータセット(例えば感情音声コーパス)を活用できる
- 既存のデータセットとは異なる、応用先に特有のパラ言語認識タスクにも適応可能
- 対象ドメインのデータ量が少なく、かつ、ラベルが部分的にしか付与されていない状況でも高い精度を達成可能
本記事では、我々の開発したパラ言語認識の実用化のための半教師ありドメイン適応法の概要を説明し、その効果を示す実験結果を紹介します。なお、パラ言語に対する定義について以前の記事では「話者が意図してメッセージを伝えようとしているもの」と定義していますが、この記事では非言語に分類される情報も含めて広い意味でパラ言語という用語を用います。
パラ言語認識の実用化における課題
感情音声認識に代表されるパラ言語認識の実用化においては、さまざまな課題があります。ここでは実用化において特に大きな課題となる、以下の点について紹介します。
- タスクの多様性
- 既存データセットとのドメインミスマッチ
- 少量データ
タスクの多様性
機械学習におけるタスクとは、計算機にデータから学習して達成させたい特定の目標を表します。例えば音声認識は音声から発話内容をテキストデータに変換するタスクであり、話者認識は音声から話者を認識するタスクです。パラ言語認識においては、音声認識や話者識別のように汎用的なタスク設定が存在しません。すなわち、応用先の目的によってタスクの設定が大きく変わります。例えば、音声処理における世界最大規模の国際会議 INTERSPEECH では、2009年から毎年異なる設定のパラ言語認識タスクに対するチャレンジ ComParE が開催されています。表1は、過去に開催されたチャレンジからパラ言語認識タスクの多様性を示す例を抜粋したものです。
表1: ComParE チャレンジの抜粋
年 | タスク |
---|---|
2009 | 聞き手の評価による感情 |
2010 | 興味の度合い |
2012 | パーソナリティ |
2012 | 好ましさ |
2013 | 社会的シグナル |
2013 | 衝突 |
2014 | 認知的負荷 |
2014 | 身体的負荷 |
2015 | ネイティブネス |
2016 | 誠実さ |
2016 | 虚偽 |
2018 | 話し手の評価による感情 |
2019 | 眠さ |
2021 | 興奮度 |
2022 | 行動 |
2023 | 不満 |
タスクの名前が共通している場合でも、応用の目的によってクラスの定義が変わります。例えば感情認識タスクであっても、応用先やデータセットごとに感情クラスの定義が異なります。コールセンターの顧客モニタリングでは、怒りや不満などネガティブな感情については、より高い解像度が求められるでしょう。一方で、対話ロボットの場合には、より多様な感情クラスの認識が必要です。また、感情クラスのラベル名が同じであっても、そのクラスに含まれる感情表現の範囲は応用先の目的によって差異があるかもしれません。
このようにパラ言語認識のタスク設定は応用先に応じて異なります。従って、既存のデータセットや、それらを用いて学習した既存の認識器は使用できません。すなわち、目的に応じてデータの収集、およびモデルの学習を行う必要があります。
既存データセットとのドメインミスマッチ
パラ言語情報は、以下のような発話がなされた条件や環境などから大きな影響を受けます。
- 発話方法 (自発発話か演技発話か)
- 言語・文化
- 場面・状況 (フォーマルかカジュアルか、聞き手との関係性)
このように音声の特徴に影響を与える条件はドメインと呼ぶこととします。モデルの訓練に用いたデータと、実際の運用時に入力されるデータのあいだで、ドメイン特有の要因に差があると、認識精度が大幅に劣化してしまう場合があります。この現象は機械学習においてドメインミスマッチと呼ばれ、パラ言語認識でも大きな課題となります。例えタスク設定が既存のデータセットと同一であったとしても、それらを使用して学習された既存の認識器では、高い認識率を達成することはできません。
少量データ
上述のように、対象ドメインにおいて目的に応じたタスク設定に基づいて、音声データを収集し、ラベルを付与する必要があります。しかしながら、パラ言語認識用のデータ収集は、一般的な音声認識や話者認識用のデータ収集より手間がかかります。感情音声を例にとると、自発発話においては感情が表出されている発話が稀にしか発生しなかったり、演技発話においては感情表現が話者の演技力に影響を受けるため、音声の収集にコストがかかります。また、パラ言語情報が伝達するメッセージの知覚は聞き手の主観の影響が大きいため、正解となるラベルを付与するアノテーション作業のコストも高くなります。実用化においては、少量のデータしか収集できず、一部分にしかラベルを付与できない状況が想定されます。一般に、データ・ラベルが少量しか利用できない状況では、適切にモデルを訓練し高い認識率を達成することは困難です。
我々の技術
上述の問題を克服するために、我々はパラ言語認識のための半教師ありドメイン適応手法を開発しました。我々の提案法は、以下のようなパラ言語認識の実用化において直面する現実的な状況において、利用可能なデータを最大限に活用することにより、高い認識精度を達成します。
- 既存のパラ言語(例えば感情音声)データセットが利用可能である
- 応用先のタスク設定は、既存データセットと異なる
- 対象ドメインおけるデータが少量であり、一部しかラベルが付与されていない
提案法が想定する状況を下図に示します。
図1: 想定するデータセット状況
既存のパラ言語データセットとして、公開されている大規模な感情音声データセットを想定していますが、どのようなパラ言語認識のための音声データセットでも使用することが可能です。従来のドメイン適応手法では、既存データセットのタスク設定と応用先のタスク設定が共通している必要がありました。提案法では、既存データセットとの整合性を考慮せずに、応用先に特有なタスクを設定することが可能です。応用先に特有のタスク設定として以下のような例が考えられます。
- コールセンターや対面接客
- ネガティブな感情については、より細かいクラス分類が求められます。
- 例えば、不満・いらだち・軽い怒り・強い怒り・戸惑い・満足などの分類が想定されます。
- インタビュー・カウンセリング
- インタビューの熱心度・信頼度・納得度など認識が想定されます。
- ミーティング
- 参加者が積極的に参加しているか、議論の内容を理解し納得しているか、冷静に発言しているか、などの評価が想定されます。
- 対話ロボット・デジタルサイネージ
- 対話エージェントの応答決定に影響する、パラ言語により伝達される幅広い態度や社会的キューの認識が求められます。
- 例えば、同意・疑問・否定・混乱・不満・焦り・いらだち・怒りなどの分類が想定されます。
提案法は、パラ言語認識の実用化において直面する現実的な状況で、既存のパラ言語データセットと応用先で収集した少量のデータセットを最大限に活用することにより、高い認識精度を達成します。以下では提案法の概要と、その有効性を示す実験結果を紹介します。
提案法:パラ言語認識のための半教師ありドメイン適応
提案法は、パラ言語認識の実用化における問題を解決するための、自己教師あり学習モデル WavLM [4]、ドメイン敵対的マルチタスク学習 [1]、Noisy Student Training (NST) [5]を組み合わせた半教師ありドメイン適応手法です。
自己教師あり学習モデルは、(パラ言語認識向けではない)大量のラベルなしデータから、その内在的な構造を事前学習したモデルです。音声処理に対しては、wav2vec 2.0 [6]、HuBERT [7]、WavLM [4] などのモデルが提案されており、音声処理の幅広いタスクで高い精度が得られることが知られています [8]。
ドメイン敵対的マルチタスク学習は、タスク設定が異なる複数のデータセットを効果的に利用するための手法です [1]。図2はドメイン敵対的マルチタスク学習のネットワーク構造を図示したものです。マルチタスク学習のネットワーク構造は、各データセットに対応した異なる識別器を備えているため、データセット間でタスクが異なっていても適応可能です。特徴量抽出器はすべてのデータセットに対して共通であるため、タスクが類似している場合には、データセット間の相乗効果が期待できます。特に、敵対的ドメイン識別器の導入により、各データセットのドメイン特有の要因を排除した中間表現を獲得することができます。それにより、ドメインミスマッチの問題が解消され、すべてのデータセットが有効に活用されます。
図2: ドメイン敵対的マルチタスク学習のモデル構成
対象ドメインにおけるデータが一部しかラベルが付与されていない問題に対して、提案法では、NST [5] をドメイン敵対的マルチタスク学習と組み合わせます。NST は従来の半教師あり学習法である「自己学習」を拡張した手法で、そのプロセスを図3に示します。まず初めに、ラベルありデータだけを用いて教師モデルを学習します。次に、教師モデルを用いてラベルなしデータに擬似ラベルを付与します。ここで信頼性の高い擬似ラベルのみを採用します。さらに、ラベルありデータと擬似ラベル付きデータを用いて、生徒モデルを学習します。ここで頑健なモデルを得るために、データ拡張とドロップアウトを利用します。そして、この学生モデルを新しい教師モデルにして、上記のプロセスを繰り返します。
図3:Noisy Student Training の学習プロセス
これらの手法を組み合わせることにより、提案法はパラ言語認識の実用化における現実的な問題に対処し、独自の問題設定に対して対象ドメインで少量のデータとラベルを集めるだけで、高精度のモデルを学習することを可能にしました。提案法の詳細については文献 [3] をご覧ください。
評価実験
提案法の有効性を示すために、2つの条件における実験結果を紹介します。既存データセットは感情音声データセットに設定しています。実験1では、目的のタスクは同じ感情認識ではあるが、既存データセットと感情クラスの定義が異なる場合です。実験2では、目的タスクは感情音声認識以外のパラ言語認識である場合です。
実験1:感情認識でクラス定義が異なる場合
実験1では、既存の感情音声データセットとして IEMOCAP [9]、対象とするデータセットとして CREMA-D [10] を用いました。これらのデータセットの感情クラスは互いに異なっています。また、対象データセット (CREMA-D) の音声ファイル数は既存データセット (IEMOCAP) の約半分であり、対象データセットが小規模である条件を再現しています。さらに、対象データセットの一部分しラベルか付与されていない状況を再現するために、学習データに使用できるラベルを50%除外して実験を行いました。本実験で使用したデータの概要を次表に示します。
表2: 実験1で使用したデータ
既存データセット | 対象データセット | |
---|---|---|
IEMOCAP | CREMA-D | |
クラス | 平静・喜び・悲しみ・怒り | 平静・喜び・悲しみ・怒り・嫌悪・恐れ |
音声ファイル数 | 5531 | 3099 |
ラベル付与率 | 100% | 50% |
上記のデータを用いて、ベースラインモデルと、提案法によるモデルを比較しました。ベースラインモデルの構造として、従来の感情音声認識でよく使われていたAttention-based Convoluational Recurrent Neural Network (ACRNN) [11] を採用しました。このモデルは対象データセットのラベル付きデータのみを用いて訓練されました。すなわちベースラインは「単一データセットによる教師あり学習」モデルです。
一方で、提案法によるモデルは、既存と対象のデータセットの両方を用いて訓練されました。対象データセットについては、ラベルなし音声も使用されました。すなわち提案法は「複数データセットによる半教師あり学習」モデルです。
評価方法として leave-one-speaker-group-out による 5-fold クロスバリデーションを、評価指標として macro-average F1-score を用いました。対象データセットに対する評価結果を図4に示します。
図4: 感情認識でクラス定義が異なる場合の実験結果
提案法により、ベースラインと比較して認識精度向上が13.8% (相対) 向上しました。この結果から、既存データセットとクラス定義が異なる感情認識タスクに対して、提案法が有効であることが分かります。
実験2:タスクが感情音声認識とは異なる場合
実験2では、既存の感情音声データセットとして IEMOCAP、対象とするデータセットとして SinA-C [12] を用いました。SinA-C は謝罪発話における誠実さを識別するためのデータセットです。このように提案法においては、既存データセットとは異なる独自のタスクを設定することが可能です。
対象データセット (SinA-C) の音声ファイル数は既存データセット (IEMOCAP) の約10% であり、実験1よりさらに厳しい条件になっています。対象データセットのラベル付与率については25%、50%、100% の3つの水準を試しました。ベースラインモデル、および提案法によるモデルの構造・訓練方法は実験1と同一です。本実験で使用したデータの概要を次表に示します。
表3: 実験2で使用したデータ
既存データセット | 対象データセット | |
---|---|---|
名前 | IEMOCAP | SinA-C |
音声ファイル数 | 5531 | 768 |
クラス | 平静・喜び・悲しみ・怒り | 誠実である・誠実ではない |
ラベル付与率 | 100% | 100%, 50%, 25% |
既存データセット(IEMOCAP)について、セッション1 をテストデータとして、残りのセッションの80%を訓練データとして、20%をバリデーションデータとして使用しました。対象データセット(SinA-C)については、データセットが定義している話者非依存の分割方法を採用しました。また、評価指標として micro-average F1-score を用いました。対象データセットに対する実験結果を図5に示します。
図5: タスクが感情音声認識とは異なる場合の実験結果
この実験結果から、提案法がベースラインより高い精度を達成したことがわかります。さらに、ベースラインでは学習データのラベルありデータの割合が小さくなるにつれ精度が著しく劣化するのに対して、提案法では精度を高い水準に維持できています。
これらの実験により、提案法がパラ言語認識の実用化において有用であることが示されました。
まとめ
本記事では、パラ言語認識の実用化において直面する以下の問題について解説しました。
- タスクの多様性
- 既存データセットとのドメインミスマッチ
- 少量データ
また、これらの課題を解決するために我々が提案した半教師ありドメイン適応手法を解説しました。提案法は、以下のような実用化において直面する状況においても適応可能です。
- 既存のパラ言語 (例えば感情音声) データセットが利用可能である
- 応用先のタスク設定は、既存データセットと異なる
- 対象ドメインおけるデータが少量であり、一部しかラベルが付与されていない
さらに、既存データセットが感情音声データセットの場合で、以下の2つの条件において、提案法の有効性を示す実験結果を紹介しました。
- 目的タスクは感情音声認識ではあるが、既存データセットと感情クラスの定義が異なる。
- 目的タスクが感情音声認識と異なるパラ言語認識タスク
応用方法
提案法は柔軟でさまざまなパラ言語認識に利用でき、データ量が少なく、ラベルが一部しか付与されていない場合でも高い精度を達成します。例えば、独自のパラ言語認識に取り組む場合には、以下のような手順が想定されます。
- 応用先に応じたタスクを設定
- 対象ドメインにおいて少量のデータを収集
- 収集したデータの一部にラベルを付与
- 提案法を用いて、既存のパラ言語データセットを併用して、対象タスクの認識器を作成
提案法を用いることで、既存のデータセットとの整合性を考慮せずに、応用先に特定したパラ言語認識タスクの設定が可能になります。パラ言語認識の実用化における課題を解決し、少ないコストで独自の問題設定において高い精度を達成する認識器を開発することが可能となります。
参考文献
[1] Z. Zhu and Y. Sato, "Reconciliation of Multiple Corpora for Speech Emotion Recognition by Multiple Classifiers with an Adversarial Corpus Discriminator," INTERSPEECH, 2020, doi:10.21437/Interspeech.2020-1618.
[2] Z. Zhu and Y. Sato, "Speech Emotion Recognition Using Semi-Supervised Learning with Efficient Labeling Strategies," ASRU, 2021, doi:10.1109/ASRU51503.2021.9687938.
[3] Z. Zhu and Y. Sato, "Domain Adaptation without Catastrophic Forgetting on a Small-Scale Partially Corpus for Speech Emotion Recognition," ICASSP, 2023, doi:10.1109/ICASSP49357.2023.10096578.
[4] S. Chen et al., "WavLM: Large-Scale self-supervised pretraining for full stack speech processing," IEEE Journal of Selected Topics in Signal Processing, vol. 16, no. 6, pp. 1505–1518, 2022.
[5] Q. Xie et al., "Self-training with noisy student improves IMAGENET classification," CVPR, 2020.
[6] A. Baevski et al., "wav2vec 2.0: A framework for self-supervised learning of speech representations," NeurIPS, 2020.
[7] W. H. Hsu et al., "HuBERT: Self-supervised speech representation learning by masked prediction of hidden units," IEEE/ACM Transactions on Audio Speech and Language Processing, vol. 29, pp. 3451–3460, 2021.
[8] S. W. Yang et al., "SUPERB: Speech processing universal performance benchmark," INTERSPEECH, 2021.
[9] C. Busso et al., "IEMOCAP: Interactive emotional dyadic motion capture database," Language Resources and Evaluation., vol. 42, no. 4, p . 335–359, 2007
[10] H. Cao et al., "CREMA-D: Crowd-sourced emotional multimodal actors dataset," IEEE Transactions on Affective Computing, vol. 5, no. 4, pp. 377–390, 2014.
[11] M. Chen et al., "3-D convolutional recurrent neural networks with attention model for speech emotion recognition," IEEE Signal Processing Letters, vol. 25, no. 10, pp. 1440–1444, 2018.
[12] A. Baird et al., "Sincerity in Acted Speech: Presenting the Sincere Apology Corpus and Results," INTERSPEECH, 2019.
Discussion