Closed8

大規模音声モデル(Large Audio Models)のサーベイ

Koichiro MoriKoichiro Mori

以下のサーベイ論文を中心に内容をまとめていく

https://arxiv.org/abs/2308.12792
https://github.com/EmulationAI/awesome-large-audio-models

この論文は、大規模言語モデルを音声信号処理に適用する最近の進展と課題について包括的な概要を提供します。音声処理は、多様な信号表現と幅広いソースによる課題を提起しますが、トランスフォーマーベースの大規模音声モデルはこの分野で効果的であり、自動音声認識から音楽生成までのさまざまなタスクで優れた能力を示しています。特に、最近の基礎となる音声モデルは、100以上の言語に対応し、タスク固有のシステムへの依存なしにユニバーサルな翻訳者としての機能を示すようになっています。この論文では、最新の手法や性能、実世界への適用性について詳細に分析し、将来の研究方向についての洞察を提供します。また、急速な発展に対応するために、関連する最新の記事とオープンソース実装を定期的に更新する予定です。

Koichiro MoriKoichiro Mori

基盤モデル(Foundation Model)は、言語、画像、ビデオの分野で顕著な進歩を遂げてきた。音声ドメインはこれらの分野に比べて発展が緩やかだった。

Q. 音声ドメインの難しさとは?

Q. 大規模データセットがなかっただけ?

Q. 重要な技術マイルストンは?

  • 音声データ表現とテキストトークン埋め込みの統合技術
  • 自己教師あり学習(?)
Koichiro MoriKoichiro Mori

他のサーベイ論文

LLMサーベイ

[14] W. X. Zhao, K. Zhou, J. Li, T. Tang, X. Wang, Y. Hou, Y. Min, B. Zhang, J. Zhang, Z. Dong et al., “A survey of large language models,” arXiv preprint arXiv:2303.18223, 2023.

音声合成

音声 x Deep Learningサーベイ

[11] H. Purwins, B. Li, T. Virtanen, J. Schlüter, S.-Y. Chang, and T. Sainath, "Deep learning for audio signal processing," IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 2, pp. 206–219, 2019.

[54] S. Liu, A. Mallol-Ragolta, E. Parada-Cabaleiro, K. Qian, X. Jing, A. Kathan, B. Hu, and B. W. Schuller, "Audio self-supervised learning: A survey," Patterns, vol. 3, no. 12, 2022.

[25] S. Karita, N. Chen, T. Hayashi, T. Hori, H. Inaguma, Z. Jiang, M. Someki, N. E. Y. Soplin, R. Yamamoto, X. Wang et al., "A comparative study on transformer vs RNN in speech applications," in 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2019, pp. 449–456.

[26] S. Latif, A. Zaidi, H. Cuayahuitl, F. Shamshad, M. Shoukat, and J. Qadir, "Transformers in speech processing: A survey," arXiv preprint arXiv:2303.11607, 2023.

音楽生成

[55] J.-P. Briot, G. Hadjeres, and F.-D. Pachet, "Deep learning techniques for music generation – a survey," arXiv preprint arXiv:1709.01620, 2017.

[56] S. Ji, J. Luo, and X. Yang, "A comprehensive survey on deep music generation: Multi-level representations, algorithms, evaluations, and future directions," arXiv preprint arXiv:2011.06801, 2020.

[57] L. Moysis, L. A. Iliadis, S. P. Sotiroudis, A. D. Boursianis, M. S. Papadopoulou, K.-I. D. Kokkinidis, C. Volos, P. Sarigiannidis, S. Nikolaidis, and S. K. Goudos, "Music deep learning: Deep learning methods for music signal processing – a review of the state-of-the-art," IEEE Access, 2023.

Koichiro MoriKoichiro Mori

音声ドメインにおけるアーキテクチャの変遷

初期

  • 畳み込みニューラルネットワーク(CNNs)
  • リカレントニューラルネットワーク(RNNs)とLSTM
  • CNNsとRNNsの強みの組み合わせ

以下の2つの課題があった

  • LSTMでは効率的な並列計算ができない
  • 音声は非常に長い系列データであり、長期的な文脈のモデリングが難しい

Transformerの導入

  • Self Attentionによる長期的な文脈の把握と高い並列性により課題が解決
  • Wav2Vec、Whisper、FastPitch、MusicBERTなど多様なアーキテクチャが誕生

音声分野にTransformerが導入できたことで以下のメリットが

  • LLMとの連携が可能に
  • シーケンス内の文脈的な依存関係を効率的に捉えることが可能に
  • 数十億パラメータを持つ大規模モデルが実現
Koichiro MoriKoichiro Mori
  • 音声合成のTacotron2はLSTMベース
  • 音声合成のFastSpeechはTransformerベース
  • 音声認識のConformerはTransformerベース
Koichiro MoriKoichiro Mori

大規模言語モデル(LLM)の概要

スケーリング法則によりパラメータ数が大規模になるほど優れたパフォーマンスを発揮する。たとえば、GPT-3はGPT-2では難しかったコンテキスト内学習の能力を獲得

  • BERT(3300万パラメータ)
  • GPT-2(15億パラメータ)
  • GPT-3(1750億パラメータ)
  • PaLM(5400億パラメータ)

GPT-4

  • 画像とテキストを入力とし、テキストを出力する大規模なマルチモーダルモデル
  • 人間レベルのパフォーマンスを達成
  • AGIへの重要な第一歩とみなされている

画像・音声・テキストを含むマルチモーダル大規模言語モデルの開発へ

Koichiro MoriKoichiro Mori

大規模音声モデルの例

  • SpeechGPT
  • AudioPaLM
  • AudioGen
  • AudioLDM / AudioLDM2
  • LTU
  • VioLA
  • MusicGen
  • MusicLM
  • WavJourney
  • SeamlessM4T
このスクラップは2024/03/29にクローズされました