Closed4

SpeechGPT

Koichiro MoriKoichiro Mori

SpeechGPT

https://arxiv.org/abs/2305.11000

概要

マルチモーダルの大規模言語モデルは人工一般知能(AGI)への重要な一歩と見なされ、ChatGPTの登場により大きな関心を集めています。ただし、現在の音声言語モデルは通常、カスケードパラダイムを採用しており、異なるモード間の知識転送を阻害しています。本論文では、マルチモーダルな会話能力を持つ大規模言語モデルであるSpeechGPTを提案します。これは、複数のモードのコンテンツを認識および生成する能力を持っています。離散的な音声表現を用いて、まずSpeechInstructという大規模なクロスモーダル音声指示データセットを構築します。さらに、モード適応の事前トレーニング、クロスモーダル指示の微調整、およびモード連鎖指示の微調整を含む三段階のトレーニング戦略を採用します。実験結果は、SpeechGPTがマルチモーダルな人間の指示に従う印象的な能力を持ち、1つのモデルで複数のモードを扱う可能性を示しています。デモはこちらのURLでご覧いただけます。

リポジトリ

https://github.com/0nutation/SpeechGPT

デモ

https://0nutation.github.io/SpeechGPT.github.io/

Koichiro MoriKoichiro Mori

背景

既存のマルチモーダルモデル

  • GPT-4、PaLM-E、LLaVAなどのマルチモーダルモデルは、LLMがマルチモーダル情報を理解する能力を探求している
  • ほとんどの現状のLLMは、マルチモーダルコンテンツを認識できるが、マルチモーダルコンテンツを生成できない
  • また画像や音声などの連続的な信号は、離散トークンを受診するLLMに直接適応できない

既存の音声言語モデル

既存の音声言語モデルは、主にカスケードパラダイムを採用。LLMが独立した音声認識モデル、音声合成モデルと連携するタイプが一般的(AudioGPT、HuggingGPT)

カスケードアプローチは3つの課題がある

  1. LLMの知識を音声モダリティに転送できない
  2. 感情や抑揚などのパラ言語情報の損失が課題
  3. 音声を合成するだけで、その意味情報を理解していないため、真のクロスモーダル認識と生成を達成できない

提案

本論文では、SpeechGPTという、内在的なクロスモーダル対話能力を持つ大規模言語モデルを提案します。このモデルは、マルチモーダルコンテンツを認識および生成する能力を持っています。音声とテキストのモダリティを統一するために、自己教師付きトレーニングされた音声モデルを使用して音声の離散化を行います。その後、離散音声トークンはLLMの語彙に展開され、モデルに音声を認識および生成する固有の能力を付与します。

貢献

  • 最初のマルチモーダル大規模言語モデルを開発しました。これはマルチモーダルコンテンツを認識および生成する能力を持っています。
  • 初めての大規模音声-テキストクロスモーダル指示遵守データセットであるSpeechInstructを作成し、公開しました。
  • 強力な人間の指示遵守能力と音声対話能力を持つ最初の音声対話LLM(言語モデル)を構築しました。
  • 離散的表現を通じて、他のモダリティをLLMに統合することで、大きな潜在能力を示しました。
Koichiro MoriKoichiro Mori

なにができる?

  • テキストと音声のマルチモーダルモデル
  • テキスト生成、音声認識、音声合成が1つのモデルでできる

アーキテクチャ

  • Discrete unit extractor(HuBERT)連続音声を離散ユニットに変換する
  • Large language model(Llama)
  • Unit vocoder(HiFi-GAN)

データセット

  • 音声・テキストのクロスモーダル指示に従うSpeechInstructデータセット

訓練フェーズ

  1. Modality Adaptation Pretraining on unpaired speech data
  • ラベルなしの音声データを使ってNext Token Predictionの要領でLLMを訓練
  • 音声の離散ユニットを予測できるように処理
  1. Cross-modal Instruction Fine-Tuning(?)
  • 音声とテキストを整列させるためにペアデータを利用
  1. Chain-of-Modality Instruction Fine-Tuning(?)
  • LoRA技術を用いてFine-tuning
このスクラップは3ヶ月前にクローズされました