Closed2024/02/15にクローズ3

AudioPaLM

Audio

LLM

Koichiro Mori

AudioPaLM

https://arxiv.org/abs/2306.12925

デモ

概要

我々は、音声理解と生成のための大規模言語モデルであるAudioPaLMを紹介します。AudioPaLMは、PaLM-2 [Anil et al., 2023] とAudioLM [Borsos et al., 2022] というテキストベースと音声ベースの言語モデルを組み合わせ、テキストと音声の処理と生成が可能な統一されたマルチモーダルアーキテクチャを構築します。これにより、音声認識や音声から音声への翻訳などの応用が可能となります。AudioPaLMは、AudioLMからスピーカーの身元や抑揚などの音声的情報を保持する能力を継承し、PaLM-2のようなテキストのみの大規模言語モデルに存在する言語的知識も利用します。我々は、テキスト専用の大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善できることを示します。これにより、事前トレーニングで使用される大量のテキストトレーニングデータが音声タスクに役立つことができます。その結果、このモデルは既存の音声翻訳システムを大幅に上回り、トレーニング中に入力/ターゲット言語の組み合わせを見たことのない多言語のためにゼロショットの音声からテキストへの翻訳を実行する能力を持ちます。また、AudioPaLMは、短い話し言葉に基づいて異なる言語間で声を転送するなど、音声言語モデルの機能も示しています。

アーキテクチャ

PaLM-2 + AudioLM

AudioPaLMモデルは、音声から音声への翻訳と自動音声認識について説明されます。我々は、事前に学習されたテキストのみのモデル（点線で示された線）を取り、その埋め込み行列を拡張して新しいセットの音声トークンをモデル化します。モデルアーキテクチャはそれ以外は変更されず、テキストと音声のトークンの混合シーケンスが入力として与えられ、モデルはテキストまたは音声トークンをデコードします。音声トークンは後のAudioLMステージで元の音声に変換されます。

できること

入力音声を入力話者の声色で別の言語（例えば英語）に翻訳した音声に変換できる（Speech-to-speech translation）
入力音声を別の言語に翻訳したテキストに変換できる（Speech-to-text translation）
入力音声をテキストに変換できる（ASR）

Koichiro Mori

CVSS-Tコーパス

Koichiro Mori

AudioPaLMは、AudioLMから話す速さ、声の強さ、高さ、沈黙、イントネーションなどのパラ言語情報を保持する機能と、PaLM 2が持つ言語知識から、テキストと音声を1つのモデルで処理・生成することが可能となっています。

声優さんの声色を保ったまま自動吹き替えができる可能性

なお、AudioPaLMでは、短い音声データから話者と同じ声で別言語に翻訳することも可能だとのこと。現状では海外の映画を日本語に吹き替え翻訳する場合、日本語話者の声優が吹き替えていますが、このAIモデルが進化すれば、セリフを俳優本人の声で日本語に吹き替えられることが期待できます。

このスクラップは2024/02/15にクローズされました