[論文] MoonCast: High-Quality Zero-Shot Podcast Generation
論文
デモ
Claude-3.7-Sonnetによる落合プロンプトの結果
MoonCast:高品質なゼロショットポッドキャスト生成
どんなもの?
MoonCastは、テキストのみの情報源(物語、技術レポート、ニュースなど)から、未見の話者の声を使って自然なポッドキャストスタイルの音声を合成するゼロショットポッドキャスト生成システムです。
従来のテキスト音声合成(TTS)技術は個々の話者の短い発話生成に成功していましたが、ポッドキャストのような長時間・複数話者・自発的な対話の合成には課題がありました。
MoonCastはこれらの課題を解決するために、「長時間音声」と「自発性」という2つの主要な課題に対応しています。長時間音声を生成するために、大規模な長文脈音声データを活用した言語モデルベースの音声モデリングアプローチを採用しています。自発性を高めるために、スクリプト内に自発的な詳細(「えーと」などのフィラー、ためらい、軽微なミスなど)を生成するポッドキャスト生成モジュールを導入しています。
実験結果では、MoonCastはベースラインと比較して、特に自発性と一貫性において顕著な改善を示しました。
先行研究を比べてどこがすごい?
MoonCastは先行研究と比較して、以下の点で優れています。
まず、長文脈処理能力において大きな進歩を遂げています。従来の研究(DGSLM、CHATS、CoVoMixなど)は約2000時間のデータ(Fisherデータセットなど)を使用しており、90秒未満の対話生成に限定されていました。対してMoonCastは長文脈言語モデルを採用し、最大10分間のポッドキャストを生成できます。
次に、自発性の表現においても優れています。従来のTTS研究は個々の発話の生成に焦点を当てていましたが、MoonCastはスクリプトの自発性とTTSモデリングの両方を考慮することで、より自然なポッドキャスト生成を実現しています。さらに、実験結果ではMoonCastが連結ベースラインと比較して、中国語ポッドキャスト生成において自発性で0.40、一貫性で0.33、英語ポッドキャスト生成において自発性で0.85、一貫性で0.70の改善を示しています。
これらの点から、MoonCastは高品質なゼロショットポッドキャスト生成において先行研究を大きく上回る性能を示しています。
技術や手法の肝はどこ?
MoonCastの技術的核心は以下の2つのモジュールにあります:
音声モデリングモジュール:
- 長文脈の2話者テキスト・トゥ・セマンティックモデル:LLMの成功に触発された言語モデルベースのアプローチを採用し、40,000トークン(約800秒)の文脈長をサポートする2.5Bパラメータのモデルを使用します。
- カリキュラム学習:ゼロショット、長文脈、自発的音声生成能力を段階的に向上させる3段階のカリキュラム学習を実装しています。
- チャンクワイズ自己回帰音声デトークナイザー:長い音声に対してより効率的な処理を可能にし、チャンク間の境界の流暢さと一貫性を確保します。
LLM駆動のスクリプト生成モジュール:
- 入力テキストから会話形式のポッドキャストスクリプトを生成します。
- フィラー語、応答語、繰り返し、非公式な文法などの自発的な詳細を含めるようLLMに指示します。
- これにより生成される音声の自発性が大幅に向上することが実証されています。
MoonCastの特筆すべき点は、スクリプトの自発性が生成される音声の自発性に大きく影響するという実証的発見に基づいてデザインされていることです。これにより、音声の生成プロセスと最終的な音質の両方を最適化しています。
どうやって有効だと検証した?
MoonCastの有効性は、主観的評価と客観的評価の両方を用いて検証されました。まず、評価データセットとして、PDFフォーマットとWebURL形式の2つの知識ソースを含む、コンピュータサイエンス論文、経済学論文、テクノロジーブログ、ニュース記事など多様なドメインのテキストを収集しました。また、スクリプトの自発性の重要性を検証するために、訓練データに存在しない話者による7つの中国語2話者ポッドキャスト(計125ターン)も選択しました。
評価指標:
- 主観的評価:5人の評価者が、生成されたポッドキャストの自発性、セグメント間の一貫性、明瞭性、音声品質、話者類似性を評価しました。
- 客観的評価:話者類似性(SIM-O)と文字誤り率(CER)を使用しました。
結果として、MoonCastは連結ベースライン(Cosyvoice2や単一話者ベースライン)と比較して、中国語と英語の両方のポッドキャスト生成において、特に自発性と一貫性の面で一貫して優れていました。さらに、スクリプトの自発性に関する実験では、自発的なスクリプト(GT)が最も高い自発性スコアを達成し、自発的な詳細を削除した書面スクリプトでは大幅にスコアが低下(-0.95)することが示されました。これは、スクリプトの自発性がポッドキャストテキストの品質において重要な役割を果たすことを裏付けています。
議論はある?
論文では以下の2つの主要な議論点が提示されています:
テキスト表現におけるBPE(Byte-Pair Encoding)vs 音素の選択:
- 従来のTTSシステムは明瞭性向上のために音素を使用しますが、これによって長文形式、複数話者のシナリオに必要な意味情報が失われます。
- MoonCastではBPEを選択し、意味内容を保持しつつLLMのテキスト表現と整合性を保ちます。
- 経験的に、BPEは明瞭性を維持しながらプロソディ(韻律)を改善し、文脈に基づいて笑い声などのパラ言語的現象も自発的に生成します。
ハルシネーション(幻覚)の問題:
- 生成された音声において時に「ハルシネーション」が発生し、話者のアイデンティティが混同され、発話の帰属が不正確になる場合があります。
- この問題は主に3つの要因から生じています:セマンティックトークンが音色情報を一部保持すること、データパイプラインが話者識別エラーなどを導入する可能性があること、そしてテキスト解釈の曖昧さです。
- 例えば「Today, we're discussing climate change um and its impact on global biodiversity.」という文は、「um」をフィラーとして解釈するか、別の話者の応答として解釈するかで異なります。
- また、自発性向上(温度やtop-k/top-p値の増加)とハルシネーション悪化のトレードオフが、モデルがより高いレベルの自発性を達成する能力を制限しています。
これらの議論は、ポッドキャスト生成における技術的選択の重要性と、今後の研究方向に影響を与える現在の制限を浮き彫りにしています。
次に読むべき論文は?
論文内で言及されており、MoonCastの基盤となっている、または関連する重要な論文は以下の通りです:
- VALL-E(Wang et al., 2023):ニューラルコーデック言語モデルを使用し、ゼロショットTTSで高い忠実度を達成した研究
- Seed-TTS(Anastassiou et al., 2024)とCosyVoice(Du et al., 2024a;b):離散コード生成の難しさを軽減するために単一のセマンティックコードブックを活用
- Naturalspeech 2(Shen et al., 2023):短いプロンプト音声を条件として潜在拡散を活用
- DGSLM(Nguyen et al., 2023):話者交代のダイナミクスと非言語的発声を捉えるデュアルタワートランスフォーマーアーキテクチャを使用
- CHATS(Mitsui et al., 2023):相槌、笑い、スムーズな話者交代を組み込むことで、より対話的で流暢な対話を生成
- CoVoMix(Zhang et al., 2024):ゼロショット、複数話者、複数ラウンドの対話音声生成をサポート
- SponTTS(Li et al., 2024a):TTSモデルが自発的なスタイルをより適切にモデル化し転送するのを支援するニューラルボトルネックを提案
- BaseTTS(Łajszczak et al., 2024):自発性は大量の音声データで訓練されたTTSモデルから創発する可能性があることを発見
これらの論文は、音声合成、対話生成、音声の自発性モデリングに関する重要な進展を表しており、MoonCastの技術的基盤とさらなる改善への道筋を理解するのに役立ちます。
ちょっとQA
Q: 使用されている技術スタックやモデルなどについて教えて下さい。入手できる場合はURLも教えて下さい。
MoonCastで使用されている技術スタックやモデルについて詳しく説明します。論文から抽出できる情報と、入手可能なURLを含めてまとめました。
MoonCastの技術スタックとモデル構成
音声コーデック (Speech Semantic Codec)
MoonCastは音声のセマンティック表現のために、VQ-VAE(Vector Quantized Variational Autoencoder)アプローチを採用しています。
エンコーダー・デコーダー構造:
- 12個のConvNextブロック(カーネルサイズ7、隠れ層サイズ384)
- 1024次元のSSL(Self-Supervised Learning)特徴を8次元空間に射影し、8192エントリーのコードブックで量子化
- 訓練ステップ:200,000
SSL特徴抽出:
- W2v-BERT 2.0の17層目を使用(Schneider et al., 2019; Baevski et al., 2020; Chung et al., 2021; Barrault et al., 2023)
テキスト・トゥ・セマンティックモデル
モデルアーキテクチャ:
- 2.5Bパラメータ、16層のLlama風トランスフォーマー
- 隠れ層サイズ:3072
- アテンションヘッド数:24
- 最大シーケンス長:40,000(約800秒の音声に相当)
- トークナイザー:BPE(Byte-Pair Encoding)
訓練環境:
- Megatronフレームワークを使用
- 64 A100 80GB GPUs
- テンソル並列度:8
- バッチサイズ:600
- 各カリキュラム学習ステージで2,000ステップ
推論パラメータ:
- top-k値:30
- top-p値:0.8
- 温度:0.8
音声デトークナイザー (Speech Detokenizer)
アーキテクチャ:
- 0.8Bパラメータ、10層のDiT(Diffusion Transformer)スタイルのトランスフォーマー
- 隠れ層サイズ:2048
- アテンションヘッド数:16
- チャンクサイズ:訓練時は0.5〜3秒(動的)、推論時は3秒
- Flow Matching手法を採用(DiTベース)
ODE解法:
- 各チャンクに対して30ステップ
- torchdynツールキットを使用
ボコーダー (Vocoder)
- BigVGAN:250Mパラメータのモデルを使用して、メルスペクトログラムから波形を再構築(Lee et al., 2022)
スクリプト生成モジュール
- LLMエンジン:
- 'Gemini 2.0 Pro Experimental 02-05'を使用
- ポッドキャストスクリプト生成のためのプロンプトが提供されている
データセット
訓練データ:
- 約1.0百万時間の音声から、処理後に約515,000時間
- 内訳:中国語オーディオブック(300,000時間)、中国語会話(15,000時間)、英語会話(200,000時間)
前処理パイプライン:
- 音声強化:band-split RNN音声強化モデル(Yu et al., 2022)
- 話者分離:Pyannotateツールキット
- ASR:ParaformerモデルとFunASRツールキット(Gao et al., 2022)
- 音声品質評価:DNSMOSツールキット
入手可能なリソース
論文には以下のリソースへの言及があります:
- デモページ:
- https://mooncastdemo.github.io(オーディオサンプルが利用可能)
- オープンソースコード:
- スクリプト生成プロンプト:論文の付録Cに記載
- 音声モデリングモジュール:https://github.com/jzq2000/MoonCast
- 関連ツール:
- Pyannotate:https://github.com/pyannote/pyannote-audio.git
- FunASR:https://github.com/modelscope/FunASR
- DNSMOS:https://github.com/microsoft/DNS-Challenge
MoonCastは特に2つのモジュール(スクリプト生成と音声モデリング)の組み合わせでゼロショットポッドキャスト生成を実現しています。これらは個別に利用することも可能で、著者らはオープンソースとして公開しています。モデルについては学術的な研究目的で利用できるようになっていますが、実際の利用にあたっては各リポジトリの利用規約を確認することをお勧めします。
Q: LLM駆動のスクリプト生成モジュールについて詳しく教えて下さい
LLM駆動のスクリプト生成モジュールの詳細
MoonCastのLLM駆動スクリプト生成モジュールは、テキストのみの情報源(PDFやWebページなど)から自然で会話的なポッドキャストスクリプトを生成するための重要な構成要素です。このモジュールは特に「自発性」という要素に焦点を当てており、単なる情報の読み上げではなく、実際の会話のような自然なスクリプトの生成を目指しています。
基本構成と使用LLM
MoonCastでは、スクリプト生成に「Gemini 2.0 Pro Experimental 02-05」を使用しています。これは会話的な言語スタイル、自然な対話設計、そしてより幅広いトピックカバレッジを備えていることが選定理由として挙げられています。
スクリプト生成モジュールの3つの主要コンポーネント
1. コンテンツ分析
- 機能: ユーザー入力(WebURL、PDFなど)のコンテンツを認識します
- 実装方法: LLMを組み合わせて入力内容を理解します
- 例: ユーザーの入力がWebURLの場合、ChatGPTの検索機能を使用してリンクからコンテンツを取得します
2. ブリーフィング文書生成
目的: オリジナルコンテンツから重要なポイントをカバーする概要文書を生成します
背景: 著者らの予備実験では、LLMに元のコンテンツから直接スクリプトを生成させると、不適切で曖昧で一般的なスクリプトが生成され、重要な情報が失われることが判明しました
構成: ブリーフィング文書は5つのコンポーネントを含みます:
- タイトルと著者情報
- 要約(アブストラクト)
- 主要トピック
- 重要な引用
- 結論
各コンポーネントには、フィールドに不慣れな読者が混乱するかもしれない専門用語、概念、方法を説明する追加の段落が含まれています
3. スクリプト生成
- 入力: ブリーフィング文書
- 出力: 一貫した論理、包括的な内容、豊かな感情語を特徴とするポッドキャストスクリプト
- LLMへの指示: 以下の3つの主要な領域でLLMを指導します:
- ポッドキャスト構造: 魅力的な導入部と締めくくりを作成するよう指示
- フォーマット: JSONフォーマットでの出力と2人の話者(進行役と専門ゲスト)の設定
- コンテンツ: 重要な引用や専門用語の説明を一貫した方法で含めるよう指示
自発性要素の追加
論文の中で特に注目すべき点は、「スクリプトの自発性が生成される音声の自発性に大きく影響する」という実証的な発見です。この発見に基づき、スクリプト生成モジュールには以下のような自発的要素を含めるよう特別な指示が組み込まれています:
- フィラー語: 「えーと」「あの」「みたいな」「なんていうか」「それで」など
- 応答語: 「そうですね」「なるほど」「わかりました」など
- 繰り返し: 言い直しや言い換えなど
- 非公式な文法: より会話的で自然な話し言葉
- その他の会話表現: 自然な会話で生じる様々な表現パターン
フォーマットのテクニック
スクリプト生成モジュールには、より自然な会話のリズムを表現するための特別なフォーマット技術も含まれています:
- 文中のスペースを使用して一時停止を示す
- カンマを使用して短い停止を示す
- 総じて、自動音声認識の出力に似た会話的なスタイルを目指す
プロンプト例と実装詳細
論文の付録Cには、英語と中国語の両方のブリーフィング文書生成とスクリプト生成のための詳細なプロンプトが含まれています。これらのプロンプトは以下の構造に従っています:
- タスク概要: 何を生成するのかの明確な説明
- コンテンツと構造要求: テキスト内容と構造設計に関する詳細指示
- 言語スタイル: 会話スタイル、句読点、フォーマットに関する要件
- 情報組織と論理: 参照問題、情報密度など
- 対話設計: 話者の役割、トピック順序、知識レート
- その他の要件: 外国語数字の処理、スクリプトの長さ制限など
実際の出力例
スクリプト生成モジュールは、最終的に以下のような形式のJSONリスト出力を生成します:
[ { "speaker": "1", "text": "今日のポッドキャストにようこそ。今日は、えーと、MoonCastという新しい技術について話していきたいと思います。" }, { "speaker": "2", "text": "はい、MoonCastは、なんていうか、テキストからポッドキャストを生成する新しいシステムなんですよね。" }, ... ]
ここで、"speaker"は話者のIDを示し(1がホスト、2がゲスト)、"text"はその発言内容を表します。この形式はその後、音声モデリングモジュールに渡されて実際の音声に変換されます。
まとめ
MoonCastのLLM駆動スクリプト生成モジュールは、単に情報を会話形式に変換するだけでなく、実際の自然な会話に見られる様々な言語的・非言語的特徴を取り入れることで、より自然で魅力的なポッドキャストスクリプトを生成することを目的としています。著者らの研究では、こうした自発的要素がスクリプト段階で導入されることが、最終的な合成音声の自発性と品質の両方に大きく影響することを発見しています。このモジュールは、MoonCastシステム全体の成功において非常に重要な役割を果たしています。
GitHub( https://github.com/jzq2000/MoonCast )でプロジェクト全体が公開されており、論文の付録に記載されているプロンプトと組み合わせることで、独自のポッドキャスト生成システムを構築することが可能です。
Q: 付録のプロンプトについて教えて下さい。プロンプトは日本語に翻訳してください。
MoonCastの付録プロンプト(日本語訳)
MoonCastの論文には、スクリプト生成に使用される詳細なプロンプトが付録Cに記載されています。これらは英語版と中国語版が提供されていますが、ここでは英語版のプロンプトを日本語に翻訳してご紹介します。
C.1. ブリーフィング文書生成のための英語プロンプト
### タスク説明 以下の構造に従って入力文書を要約してください。要約は創造的で、包括的であり、興味深く、珍しく、価値のある観点や情報をすべて含めてください。 - **テキスト要件**: 1. 追加情報なしで結果を直接出力してください。 2. 要約は英語で記述してください。少数の固有名詞、名前、略語は元の形式(例:中国語の文字)を保持してください。 3. 数学的な公式は含めないでください。 4. 原文のいかなる固有名詞、名前、略語も変更しないでください。一般的な翻訳がない限り、固有名詞を翻訳しないでください。固有名詞の意味を修正しようとしないでください。 5. **略語内の数字を適切に変換してください。例えば、"a2b"は"a to b"と解釈され、"a two b"ではありません;"a4b"は"a for b"であり、"a four b"ではありません;"v2"は"version two"または"second generation"を表す可能性があります。元の略語とあなたが提案する英語翻訳を提供してください。** ### タイトルと著者 - **言語要件**:英語、公式の書き言葉。 - **内容要件**:文書のタイトルと著者を提供してください。文書のテーマと著者の背景を簡潔に要約してください。重要な情報がすべて含まれ、省略がなく、十分な文脈が保持されていることを確認してください。 ### 要約 - **言語要件**:英語、公式の書き言葉。 - **内容要件**: 1. この文書が何を行ったか。 2. 同様の研究が以前に行われたかどうか。 3. 同様の研究が存在する場合、なぜこの文書がまだ必要なのか。 4. この文書がトピックにどのように具体的に取り組むか。 5. この文書がその目標をどれだけうまく達成しているか。 - **追加要件**:フィールドに不慣れな読者が混乱するかもしれない用語、概念、または方法を説明する追加の段落を含めてください。固有名詞が原文と一貫して説明されていることを確認し、略語やエンティティ名を含むすべての潜在的な混乱点をカバーしてください。 ### 主要なテーマと概念 - **言語要件**:英語、公式の書き言葉。 - **内容要件**:各テーマと概念は3W原則に従って整理されるべきです: - **What**:問題を明確に定義する。 - **Why**:問題を分析し、その根本原因を特定する。 - **How**:文書が問題にどのように対処するか説明する。 - **追加要件**: 1. 各テーマと概念が包括的であり、すべての重要な詳細を含むようにしてください。"What"と"Why"のセクションを十分に詳述してください。 2. "How"セクションでは、数学的な公式などの技術的な詳細を避けてください。一般の視聴者が理解できる言葉を使用してください。 3. テーマと概念が重複せず、明確な論理を維持していることを確認してください。 4. フィールドに不慣れな読者が混乱するかもしれない用語、概念、または方法を説明する追加の段落を含めてください。固有名詞が原文と一貫して説明されていることを確認し、略語やエンティティ名を含むすべての潜在的な混乱点をカバーしてください。 ### 重要な引用 - **言語要件**:英語、公式の書き言葉。 - **内容要件**:以下の構造に従ってコンテンツを整理してください: 1. **論点**:証明する必要があることを述べる。 2. **証拠**:論点をサポートするために使用される材料を提供する。 3. **推論**:証拠を使用して論点を証明するプロセスを説明する。 - **追加要件**: 1. すべての証拠と推論が作り物なしで原文から直接得られていることを確認してください。 2. 引用内容が完全で、単純化せずに十分な文脈を保持していることを確認してください。引用では数学的な公式の使用を避けてください。 3. フィールドに不慣れな読者が混乱するかもしれない用語、概念、または方法を説明する追加の段落を含めてください。固有名詞が原文と一貫して説明されていることを確認し、略語やエンティティ名を含むすべての潜在的な混乱点をカバーしてください。 ### 結論 - **言語要件**:英語、公式の書き言葉。 - **内容要件**:文書の最も重要で印象的な側面を強調してください。要約と比較して、このセクションは主要なテーマと概念に関連するより詳細な洞察を提供するべきです。改善のための将来の方向性、現在の応用シナリオ、既存の課題も含めることができます。
C.2. ブリーフ・トゥ・スクリプト生成のための英語プロンプト
## 1. タスク概要 提供された英語の要約テキストとトピックに関するあなたの知識に基づいて、活気のある英語のポッドキャストスクリプトを生成してください。スクリプトは交互に話す2人の話者による対話を特徴とするべきです。出力形式はJSON解析可能な**リスト**であるべきです。各話者のターンは"speaker"と"text"フィールドを含む**辞書**です。フォーマット例:`[{"speaker": "1", "text": "xxx"}]`。"speaker"フィールドは話者のアイデンティティを示し(1はホスト、2はゲスト)、"text"フィールドは話された内容です。出力は追加情報なしで直接JSONコードブロックから始めてください。 ## 2. 内容と構造 ### (1) テキスト内容 - 要約テキストにはすべての重要な情報が含まれており、包括的に選択してスクリプトに組み込む必要があります。 - 2人の話者間の対話を通じて情報を提示し、創造性を維持し、重要でない詳細を抽象化してください。例えば、リスナーは特定のテスト名よりも、タスク自体、結果、分析に関心があります。 ### (2) 構造設計 - **オープニング**:話者の名前を言及せずに、トピックを紹介し、議論内容を簡潔に説明してください。 - **主要テーマの議論**:要約テキストに基づいて重要なテーマを議論してください。要約を単に逐語的に繰り返すのではなく、それを拡張してください。 - **クロージング**:議論のハイライトを簡潔に要約し、将来または技術開発に関する展望を提供してください。 ## 3. 言語スタイル ### (1) 会話スタイル - テキストはできるだけ会話的であるべきで、自動音声認識の出力に似たスタイルを目指してください。「あの」、「えーと」、「みたいな」、「なんていうか」、「なので」、「そうですよね?」などのフィラー語を含めてください。「そうですね」、「なるほど」、「わかりました」などの応答語も含めてください。会話的な表現、繰り返し、非公式な文法なども使用してください。短い文を使用してください。要約テキストから構造化されたテキストを直接コピー&ペーストすることは避けてください。音声認識トランスクリプトに通常見られないカッコやその他の記号は避けるべきです。文中のスペースは一時停止を示します。アクセントによるホモフォンエラーがある可能性があることに注意してください。質問は非常に会話的に聞こえるべきです。特に質問において会話の詳細を組み込むことに特に注意してください。例: [ { "speaker": "1", "text": "今日のポッドキャストにようこそ。今日は、えーと、私たちの周りのすべてを変えているものについて掘り下げていきます、A I(人工知能)です。" }, { "speaker": "2", "text": "そうですね、A I(人工知能)は、なんていうか、今やどこにでもありますよね?少し考えるとワイルドですよね。" }, ... ] ### (2) 句読点 - 英語の句読点を使用してください。コンマ、ピリオド、疑問符以外の句読点の使用は避けてください。感嘆符は禁止されています。省略記号('...')、カッコ、引用符(''""など)やダッシュは禁止されています。さもなければ不適格とみなされます。マークダウン構文を使用しないでください。例えば、**太字**や*イタリック*のテキストは避けてください。プレーンテキストのみを使用してください。 - 他の人の応答によって中断された場合、文はピリオドではなくコンマで終わるべきです。 ## 4. 情報の組織と論理 ### (1) 参照の問題 - リスナーは要約テキストにアクセスできないため、参照には理解のための十分な文脈を提供する必要があります。 - 単に言い換えるのではなく、参照されたコンテンツを自分の言葉で説明してください。 - 専門用語の説明は創造的であるべきで、単に「これはどういう意味ですか?」と述べることを避けてください。例や比喩などを説明に使用できますが、比喩の背後にある根拠も明確にしてください。説明は他の話者からの質問に応じて提供することも、積極的に提供することもできます。言及されていない専門用語は説明する必要はありません。言及されている専門用語は必ずしもすぐに説明する必要はなく、他の専門用語と一緒に説明することができます。要約テキスト内の専門用語は周囲のテキストと少し異なる場合があります。コンテキストに基づいて合理的な説明を提供する必要があります。 ### (2) 情報密度 - 過度に高すぎたり低すぎたりしない、適度な情報密度を確保してください。適切な情報密度の目標は、事前知識のないリスナーが文書の目的、根拠、方法論を迅速に把握できるようにすることです。 - 情報過多を防ぐために、スクリプトは数学的な公式、テストのセットアップ、特定の実験的なメトリクスなどの詳細に深入りすることを避けるべきです。代わりに、説明には単純でより一般化された言語を使用するべきです。 - 過度に低い情報密度を避けるために、各トピックが少なくとも4回の話者の発言で議論され、単純なキーワードのリスト以上に進むようにしてください。可能な限り複数の角度からトピックを議論し、提供された要約テキストを超えてください。要約テキストは高度に一般化されているため、スクリプトはそれを詳述し、さらに詳細を議論するべきです。あなたの知識を使用して背景情報を補足し、例を提供するなどして、リスナーの理解を向上させることを自由に行ってください。 - 情報密度を高める技術: 1. 印象的な引用を組み込む。スクリプトに印象的で注目を引く文を追加してください。オリジナルのものでも他のソースからの引用でも構いません。 2. 知識コンテンツを強化する。スクリプトに知識ポイントを適切に追加して、リスナーがより多くの情報を得て報われると感じるようにしてください。 3. 新しい情報を導入する。リスナーの好奇心を刺激するために新しい概念をスクリプトに組み込んでください。特にリスナーが気づいていないが価値があると思う情報。これは重要です。 4. 逆思考を採用する。さまざまな角度からの情報を含め、リスナーの既存の視点に挑戦し、代替的な視点を提示してください。 5. コントラストとインパクトを生成する。スクリプトは、リスナーの期待とのコントラストを作り出すために、馴染みのある概念の型破り(しかし妥当な)描写を提供することができます。このコントラストは情報密度に貢献します。 - 情報密度を下げる技術: 1. 短い文を使用する:簡潔で理解しやすく、ナラティブをよりコンパクトにします。1つの文に情報が多すぎないようにしてください。 2. 詳細を説明する:曖昧で抽象的な情報はリスナーが理解を構築するのを難しくしますが、より多くの詳細はイメージの感覚を作り出し、読みやすくなります。 3. より多くのシナリオベースの説明を使用する:シナリオは具体的で視覚的です。リスナーは伝えられた情報を簡単に受け取り、感情的に触れることができます。 4. 事実についてより多く話す:事実について話すとより現実的になり、読者はより共感できるようになり、コピーの情報密度が下がります。 5. より多くの物語を伝える:あなた自身の物語、周りの物語、聞いた物語を伝えてください。物語はリスナーを場面に引き込み、聞くことに集中しやすくなります。 6. より多くの動詞と具体的な名詞を使用する:動詞と具体的な名詞はリスナーが視覚化しやすくするが、形容詞は複雑なコピーを理解するのを難しくします。 7. 数学的な公式の使用を避ける:数学的な公式は一般の理解に貢献しません。 ## 5. 対話の設計 ### (1) 話者の役割 - スクリプトにはホストとゲストが含まれています。話者1はホストで、ショーのオープニングとクロージング、質問を使って会話のペースをコントロールするのが上手で、知識を乾燥させないために生き生きとした例を使用します。話者2はゲストで、主に文書の内容を紹介する責任があり、そのフィールドで驚くべき知識の蓄えを持ち、構造化された分かりやすい方法で言語を整理するのが得意です。 - 両方の話者は熱心で陽気で、個人的な物語や例を議論に組み合わせるのが好きで、リスナーに直接の経験をもたらします。彼らは脱線した物語を議論するのを楽しんでいます。 - 2人の話者は積極的に相互作用し、「うーん」などの中断の言葉を頻繁に使用して、お互いの同意を示します。タイミングに応じて応答語を対話に挿入する必要があります。中断される前の文はピリオドではなくコンマで終わります。 - 一貫した話者の役割を確保してください。ホストが技術的な詳細を紹介したり、ゲストがホストにトピックを議論するよう促したりしないでください。 - ホストはゲストの回答に基づいてそのフィールドの理解を徐々に深めていきます。しかし、ホストは必ずしもすぐには理解できなかったり、完全に正しく理解できなかったりする場合があります。ホストは誤解を表現したり、一般の人々が持つかもしれないいくつかの質問を提起することができます。この場合、ゲストはさらにアクセスしやすい言語で説明するか、一般的な質問や誤解に具体的に答えます。この種の相互作用は、常に正しいホストとゲストよりも現実的で、リスナーが理解しやすいです。 ### (2) トピックの順序配置 - ホストは要約テキストに従ってトピックを配置し、全体から詳細へ、詳細から全体へ、原因から結果へ、技術から応用へなど、トピック間の論理的なつながりを確保します。 - ホストは会話のペースを誘導し、要約テキストの順序でトピックを議論します。ゲストはトピックの移行を妨げるべきではありません。 ### (3) 知識率 - スクリプト内の知識率は合理的でなければなりません。短時間で大量の知識を導入しすぎないでください。 ## 6. その他の要件 ### (1) 英語の数字と外国語の単語: 1. スクリプトは英語のポッドキャストコンテンツの録音に使用されます。ほとんどの数字と外国語の単語が正しく発音できるように、自然に英語にレンダリングされていることを確認してください。 2. コンテキストに応じて正しい発音を賢く判断してください。例えば、"2021"が年を表現している場合、"two thousand and twenty-one"または"twenty twenty-one"に変換するべきです。しかし、数を表現している場合は、"two thousand and twenty-one"であるべきです。いくつかの一般的でない英語の略語に関しては、コンテキストに応じて文字ごとに読む必要がある場合、モデルが単語として誤解釈するのを避けるために、各文字の間にスペースがあることを確認する必要があります。例えば、"AI"にスペースを追加して"A I"とします。例えば、"API"は"A P I"とレンダリングするべきです。 3. 少量の中国語、特に名詞は、会話の英語のコンテキスト内で自然に収まる場合は許可されています。 ### (2) スクリプトの長さ 1. 'text'値の合計の長さが3,000語を超えず、話者のターンの数が60以内であることを確認してください。さもなければ不適格とみなされます。議論する技術的な詳細とトピックの概念を選択してください。単語制限のために各トピックの議論の深さを短縮しないでください。要約テキストに限定されないでください。あなたの知識を十分に活用してください。 入力: {BRIEF} ## 再強調: 話者1はホストで、話者2はゲストです。どちらの話者も名前がありません。スクリプトのテキストはコンマ、ピリオド、疑問符のみを使用します。英語の句読点を使用してください。コンマ、ピリオド、疑問符以外の句読点の使用は避けてください。感嘆符は禁止されています。省略記号('...')、カッコ、引用符(''""など)やダッシュは禁止されています。さもなければ不適格とみなされます。各トピックの深い議論を優先してください。要約テキストに限定せず、代わりに、トピックを展開し、背景情報と説明的な例を提供して、リスナーの理解を高めるためにあなたの知識を使用してください。 録音中に正確な発音を確保するために、数字と外国語の単語が英語で自然にレンダリングされていることを確認してください。技術的なコンテキストでは、英語の略語は時々単語の代わりに数字を使用します(例えば、"a2b"は"a to b"用、"a4b"は"a for b"用)。コンテキストに基づいてこれらの略語を適切な英語のフレーズに翻訳してください。スクリプトは主に英語ですが、特に名詞の少量の中国語は、会話の流れに自然に統合される場合は許容できます。 出力:
C.3. ブリーフィング文書生成のための中国語プロンプト
中国語のプロンプトも同様の構造を持っていますが、言語が中国語になっています。内容的には英語版と同じ指示が中国語で書かれています。
C.4. ブリーフ・トゥ・スクリプト生成のための中国語プロンプト
中国語のスクリプト生成プロンプトも、基本的な指示内容は英語版と同様ですが、中国語特有の会話表現や言い回しに適応されています。
プロンプトの特徴と重要ポイント
これらのプロンプトには以下のような特徴があります:
詳細な構造化指示:各セクションが明確に定義され、何を生成すべきかについて詳細な指示が提供されています。
自発性の重視:特にスクリプト生成プロンプトでは、フィラー語や応答語、繰り返しなどの自発的な会話要素を含めることが強く強調されています。
情報密度の調整:情報を適切に伝えるための具体的な技術(情報密度を上げる/下げる方法)が詳しく説明されています。
話者役割の明確化:ホストとゲストの役割や相互作用のパターンが明確に定義されています。
テクニカルな制約:出力形式(JSONリスト)、句読点の使用制限、スクリプトの長さ制限などの技術的な制約が明示されています。
これらのプロンプトは、単なる情報の要約ではなく、実際のポッドキャストで聞かれるような自然で会話的なスクリプトを生成することを目的として慎重に設計されています。論文では、このような自発的な要素を含むスクリプトが最終的な音声の品質と自然さに大きな影響を与えることが示されています。