😸

PodcastForgeが実現する、新しいコンテンツ体験

2024/10/09に公開

今回は、生成AIを活用しPDFやテキスト形式の文章から魅力的なポッドキャスト風の音声に変換するアプリを試作してみましたので、そのツールを紹介します。

🌟 PodcastForgeが実現する、新しいコンテンツ体験

  1. 多様なコンテンツを美しい音声に: PDFやテキストファイルを、自然な会話のポッドキャストに変換
  2. AI駆動の高品質音声合成: 複数の話者による生き生きとした対話を自動生成
  3. 同期トランスクリプトで理解度アップ: 音声に完全同期したインタラクティブなトランスクリプト表示
  4. どこでも楽しめるスタンドアロン再生: 単一のHTMLファイルで、オフラインでも快適に視聴可能

従来の退屈な文書や長文レポートも、PodcastForgeを使えば魅力的な音声コンテンツに生まれ変わります。

🛠️ PodcastForgeの主要機能と技術

1. 多様なコンテンツ入力

  • 対応フォーマット: PDF、プレーンテキスト
  • 処理: PyPDFを使用してPDFからテキストを抽出

2. AI駆動の音声合成

  • 使用技術: OpenAI GPT4-o(mini) & TTS API
  • プロセス:
    1. コンテンツ解析:主要トピックと情報の抽出
    2. 対話生成:自然な会話形式への変換
    3. 音声合成:複数話者(ホスト、ゲスト)の音声生成
    4. 音声結合:連続した1つの音声ファイルに

3. インタラクティブなトランスクリプト

  • タイムスタンプ生成: OpenAI Whisper APIで単語レベルのタイミングを取得
  • 同期表示: Web Audio APIを使用し、再生時間と完全同期

4. スタンドアロンHTML出力

  • 特徴: サーバーレスで再生可能な単一HTMLファイル
  • 実装: 音声ファイルをBase64エンコードしてHTML内に埋め込み

アプリコード

今回作成したアプリのコードは以下のGithubリポジトリで公開していますので、興味がある方は手元で動かしてみてください。

PodcastForge

💡 使い方

  1. ホーム画面でPDFアップロードまたはテキスト入力
  2. 「Podcast音声の生成」ボタンをクリック
  3. AIによる解析と音声生成を待機
  4. 生成されたポッドキャストを再生、トランスクリプトを確認
  5. 必要に応じてスタンドアロンHTMLとしてエクスポート

サンプル

以下のSREに関するZenn記事を元にPodcast風音声会話を生成してみました。

https://zenn.dev/acntechjp/articles/792ac690fd0105

以下の様に、記事の内容をコピペして実行するだけです。

数分待つと、以下の様にPodcast風の音声再生画面が表示されます。

以下は、実際に再生しているデモ動画です。
大量の文章を非常にわかりやすく、聞きやすい会話形式にまとめてくれていてすごいですよね・・・。
生成AIの文章生成能力、そして音声生成の質の高さにも改めて驚かされました。

自然な抑揚、心地いい音声によって内容がスーッと入ってきやすいですよね。

https://youtu.be/thuluiqIrUw

今後のコンテンツ提供の仕方に変革が起きそうな予感がしますね。

Accenture Japan (有志)

Discussion