🌊

AIの力でPDFスライドを日本語ナレーション付き動画に自動変換!OSSツール「Longan」を作りました

に公開

PDFのプレゼン資料を、AIが生成した自然な対話形式のナレーション付き動画に変換するOSSツール「Longan(ロンガン)」をリリースしました!

完全無料で、VOICEVOXを使った高品質な日本語音声合成により、プロフェッショナルな動画を簡単に作成できます。

🎬 Longanとは?

Longanは、PDFスライドを日本語音声付きの動画に変換する完全無料のオープンソースツールです。

主な特徴

  • 📄 PDF → 動画変換: スライドと音声が完全同期
  • 🎙️ VOICEVOX音声合成: 四国めたん・ずんだもんなど18種類のキャラクターから選択
  • 💬 AI対話生成: OpenAI・Claude・Gemini・AWS Bedrockに対応
  • ✏️ Web編集機能: 生成された対話内容を自由に編集・再生成
  • 🚀 REST API搭載: 16のエンドポイントで完全自動化可能
  • 🛠️ 完全OSS: MITライセンスで商用利用・改変自由

PDF画面

🚀 デモ動画

実際にLonganで生成した動画をご覧ください:

Longan デモ動画

クリックしてYouTubeでデモ動画を視聴

🎯 なぜLonganを作ったのか?

課題:プレゼン動画作成の手間

  • 会社の資料説明動画を作るのに時間がかかりすぎる
  • ナレーション録音は緊張するし、取り直しが大変
  • 編集ソフトでの同期作業が面倒
  • 外部サービスは料金が高く、機密資料を預けるのが不安

解決:完全自動化 + OSS

Longanなら:

  1. PDFをアップロードするだけ
  2. AIが自動で対話スクリプト生成
  3. VOICEVOXが高品質な音声合成
  4. 動画が完成!

しかも完全OSSなので、社内でホスティングして機密資料も安心して扱えます。

🏢 実際のユースケース

コーポレート・サービス紹介

自社のビジネスモデルや新製品の魅力を、短い動画でわかりやすく伝達

社内研修・オンボーディング

マニュアルや研修スライドをベースにした解説動画で理解促進

技術勉強会・セミナー

プレゼン資料を参加者向けの復習コンテンツとして動画化

財務レポート・分析資料

決算説明や市場調査を視覚的に訴える動画に変換

⚙️ 設定も簡単!

設定画面

  • キャラクター選択: 18種類のVOICEVOXキャラクターから選択
  • 会話スタイル: 友達風・ビジネスライク・ラジオ風など
  • 目標時間: 動画の長さを分単位で指定
  • LLMプロバイダー: OpenAI・Claude・Gemini・AWS Bedrockに対応

✏️ 対話内容も自由に編集

対話スクリプト編集画面

  • AI再生成: スライドごとに対話内容をAIに再生成
  • 手動編集: テキストエリアで直接修正
  • スピーカー変更: 発言者を簡単に切り替え
  • CSV出力: スプレッドシートでの一括編集も可能

🚀 API・スクリプトで完全自動化

REST API(16エンドポイント)

# 動画生成API
POST /api/jobs/upload
POST /api/jobs/{id}/generate-video

# 対話編集API  
GET /api/jobs/{id}/dialogue
PUT /api/jobs/{id}/dialogue

# 音声設定API
GET /api/speakers
POST /api/voice-sample

Pythonスクリプト

# 表現豊かな音声生成
python scripts/generate_audio.py

# 高品質動画作成(フェードアウト処理・最適化された間隔)
python scripts/create_video.py

# ファイル管理
python scripts/organize_files.py

自動化の実例

  • CI/CD連携: GitHubでPDFが更新されたら自動で動画生成してS3にアップロード
  • メール自動送信: 毎週の売上レポートPDFから動画を生成して関係者にメール配信
  • スケジュール実行: cron設定で毎日決まった時間にプレゼン資料を動画化

🛠️ 簡単セットアップ

1. リポジトリのクローン

git clone https://github.com/Tdual/longan.git
cd longan

2. 起動(推奨:Docker使用)

# 起動スクリプトを使用(.envファイルが自動的に作成されます)
./start.sh

# バックグラウンドで起動する場合
./start.sh -d

これで以下のサービスが起動します:

3. 使用方法

  1. ブラウザで http://localhost:3000 にアクセス
  2. 初回起動時は設定画面でLLMプロバイダーのAPIキーを設定
  3. PDFファイルをアップロード
  4. キャラクター・会話スタイルを選択
  5. 「動画を生成」ボタンをクリック
  6. 生成された対話を確認・編集
  7. 動画をダウンロード

💰 完全無料の理由

なぜ無料にできるのか?

  • ソースコード公開: 全てのコードをGitHubで公開
  • VOICEVOX使用: 無料で使える日本語音声合成エンジン
  • セルフホスト: サーバー代やクラウド費用が不要
  • MITライセンス: 商用利用・改変・再配布すべて自由

費用が発生するのは?

AIによる対話生成機能を使用する場合のみ、各AIプロバイダーのAPIキーが必要です:

  • OpenAI (GPT-4, GPT-3.5)
  • Claude (Anthropic)
  • Google Gemini
  • AWS Bedrock

ただし、LLMの使用料金は従量課金でユーザー負担となります。

🌟 OSSだから実現できること

1. 完全無料

サブスクリプションや追加料金は一切不要

2. 完全な透明性

ソースコードを確認し、何が行われているか把握可能

3. データの完全管理

機密情報がクラウドに送信されることなく、自社サーバーで処理

4. カスタマイズ自由

自社の要件に合わせて機能追加・改変が可能

🛠️ カスタマイズ例

企業ブランディング

  • 自社ロゴやウォーターマークの自動挿入
  • コーポレートカラーに合わせたUI変更
  • 独自のオープニング/エンディング動画の追加

システム連携

  • 社内文書管理システムとの自動連携
  • Slack/Teamsへの完成通知機能
  • 動画配信プラットフォームへの自動アップロード

多言語対応

  • 英語・中国語など他言語への拡張
  • 字幕の自動生成機能
  • 多言語混在スライドの処理対応

🏗️ 技術スタック

Backend

  • FastAPI: 高速なPython Webフレームワーク
  • VOICEVOX: 日本語音声合成エンジン
  • MoviePy: 動画編集ライブラリ
  • pdf2image: PDF画像変換

Frontend

  • SvelteKit 5: モダンなWebフレームワーク
  • TypeScript: 型安全な開発
  • Tailwind CSS: ユーティリティファーストCSS

AI/LLM

  • OpenAI API: GPT-4, GPT-3.5-turbo
  • Claude API: Anthropic Claude-3
  • Google Gemini: Gemini Pro
  • AWS Bedrock: 各種LLMモデル

Infrastructure

  • Docker: コンテナ化による簡単デプロイ
  • GitHub Actions: CI/CD対応
  • S3 + CloudFront: 静的ホスティング

⚠️ VOICEVOX利用時の注意事項

生成された音声を公開で使用する際は、以下のクレジット表記が必要です:

VOICEVOX:四国めたん
VOICEVOX:ずんだもん

※ 使用したキャラクター名を必ず記載してください
※ クレジット表記はVOICEVOXの利用規約で定められています

🚀 今後の展望

短期的な改善

  • 処理速度向上: 並列処理による高速化
  • UI/UX改善: より直感的な操作画面
  • 多形式対応: PowerPoint、Keynoteファイルにも対応

長期的な展望

  • 動画テンプレート: 業界特化型テンプレートの提供
  • リアルタイム編集: ブラウザ上での動画編集機能
  • 多言語対応: 英語・中国語・韓国語への拡張
  • AI進化: より自然な対話生成、感情表現の向上

📈 コミュニティ参加募集中!

Longanは完全OSSプロジェクトです。あなたの参加をお待ちしています!

参加方法

  • Issue報告: バグや機能要望をGitHubで報告
  • プルリクエスト: コード改善や新機能の実装
  • ドキュメント: READMEや使い方ガイドの改善
  • 使用事例: 実際の活用例をコミュニティで共有

貢献例

  • 新しいVOICEVOXキャラクターの対応
  • 他の音声合成エンジンとの連携
  • 動画エフェクトやトランジションの追加
  • モバイル対応の改善

🔗 リンク集

👥 開発チーム

  • プロダクトマネージャー: tdual(ティーデュアル)
  • 開発者: Claude Code

📝 まとめ

Longanは、PDFスライドを高品質な日本語ナレーション付き動画に変換する完全無料のOSSツールです。

🎯 こんな方におすすめ

  • 企業の広報・マーケティング担当者: サービス紹介動画を手軽に作成
  • 研修担当者: 教材動画を効率的に量産
  • エンジニア: 技術発表の復習コンテンツ作成
  • 個人事業主: プロモーション動画を低コストで制作

💡 Longanの価値

  1. 時間短縮: 動画作成時間を90%削減
  2. コスト削減: 制作費用を100%削減(APIキー除く)
  3. 品質向上: プロレベルの音声品質を実現
  4. 完全自動化: REST APIで業務フローに統合可能

プレゼン資料があるなら、今すぐLonganで動画にしてみませんか?

完全無料で始められるので、ぜひお試しください!


💫 Star⭐をいただけると開発の励みになります!
🔄 RT・シェア大歓迎です!

#OSS #動画生成 #AI #VOICEVOX #FastAPI #SvelteKit #Python #JavaScript

Discussion