AIの力でPDFスライドを日本語ナレーション付き動画に自動変換!OSSツール「Longan」を作りました
PDFのプレゼン資料を、AIが生成した自然な対話形式のナレーション付き動画に変換するOSSツール「Longan(ロンガン)」をリリースしました!
完全無料で、VOICEVOXを使った高品質な日本語音声合成により、プロフェッショナルな動画を簡単に作成できます。
🎬 Longanとは?
Longanは、PDFスライドを日本語音声付きの動画に変換する完全無料のオープンソースツールです。
主な特徴
- 📄 PDF → 動画変換: スライドと音声が完全同期
- 🎙️ VOICEVOX音声合成: 四国めたん・ずんだもんなど18種類のキャラクターから選択
- 💬 AI対話生成: OpenAI・Claude・Gemini・AWS Bedrockに対応
- ✏️ Web編集機能: 生成された対話内容を自由に編集・再生成
- 🚀 REST API搭載: 16のエンドポイントで完全自動化可能
- 🛠️ 完全OSS: MITライセンスで商用利用・改変自由

🚀 デモ動画
実際にLonganで生成した動画をご覧ください:
クリックしてYouTubeでデモ動画を視聴
🎯 なぜLonganを作ったのか?
課題:プレゼン動画作成の手間
- 会社の資料説明動画を作るのに時間がかかりすぎる
- ナレーション録音は緊張するし、取り直しが大変
- 編集ソフトでの同期作業が面倒
- 外部サービスは料金が高く、機密資料を預けるのが不安
解決:完全自動化 + OSS
Longanなら:
- PDFをアップロードするだけ
- AIが自動で対話スクリプト生成
- VOICEVOXが高品質な音声合成
- 動画が完成!
しかも完全OSSなので、社内でホスティングして機密資料も安心して扱えます。
🏢 実際のユースケース
コーポレート・サービス紹介
自社のビジネスモデルや新製品の魅力を、短い動画でわかりやすく伝達
社内研修・オンボーディング
マニュアルや研修スライドをベースにした解説動画で理解促進
技術勉強会・セミナー
プレゼン資料を参加者向けの復習コンテンツとして動画化
財務レポート・分析資料
決算説明や市場調査を視覚的に訴える動画に変換
⚙️ 設定も簡単!

- キャラクター選択: 18種類のVOICEVOXキャラクターから選択
- 会話スタイル: 友達風・ビジネスライク・ラジオ風など
- 目標時間: 動画の長さを分単位で指定
- LLMプロバイダー: OpenAI・Claude・Gemini・AWS Bedrockに対応
✏️ 対話内容も自由に編集

- AI再生成: スライドごとに対話内容をAIに再生成
- 手動編集: テキストエリアで直接修正
- スピーカー変更: 発言者を簡単に切り替え
- CSV出力: スプレッドシートでの一括編集も可能
🚀 API・スクリプトで完全自動化
REST API(16エンドポイント)
# 動画生成API
POST /api/jobs/upload
POST /api/jobs/{id}/generate-video
# 対話編集API
GET /api/jobs/{id}/dialogue
PUT /api/jobs/{id}/dialogue
# 音声設定API
GET /api/speakers
POST /api/voice-sample
Pythonスクリプト
# 表現豊かな音声生成
python scripts/generate_audio.py
# 高品質動画作成(フェードアウト処理・最適化された間隔)
python scripts/create_video.py
# ファイル管理
python scripts/organize_files.py
自動化の実例
- CI/CD連携: GitHubでPDFが更新されたら自動で動画生成してS3にアップロード
- メール自動送信: 毎週の売上レポートPDFから動画を生成して関係者にメール配信
- スケジュール実行: cron設定で毎日決まった時間にプレゼン資料を動画化
🛠️ 簡単セットアップ
1. リポジトリのクローン
git clone https://github.com/Tdual/longan.git
cd longan
2. 起動(推奨:Docker使用)
# 起動スクリプトを使用(.envファイルが自動的に作成されます)
./start.sh
# バックグラウンドで起動する場合
./start.sh -d
これで以下のサービスが起動します:
- Webアプリ: http://localhost:3000
- API: http://localhost:8000
- VOICEVOX: http://localhost:50021
3. 使用方法
- ブラウザで
http://localhost:3000にアクセス - 初回起動時は設定画面でLLMプロバイダーのAPIキーを設定
- PDFファイルをアップロード
- キャラクター・会話スタイルを選択
- 「動画を生成」ボタンをクリック
- 生成された対話を確認・編集
- 動画をダウンロード
💰 完全無料の理由
なぜ無料にできるのか?
- ソースコード公開: 全てのコードをGitHubで公開
- VOICEVOX使用: 無料で使える日本語音声合成エンジン
- セルフホスト: サーバー代やクラウド費用が不要
- MITライセンス: 商用利用・改変・再配布すべて自由
費用が発生するのは?
AIによる対話生成機能を使用する場合のみ、各AIプロバイダーのAPIキーが必要です:
- OpenAI (GPT-4, GPT-3.5)
- Claude (Anthropic)
- Google Gemini
- AWS Bedrock
ただし、LLMの使用料金は従量課金でユーザー負担となります。
🌟 OSSだから実現できること
1. 完全無料
サブスクリプションや追加料金は一切不要
2. 完全な透明性
ソースコードを確認し、何が行われているか把握可能
3. データの完全管理
機密情報がクラウドに送信されることなく、自社サーバーで処理
4. カスタマイズ自由
自社の要件に合わせて機能追加・改変が可能
🛠️ カスタマイズ例
企業ブランディング
- 自社ロゴやウォーターマークの自動挿入
- コーポレートカラーに合わせたUI変更
- 独自のオープニング/エンディング動画の追加
システム連携
- 社内文書管理システムとの自動連携
- Slack/Teamsへの完成通知機能
- 動画配信プラットフォームへの自動アップロード
多言語対応
- 英語・中国語など他言語への拡張
- 字幕の自動生成機能
- 多言語混在スライドの処理対応
🏗️ 技術スタック
Backend
- FastAPI: 高速なPython Webフレームワーク
- VOICEVOX: 日本語音声合成エンジン
- MoviePy: 動画編集ライブラリ
- pdf2image: PDF画像変換
Frontend
- SvelteKit 5: モダンなWebフレームワーク
- TypeScript: 型安全な開発
- Tailwind CSS: ユーティリティファーストCSS
AI/LLM
- OpenAI API: GPT-4, GPT-3.5-turbo
- Claude API: Anthropic Claude-3
- Google Gemini: Gemini Pro
- AWS Bedrock: 各種LLMモデル
Infrastructure
- Docker: コンテナ化による簡単デプロイ
- GitHub Actions: CI/CD対応
- S3 + CloudFront: 静的ホスティング
⚠️ VOICEVOX利用時の注意事項
生成された音声を公開で使用する際は、以下のクレジット表記が必要です:
VOICEVOX:四国めたん
VOICEVOX:ずんだもん
※ 使用したキャラクター名を必ず記載してください
※ クレジット表記はVOICEVOXの利用規約で定められています
🚀 今後の展望
短期的な改善
- 処理速度向上: 並列処理による高速化
- UI/UX改善: より直感的な操作画面
- 多形式対応: PowerPoint、Keynoteファイルにも対応
長期的な展望
- 動画テンプレート: 業界特化型テンプレートの提供
- リアルタイム編集: ブラウザ上での動画編集機能
- 多言語対応: 英語・中国語・韓国語への拡張
- AI進化: より自然な対話生成、感情表現の向上
📈 コミュニティ参加募集中!
Longanは完全OSSプロジェクトです。あなたの参加をお待ちしています!
参加方法
- Issue報告: バグや機能要望をGitHubで報告
- プルリクエスト: コード改善や新機能の実装
- ドキュメント: READMEや使い方ガイドの改善
- 使用事例: 実際の活用例をコミュニティで共有
貢献例
- 新しいVOICEVOXキャラクターの対応
- 他の音声合成エンジンとの連携
- 動画エフェクトやトランジションの追加
- モバイル対応の改善
🔗 リンク集
- 公式サイト: https://longan-ai.com/
- GitHub: https://github.com/Tdual/longan
- デモ動画: https://youtu.be/hmOCkK2v5nM
- 開発者Twitter: https://x.com/tdualdir
👥 開発チーム
- プロダクトマネージャー: tdual(ティーデュアル)
- 開発者: Claude Code
📝 まとめ
Longanは、PDFスライドを高品質な日本語ナレーション付き動画に変換する完全無料のOSSツールです。
🎯 こんな方におすすめ
- 企業の広報・マーケティング担当者: サービス紹介動画を手軽に作成
- 研修担当者: 教材動画を効率的に量産
- エンジニア: 技術発表の復習コンテンツ作成
- 個人事業主: プロモーション動画を低コストで制作
💡 Longanの価値
- 時間短縮: 動画作成時間を90%削減
- コスト削減: 制作費用を100%削減(APIキー除く)
- 品質向上: プロレベルの音声品質を実現
- 完全自動化: REST APIで業務フローに統合可能
プレゼン資料があるなら、今すぐLonganで動画にしてみませんか?
完全無料で始められるので、ぜひお試しください!
💫 Star⭐をいただけると開発の励みになります!
🔄 RT・シェア大歓迎です!
#OSS #動画生成 #AI #VOICEVOX #FastAPI #SvelteKit #Python #JavaScript

Discussion