👂

abogenを使って日本語オーディオブックを生成するためのセットアップ手順

に公開

背景

abogenで日本語音声のオーディオブックを生成しようとしたところ、記事執筆時点で公式ドキュメントには記載されていない追加のセットアップ手順が必要だったので、記事にしておきます。

abogenとは

abogenは、ePub、PDF、テキストファイルを高品質な音声に変換し、字幕付きオーディオブックを生成するツールです。Kokoroテキスト読み上げモデルを使用して自然な音声を作成し、複数言語・音声の選択、再生速度調整、バッチ処理などの機能を提供します。

動作確認環境

  • macOS (Apple Silicon)
  • Homebrew
  • uv (Pythonパッケージマネージャー)

手順

システム依存関係のインストール

# 音声合成に必要なシステムライブラリをインストール
brew install espeak-ng

プロジェクトの初期化

# 作業用ディレクトリを作成(abogenという名前だとパッケージ名とコンフリクトするため避ける)
mkdir abogen-workspace && cd abogen-workspace

# uvプロジェクトを初期化
uv init

基本パッケージのインストール

uv add abogen

UniDic辞書のセットアップ

# UniDic辞書パッケージをインストール
uv add unidic

# 辞書データをダウンロード
uv run python -m unidic download

MeCabラッパーのインストール

# fugashiをUniDic対応でインストール
uv add 'fugashi[unidic]'

日本語音声合成ライブラリの追加

# misakiをインストール
uv add 'misaki[ja]'

abogenを起動

uv run abogen

トラブルシューティング

Unknown dictionary format, use a GenericTagger

UniDic辞書を使用し、uv run python -m unidic downloadを実行

No module named 'pyopenjtalk'

uv add 'misaki[ja]'でmisakiをインストール(pyopenjtalkも含まれる)

参考

Discussion