🛠
ChatGPTでVOICEROID2の作業を効率化するWebアプリを作ってみた～その3 改良編～

2025/06/24に公開
 🛠 ChatGPTでVOICEROID2の作業を効率化するWebアプリを作ってみた～その3 改良編～前回の記事では、ChatGPTを活用して「VOICEROID2をWebアプリから制御する」構想とChatGPTを活用して環境構築をしてく過程を紹介しました。

今回はいよいよ、実際にアプリを構築して動かすまでの過程をまとめます。
開発中はChatGPTと会話しながら進めたリアルな記録を元にしているので、同じように構築してみたい方にも参考になるはずです。

 🚀 今回の改良内容ファイルの保存先を自由に設定できるように修正

　→ 現在はE:\A_動画編集素材\ボイス\琴葉葵に保存されるようになっていますが、任意のパス
AviUtlとの連携

　→ 私は普段PSDToolKitを使ってAviUtlで動画編集を行っているため、音声ファイルを保存したうえで同時にexoファイル（AviUtlのインポート用の設定ファイル）も生成できるようにしていきます。

 📊 今回作成するのWebアプリの簡単な構成図前回の記事はこちら

https://zenn.dev/pwrengineer/articles/3315387c142ab5

 🔧 ファイルの保存先を自由に設定できるように修正音声ファイルの保存先で任意のパスを指定できるようにします。
# 現在、savePathが固定になってしまっているので自由に選択できるようにしてください
-- 
from flask import Flask, request, jsonify
from flask_cors import CORS
import subprocess
import os

app = Flask(__name__)
CORS(app)

SAVE_DIR = r"E:\A_動画編集素材\ボイス\琴葉葵"
TEXT_FILE = "genkou.txt"
ASSISTANT_COMMAND = "SeikaSay2"

@app.route('/generate', methods=['POST'])
def generate():
    data = request.json
    text = data.get('text', '')
    cid = data.get('cid', '2002')
    speed = data.get('speed', '1.3')
    pitch = data.get('pitch', '1.1')
    emotion = data.get('emotion', '喜び')
    emotion_value = data.get('emotion_value', '0.2')

    if not text:
        return jsonify({"error": "text is required"}), 400

    # ① テキストファイル作成
    text_path = os.path.join(SAVE_DIR, TEXT_FILE)
    with open(text_path, 'w', encoding='utf-8') as f:
        f.write(text)

    # ② コマンド作成
    command = [
        ASSISTANT_COMMAND,
        "-cid", str(cid),
        "-speed", str(speed),
        "-pitch", str(pitch),
        "-emotion", emotion, str(emotion_value),
        "-savepath", SAVE_DIR,
        "-f", text_path
    ]

    try:
        # ③ コマンド実行
        result = subprocess.run(command, capture_output=True, text=True, shell=True)
        if result.returncode != 0:
            print(result.stderr)  # ログにエラー出しておく
            return jsonify({"error": result.stderr}), 500
        return jsonify({"message": "音声生成成功", "stdout": result.stdout})
    except Exception as e:
        print(e)
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(port=5000)
ChatGPTの回答
!了解しました！

現在固定されている SAVE_DIR を、クライアント（Vue）から自由に指定できるように修正しましょう。

 ✅ ゴール今のコードは保存先パス（SAVE_DIR）が サーバー側に固定
これを、リクエストのJSONで渡すことで、動的に保存先を変更できるようにします

 ✅ 修正後の server.py（差分含めて全体を提示）from flask import Flask, request, jsonify
from flask_cors import CORS
import subprocess
import os

app = Flask(__name__)
CORS(app)

TEXT_FILE = "genkou.txt"
ASSISTANT_COMMAND = "SeikaSay2"  # 正しい実行名に注意（seikasay2 なら小文字）

@app.route('/generate', methods=['POST'])
def generate():
    data = request.json
    text = data.get('text', '')
    cid = data.get('cid', '2002')
    speed = data.get('speed', '1.3')
    pitch = data.get('pitch', '1.1')
    emotion = data.get('emotion', '喜び')
    emotion_value = data.get('emotion_value', '0.2')
    save_path = data.get('savepath')  # ← クライアント側から受け取る

    if not text:
        return jsonify({"error": "text is required"}), 400

    if not save_path:
        return jsonify({"error": "savepath is required"}), 400

    if not os.path.exists(save_path):
        try:
            os.makedirs(save_path)
        except Exception as e:
            return jsonify({"error": f"保存先フォルダを作成できませんでした: {str(e)}"}), 500

    # テキストファイル作成
    text_path = os.path.join(save_path, TEXT_FILE)
    with open(text_path, 'w', encoding='utf-8') as f:
        f.write(text)

    # コマンド作成（文字列化）
    command = f'{ASSISTANT_COMMAND} -cid {cid} -speed {speed} -pitch {pitch} -emotion {emotion} {emotion_value} -savepath "{save_path}" -f "{text_path}"'

    try:
        result = subprocess.run(command, capture_output=True, text=True, shell=True)
        if result.returncode != 0:
            print(result.stderr)
            return jsonify({"error": result.stderr}), 500
        return jsonify({"message": "音声生成成功", "stdout": result.stdout})
    except Exception as e:
        print(e)
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(port=5000)

 ✅ クライアント（Vue）側で追加する内容Vue から送るデータに savepath を追加します：
await axios.post('http://localhost:5000/generate', {
  text: text.value,
  cid: cid.value,
  speed: speed.value,
  pitch: pitch.value,
  emotion: emotion.value,
  emotion_value: emotion_value.value,
  savepath: savepath.value  // ← 新たにバインドした変数
})
HTML側に新たに追加：
<div>
  <label>保存先フォルダの絶対パス (savepath)</label><br>
  <input v-model="savepath" placeholder="例：E:\\A_動画編集素材\\ボイス\\任意フォルダ">
</div>
script setup にも追加：
const savepath = ref('')

 ✅ 補足：パスの扱いについての注意点（Windows）E:\A_動画編集素材\ボイス\フォルダ名 のように「バックスラッシュ（\）」を使う場合は、2重にするか「/」に置き換えるのが安全です
例：E:\\path\\to\\folder
あるいは：E:/path/to/folder

 ✅ まとめ

修正ポイント
内容


Python側

SAVE_DIR を固定せず、リクエストJSONから savepath を受け取る

Vue側

savepath を入力フォーム＋POST内容に追加

安全対策

savepath の有無・存在確認・ディレクトリ作成をサーバー側で対応

💬

この修正で、ユーザーが自由に保存先フォルダを指定できるようになります！

試してみてうまくいったか、よかったら教えてくださいね！✨

こちらが実際に動かしてみた様子です。

一番下の欄に保存先フォルダのパスを指定できるようになっています。

画像の保存先を指定して動かしてみます。

しっかりと指定したフォルダに保存されています


 🎨 AviUtlとの連携
 ✂️ 私が普段使っている動画編集ソフト：AviUtl音声合成とあわせて動画編集を行う際、私は「AviUtl」というフリーの動画編集ソフトを使っています。

とても軽量で扱いやすく、有志の方が開発したプラグインを組み合わせることで非常に強力な機能拡張が可能なのが最大の魅力です。
その中でも、今回特に取り上げたいのが次のプラグインです。

 🧚 PSDToolKitとは？PSDToolKit は、VOICEROIDなどで生成した音声に合わせて**PSD形式の立ち絵をアニメーション（口パク・まばたき・表情切り替えなど）**させることができる、非常に便利なAviUtlプラグインです。
下記のような表情アニメーションやキャラクターの動作を、音声にシンクロさせて簡単に再現できます。
また、タイムラインでの見た目はこのようになります：
このプラグインのおかげで、音声さえあればキャラがしゃべっているようなアニメ動画をサクサク作れるのです。
詳細な活用例や使い方は、以下の方の解説も非常に参考になりますので、ご紹介させていただきます：

📘 https://taktk2525.hatenablog.com/entry/ar1717675
最高の立ち絵はふにちか様のものを利用させていただいております。

https://seiga.nicovideo.jp/seiga/im9432587

 🎯 今回Webアプリで作る機能の目的AviUtlでは、タイムラインの各オブジェクト（テキストや画像など）を .exo という独自形式で書き出すことができます。

逆に言えば、.exoファイルを自動で生成できれば、AviUtlにそのまま読み込ませて即編集に使うことが可能になります。
今回の目標は以下のとおりです：
VOICEROID2で生成した音声ファイルに合わせて
PSDToolKitに適したexoファイルも同時に自動出力し
AviUtlでそのまま読み込める状態まで仕上げる
つまり、ChatGPT + Webアプリ + VOICEROID + PSDToolKit + AviUtl のシームレスな連携を実現するためのステップに入っていきます。

 📁 生成するexoファイルのフォーマット調査
 🔍 まずは形式を知るところからPSDToolKitとAviUtlを連携させるには、音声と同期した.exoファイルを自動生成する必要があります。
まず手始めに、exoファイルの形式や中身を調査するところからスタートしました。

 🧰 VoiceroidUtilを利用して調査開始今回の調査にあたっては、普段から愛用している「VoiceroidUtil」を活用させていただきました 🙇‍♂️
このツールは、VOICEROIDで出力した音声と合わせて .exo ファイルも自動で生成してくれるという超便利な機能があります。
簡潔な手順としては：
音声保存
PSDToolKit連携用の .exo ファイル出力
を一連の流れで行ってくれるため、この出力形式を参考にして自作のWebアプリ側でも同様の.exo構造を再現することを目指します。

 📄 exoファイルはテキスト形式！「exoファイルって特殊なバイナリなのかな…？」と思いきや、実際にはプレーンテキスト形式で書かれているため、中身を簡単にエディタで確認できます。
たとえば以下のような情報が含まれています：
動画サイズやフレームレートなどの基本設定
各レイヤーやオブジェクトの配置・タイミング
テキスト・音声・画像の情報（位置、サイズ、開始/終了など）
こうした情報をもとに、ChatGPTと連携しながら .exo を自動生成できる仕組みを考えていきます。
ちなみに以下が今回目標にする形式です（実際にVoiceroidUtil経由で保存してみました）
[exedit]
width=1920
height=1080
rate=30
scale=1
length=58
audio_rate=44100
audio_ch=2
[0]
start=1
end=58
layer=1
group=1
overlay=1
camera=0
[0.0]
_name=テキスト
サイズ=34
表示速度=0.0
文字毎に個別オブジェクト=0
移動座標上に表示する=0
自動スクロール=0
B=0
I=0
type=0
autoadjust=0
soft=1
monospace=0
align=0
spacing_x=0
spacing_y=0
precision=1
color=ffffff
color2=000000
font=MS UI Gothic
text=53308c306f30c630b930c8306730593000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
[0.1]
_name=標準描画
X=0.0
Y=0.0
Z=0.0
拡大率=100.00
透明度=0.0
回転=0.00
blend=0
[1]
start=1
end=58
layer=2
group=1
overlay=1
audio=1
[1.0]
_name=音声ファイル
再生位置=0.00
再生速度=100.0
ループ再生=0
動画ファイルと連携=0
file=E:\保存先\250622_104411_琴葉_葵_これはテストです.wav
[1.1]
_name=標準再生
音量=100.0
左右=0.0
次章では、ChatGPTとのプロンプト例と、それに基づく.exoファイルの自動生成ロジックを具体的に紹介していきます。

 🧠 exoファイル実装ロジックの生成実際に .exo ファイルを生成するロジックを組み込んでいきます。

ここまでの実装（音声ファイルの保存・パスの指定）は比較的シンプルで、エラーも少なくスムーズに構築できていました。
しかし、.exo ファイルの生成については、いくつかの点でエラーが発生しました。
今回のテーマのひとつは「ChatGPTを活用して開発する」こと。

エラーのたびにChatGPTに相談し、原因の特定から修正方法の提案まで助けてもらいながら実装を進めています。
以下では、どのように .exo ファイルの自動生成処理を構築していったか、実際のエラー対応も交えてご紹介していきます。
!実際に発生するエラーはご利用の環境によって異なります。

あくまでChatGPTの回答を投稿者なりに解釈して確認しながらすすめていますので、本記事の内容はあくまで参考程度に御覧ください。

万が一、なにか不利益を被った場合でも、責任は負いかねますのでご了承ください。

 ①まずは可能な限り、仕様を伝える音声ファイルの保存が実装できたら、以下のようなプロンプトを投げかけてみました。
最初のプロンプト# 音声が保存されたら、同時に以下のテンプレートに従ったexoファイルも作成したいです。
## 作成仕様は以下になります。
- UTF-8のテキストファイル
- {length_wavefile}には保存されたwavファイルの長さ(フレーム数)が入る
- {text_utf-16LE}は読み上げたテキストをUTF-16LEでエンコードしたもの
- {saveWaveFile}は保存されたwavファイルの名前(絶対パスで指定する)
- 作成されたwavファイルの数だけ作成する
- こちらがexoファイルのテンプレートです
[exedit]
width=1920
height=1080
rate=30
scale=1
length={length_wavefile}
audio_rate=44100
audio_ch=2
[0]
start=1
end={length_wavefile}
layer=1
group=1
overlay=1
camera=0
[0.0]
_name=テキスト
サイズ=34
表示速度=0.0
文字毎に個別オブジェクト=0
移動座標上に表示する=0
自動スクロール=0
B=0
I=0
type=0
autoadjust=0
soft=1
monospace=0
align=0
spacing_x=0
spacing_y=0
precision=1
color=ffffff
color2=000000
font=MS UI Gothic
text={text_utf-16LE}
[0.1]
_name=標準描画
X=0.0
Y=0.0
Z=0.0
拡大率=100.00
透明度=0.0
回転=0.00
blend=0
[1]
start=1
end={length_wavefile}
layer=2
group=1
overlay=1
audio=1
[1.0]
_name=音声ファイル
再生位置=0.00
再生速度=100.0
ループ再生=0
動画ファイルと連携=0
file={saveWaveFile}
[1.1]
_name=標準再生
音量=100.0
左右=0.0
## wavファイルは以下の形式で保存されます。
-SAY{nnnnnn}_{cid}.txt
### {nnnnnn}は連番(例、000001、000002、....、999999)
### genkou.txtの改行ごとに1wavファイルが保存される
### {cid}は連携されるcidです。(例、2001、2002)

 ✅ このプロンプトの工夫したポイントなかなか複雑な実装をするので、以下の点に注意してプロンプトを作成しています。

基本的には生成されるファイルの仕様、連動してほしいwavファイルがどのような形で保存されるのか等を鳴鶴に伝えることを意識しました。
音声と同期したexoファイルを自動生成する仕様を明示している

→ wavファイルごとにテキストと音声オブジェクトを自動挿入できる構成
各プレースホルダの役割が明確

{length_wavefile}：wavファイルのフレーム長を自動挿入

{text_utf-16LE}：読み上げたテキストをUTF-16LEで埋め込む

{saveWaveFile}：音声ファイルの絶対パスを挿入
wavファイル生成との連携が明確
1行ごとに1ファイル作成（セリフ単位）
ファイル名の命名ルール（連番＋cid）を伝えている
exoファイルのテンプレートを提示
調査したexoファイルの構造をそのまま提示し、なにを作成したいかを具体化
ファイルフォーマット・文字コードも明記
exoファイルはUTF-8、テキストはUTF-16LE指定といった細かな実装要件まで指示済み
ChatGPTの回答
!了解しました！

以下の仕様に従って、AssistantSeikaで生成された音声ファイルごとに対応する .exo ファイルを自動生成するPythonコードの拡張案を提案します。

 ✅ あなたの仕様整理（要点）

項目
内容


対象

genkou.txtの各行 = 1つの音声ファイル

ファイル名

SAY{nnnnnn}_{cid}.wav（連番 + cid）

EXO出力先
各 .wav に対して .exo ファイル

EXO形式
AviUtl用、テンプレートをベースに変数を置換

文字コード
EXOファイルは UTF-8 で保存、text部はUTF-16LEでエンコードした文字列（ただしそのまま埋め込む）

音声長

.wavファイルのフレーム数（例：長さ[s] × フレームレート30）


 ✅ 必要な技術要素
genkou.txt を1行ずつ読み込む
各行ごとに seikasay2 を実行して .wav を保存

.wav のフレーム長（サンプリングレート44100 → フレーム30fps変換）
テンプレートの {} を埋めて .exo を出力（UTF-8保存）

 ✅ 実装スケルトン（概要）以下は関数の構造だけ示します。

実装が必要な箇所も含めて順に整備していきます。
import os
import subprocess
from pathlib import Path
import wave

TEMPLATE = """[exedit]
width=1920
height=1080
rate=30
scale=1
length={length_wavefile}
audio_rate=44100
audio_ch=2
[0]
start=1
end={length_wavefile}
layer=1
group=1
overlay=1
camera=0
[0.0]
_name=テキスト
サイズ=34
表示速度=0.0
文字毎に個別オブジェクト=0
移動座標上に表示する=0
自動スクロール=0
B=0
I=0
type=0
autoadjust=0
soft=1
monospace=0
align=0
spacing_x=0
spacing_y=0
precision=1
color=ffffff
color2=000000
font=MS UI Gothic
text={text_utf-16LE}
[0.1]
_name=標準描画
X=0.0
Y=0.0
Z=0.0
拡大率=100.00
透明度=0.0
回転=0.00
blend=0
[1]
start=1
end={length_wavefile}
layer=2
group=1
overlay=1
audio=1
[1.0]
_name=音声ファイル
再生位置=0.00
再生速度=100.0
ループ再生=0
動画ファイルと連携=0
file={saveWaveFile}
[1.1]
_name=標準再生
音量=100.0
左右=0.0
"""

def count_frames(wav_path: str) -> int:
    """wavのサンプル数をフレーム数に変換（30fps）"""
    with wave.open(wav_path, 'rb') as wf:
        frames = wf.getnframes()
        framerate = wf.getframerate()
        duration = frames / framerate  # 秒
        return int(duration * 30)  # フレーム変換

def save_exo(wav_path: str, text: str, exo_path: str):
    """wavと対応するEXOファイルを出力"""
    frame_length = count_frames(wav_path)
    exo_text = TEMPLATE.format(
        length_wavefile=frame_length,
        text_utf-16LE=text,
        saveWaveFile=wav_path.replace("\\", "\\\\")
    )
    with open(exo_path, 'w', encoding='utf-8') as f:
        f.write(exo_text)

 ✅ 実行の流れ（イメージ）genkou.txt を読み込み（各行：1セリフ）
各行に対して：
連番管理（000001からスタート）

seikasay2で .wav を保存（ファイル名に連番とcid）

.exo ファイルを同じ場所に出力

 ✅ 次にやること上記スケルトンを含めて server.py で処理を統合する
連番をどう管理するか（既存ファイルスキャンして最大値＋1）

text_utf-16LE の扱い（AviUtlでは通常の文字列埋め込みでOKか確認）
💬

ここまでの提案、仕様に合っているかご確認いただけますか？

OKであれば、この機能をserver.pyに統合した完全版コードをすぐお渡しできます！

👉【はい／少し修正したい】と教えてください！

ここまでの提案、仕様に合っているかご確認いただけますか？

OKであれば、この機能をserver.pyに統合した完全版コードをすぐお渡しできます！

👉【はい／少し修正したい】と教えてください！
とのことなので、このまま実装をしてもらおうと思います。

以下、プロンプトです。（text_utf-16LEだけ、少し認識違いも発生しそうだったので補足しました）
# はい ## 以下について、エンコードした結果(16進数文字列)をそのままテキストに埋め込めばよいです。 
- text_utf-16LE の扱い（AviUtlでは通常の文字列埋め込みでOKか確認） 
### 例、テスト→c630b930c830
ChatGPTの回答
!了解しました！

AviUtl用の .exo ファイル内 text= に記載する内容は、

UTF-16LEでエンコード → バイナリを16進数文字列に変換して埋め込むというルールですね。

 ✅ 目的の仕様再確認（text_utf-16LE）例：テキスト「テスト」
UTF-16LE エンコード → b'\xc6\x30\xb9\x30\xc8\x30'
これを 16進数文字列化 → c630b930c830

.exo テンプレートの {text_utf-16LE} にこの文字列を埋め込む

 ✅ 実装コード例（エンコード関数）Pythonでこの変換を行う関数はこちらです：
def encode_utf16le_hex(text: str) -> str:
    """文字列をUTF-16LEでエンコードし、16進数文字列に変換"""
    return text.encode('utf-16le').hex()
使用例：
>>> encode_utf16le_hex("テスト")
'c630b930c830'

 ✅ 修正後：save_exo()関数内の変更点def save_exo(wav_path: str, text: str, exo_path: str):
    """wavと対応するEXOファイルを出力"""
    frame_length = count_frames(wav_path)
    text_hex = encode_utf16le_hex(text)  # ←ここで変換

    exo_text = TEMPLATE.format(
        length_wavefile=frame_length,
        text_utf-16LE=text_hex,
        saveWaveFile=wav_path.replace("\\", "\\\\")
    )

    with open(exo_path, 'w', encoding='utf-8') as f:
        f.write(exo_text)

 ✅ 次のステップこの変換ロジックを server.py に統合し、

genkou.txt を読み込む
各行に対して .wav ＋ .exo を生成
自動連番（SAY000001_2001.wav）をつける
という一連の処理を完成させるコードを仕上げます。
💬

この方針で問題なければ、完成版のコード統合案を提示します！
👉 よろしいでしょうか？【はい／調整したい点がある】

この方針で問題なければ、完成版のコード統合案を提示します！

👉 よろしいでしょうか？【はい／調整したい点がある】
とのことなので、このまま続けてもらいましょう！

音声ファイルの保存自体はSeikaSay2を完全に頼る形式のため、その辺を改めて細く説明しています。

以下のプロンプトで補足しています。

こんな感じでやり取りしながら、ChatGPTの理解を補強しながら、進めていくことも重要なのかもしれませんね。
# 以下はSeikaSay2コマンドが実施します。
# そのため、exoファイルを生成するだけでOKです。
各行に対して .wavを生成
自動連番（SAY000001_2001.wav）をつける
ChatGPTの回答
!了解しました！

つまり、.wavファイルはすでに SeikaSay2 コマンドによって自動生成されているので、

あなたが求めているのは：

 ✅ ゴール（明確化）既に生成された .wav ファイル群に対して、対応する .exo ファイルを自動生成するPythonスクリプトを作成すること

 ✅ 入力前提指定された保存ディレクトリに、すでに .wav ファイルがある（形式：SAY000001_2001.wav）
同じディレクトリに genkou.txt がある（各行のテキストが、wavファイル1つと対応）

 ✅ 出力内容各 .wav に対して、同じ名前で .exo ファイルを生成（例：SAY000001_2001.exo）
.exo ファイル内には：
対応する .wav のフレーム長
対応する genkou.txt の1行を UTF-16LE→16進文字列に変換して埋め込む

 ✅ 完全版スクリプト（generate_exo_from_wav.py）import os
import wave

TEMPLATE = """[exedit]
width=1920
height=1080
rate=30
scale=1
length={length_wavefile}
audio_rate=44100
audio_ch=2
[0]
start=1
end={length_wavefile}
layer=1
group=1
overlay=1
camera=0
[0.0]
_name=テキスト
サイズ=34
表示速度=0.0
文字毎に個別オブジェクト=0
移動座標上に表示する=0
自動スクロール=0
B=0
I=0
type=0
autoadjust=0
soft=1
monospace=0
align=0
spacing_x=0
spacing_y=0
precision=1
color=ffffff
color2=000000
font=MS UI Gothic
text={text_utf-16LE}
[0.1]
_name=標準描画
X=0.0
Y=0.0
Z=0.0
拡大率=100.00
透明度=0.0
回転=0.00
blend=0
[1]
start=1
end={length_wavefile}
layer=2
group=1
overlay=1
audio=1
[1.0]
_name=音声ファイル
再生位置=0.00
再生速度=100.0
ループ再生=0
動画ファイルと連携=0
file={saveWaveFile}
[1.1]
_name=標準再生
音量=100.0
左右=0.0
"""

def encode_utf16le_hex(text: str) -> str:
    return text.encode('utf-16le').hex()

def count_frames(wav_path: str) -> int:
    with wave.open(wav_path, 'rb') as wf:
        frames = wf.getnframes()
        framerate = wf.getframerate()
        duration = frames / framerate
        return int(duration * 30)

def generate_exo_files_from_wavs(save_dir: str, cid: str):
    genkou_path = os.path.join(save_dir, "genkou.txt")
    if not os.path.exists(genkou_path):
        print("genkou.txt が見つかりません")
        return

    with open(genkou_path, 'r', encoding='utf-8') as f:
        lines = [line.strip() for line in f if line.strip()]

    for idx, text in enumerate(lines):
        serial = f"{idx+1:06}"
        wav_name = f"SAY{serial}_{cid}.wav"
        wav_path = os.path.join(save_dir, wav_name)

        if not os.path.exists(wav_path):
            print(f"{wav_name} が見つかりません。スキップします。")
            continue

        exo_name = f"SAY{serial}_{cid}.exo"
        exo_path = os.path.join(save_dir, exo_name)

        frame_length = count_frames(wav_path)
        encoded_text = encode_utf16le_hex(text)
        exo_content = TEMPLATE.format(
            length_wavefile=frame_length,
            text_utf-16LE=encoded_text,
            saveWaveFile=wav_path.replace("\\", "\\\\")
        )

        with open(exo_path, 'w', encoding='utf-8') as exo_file:
            exo_file.write(exo_content)
        print(f"{exo_name} を生成しました。")

# 使用例
if __name__ == "__main__":
    target_dir = r"E:\A_動画編集素材\ボイス\琴葉葵"  # ← ここを自由に変更可
    generate_exo_files_from_wavs(target_dir, cid="2002")

 ✅ 使い方
genkou.txt と .wav が揃ったフォルダ（例：E:\A_動画編集素材\ボイス\琴葉葵）を指定
このスクリプトを実行するだけで .exo ファイルが生成されます

cid は実行時に変更可能（例：2001, 2002）
💬

このスクリプトを server.py に組み込む or 別スクリプトで使うかは用途次第です。
必要なら「Flask API化して、Vueから生成指示を出す」バージョンも作成可能です！

👉 統合したい／これで十分、どちらでしょうか？

このスクリプトを server.py に組み込む or 別スクリプトで使うかは用途次第です。

必要なら「Flask API化して、Vueから生成指示を出す」バージョンも作成可能です！

👉 統合したい／これで十分、どちらでしょうか？

今回は音声ファイル保存の流れで実装してほしいので、server.pyに組み込んでもらうことにします。

自分が考慮できなかった部分まで提案してくれるのは、生成AIの良いところですね。

というわけで、以下のプロンプトでさらに続けます。
プロンプト# server.pyに組み込んでください。
# exoファイルは"save_path"に保管してください。
## 以下が現在のserver.pyです。
- server.py
from flask import Flask, request, jsonify
from flask_cors import CORS
import subprocess
import os

app = Flask(__name__)
CORS(app)

TEXT_FILE = "genkou.txt"
ASSISTANT_COMMAND = "SeikaSay2"  # 正しい実行名に注意（seikasay2 なら小文字）

@app.route('/generate', methods=['POST'])
def generate():
    data = request.json
    text = data.get('text', '')
    cid = data.get('cid', '2002')
    speed = data.get('speed', '1.3')
    pitch = data.get('pitch', '1.1')
    emotion = data.get('emotion', '喜び')
    emotion_value = data.get('emotion_value', '0.2')
    save_path = data.get('savepath')  # ← クライアント側から受け取る

    if not text:
        return jsonify({"error": "text is required"}), 400

    if not save_path:
        return jsonify({"error": "savepath is required"}), 400

    if not os.path.exists(save_path):
        try:
            os.makedirs(save_path)
        except Exception as e:
            return jsonify({"error": f"保存先フォルダを作成できませんでした: {str(e)}"}), 500

    # テキストファイル作成
    text_path = os.path.join(save_path, TEXT_FILE)
    with open(text_path, 'w', encoding='utf-8') as f:
        f.write(text)

    # コマンド作成（文字列化）
    command = f'{ASSISTANT_COMMAND} -cid {cid} -speed {speed} -pitch {pitch} -emotion {emotion} {emotion_value} -savepath "{save_path}" -f "{text_path}"'

    try:
        result = subprocess.run(command, capture_output=True, text=True, shell=True)
        if result.returncode != 0:
            print(result.stderr)
            return jsonify({"error": result.stderr}), 500
        return jsonify({"message": "音声生成成功", "stdout": result.stdout})
    except Exception as e:
        print(e)
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(port=5000)

このプロンプトのポイントとして、実際に自分がコーディングしているserver.pyを伝えています。

ほぼほぼ、ChatGPTの言う通りに作っているのですが、コメントアウトだったり、 SeikaSay2コマンドの大文字、小文字だったりを若干変えたりしているので、念の為、実際に動かして、成功しているソースをそのまま再認識させています。

そして、以下がその回答です。
ChatGPTの回答
!以下に、EXOファイルの自動生成機能を統合した server.py の完全版を提示します。

SeikaSay2 によって .wav ファイルが生成されたあと、同じ save_path 内に .exo ファイルも作成されます。

 ✅ 更新ポイント
generate() の最後に generate_exo_files_from_wavs() を呼び出す

.wav ↔ genkou.txt の1行ずつ対応

.exo を同一フォルダに出力
16進文字列のテキスト埋め込み、フレーム数取得を実装

 ✅ 修正済み server.py
from flask import Flask, request, jsonify
from flask_cors import CORS
import subprocess
import os
import wave

app = Flask(__name__)
CORS(app)

TEXT_FILE = "genkou.txt"
ASSISTANT_COMMAND = "SeikaSay2"  # 正しい実行名に注意

EXO_TEMPLATE = """[exedit]
width=1920
height=1080
rate=30
scale=1
length={length_wavefile}
audio_rate=44100
audio_ch=2
[0]
start=1
end={length_wavefile}
layer=1
group=1
overlay=1
camera=0
[0.0]
_name=テキスト
サイズ=34
表示速度=0.0
文字毎に個別オブジェクト=0
移動座標上に表示する=0
自動スクロール=0
B=0
I=0
type=0
autoadjust=0
soft=1
monospace=0
align=0
spacing_x=0
spacing_y=0
precision=1
color=ffffff
color2=000000
font=MS UI Gothic
text={text_utf-16LE}
[0.1]
_name=標準描画
X=0.0
Y=0.0
Z=0.0
拡大率=100.00
透明度=0.0
回転=0.00
blend=0
[1]
start=1
end={length_wavefile}
layer=2
group=1
overlay=1
audio=1
[1.0]
_name=音声ファイル
再生位置=0.00
再生速度=100.0
ループ再生=0
動画ファイルと連携=0
file={saveWaveFile}
[1.1]
_name=標準再生
音量=100.0
左右=0.0
"""

def encode_utf16le_hex(text: str) -> str:
    return text.encode('utf-16le').hex()

def count_frames(wav_path: str) -> int:
    with wave.open(wav_path, 'rb') as wf:
        frames = wf.getnframes()
        framerate = wf.getframerate()
        duration = frames / framerate
        return int(duration * 30)

def generate_exo_files_from_wavs(save_dir: str, cid: str):
    genkou_path = os.path.join(save_dir, TEXT_FILE)
    if not os.path.exists(genkou_path):
        print("genkou.txt が見つかりません")
        return

    with open(genkou_path, 'r', encoding='utf-8') as f:
        lines = [line.strip() for line in f if line.strip()]

    for idx, text in enumerate(lines):
        serial = f"{idx+1:06}"
        wav_name = f"SAY{serial}_{cid}.wav"
        wav_path = os.path.join(save_dir, wav_name)

        if not os.path.exists(wav_path):
            print(f"{wav_name} が見つかりません。スキップします。")
            continue

        exo_name = f"SAY{serial}_{cid}.exo"
        exo_path = os.path.join(save_dir, exo_name)

        frame_length = count_frames(wav_path)
        encoded_text = encode_utf16le_hex(text)
        exo_content = EXO_TEMPLATE.format(
            length_wavefile=frame_length,
            text_utf-16LE=encoded_text,
            saveWaveFile=wav_path.replace("\\", "\\\\")
        )

        with open(exo_path, 'w', encoding='utf-8') as exo_file:
            exo_file.write(exo_content)
        print(f"{exo_name} を生成しました。")

@app.route('/generate', methods=['POST'])
def generate():
    data = request.json
    text = data.get('text', '')
    cid = data.get('cid', '2002')
    speed = data.get('speed', '1.3')
    pitch = data.get('pitch', '1.1')
    emotion = data.get('emotion', '喜び')
    emotion_value = data.get('emotion_value', '0.2')
    save_path = data.get('savepath')

    if not text:
        return jsonify({"error": "text is required"}), 400

    if not save_path:
        return jsonify({"error": "savepath is required"}), 400

    if not os.path.exists(save_path):
        try:
            os.makedirs(save_path)
        except Exception as e:
            return jsonify({"error": f"保存先フォルダを作成できませんでした: {str(e)}"}), 500

    # genkou.txt を保存
    text_path = os.path.join(save_path, TEXT_FILE)
    with open(text_path, 'w', encoding='utf-8') as f:
        f.write(text)

    # SeikaSay2 実行
    command = f'{ASSISTANT_COMMAND} -cid {cid} -speed {speed} -pitch {pitch} -emotion {emotion} {emotion_value} -savepath "{save_path}" -f "{text_path}"'

    try:
        result = subprocess.run(command, capture_output=True, text=True, shell=True)
        if result.returncode != 0:
            print(result.stderr)
            return jsonify({"error": result.stderr}), 500

        # 音声生成後、EXOファイルを生成
        generate_exo_files_from_wavs(save_path, cid)

        return jsonify({"message": "音声とEXO生成成功", "stdout": result.stdout})
    except Exception as e:
        print(e)
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(port=5000)

 ✅ 使用方法（変更なし）VueからPOSTする際に savepath と cid を含めて送ると、

genkou.txt を保存

SeikaSay2 が .wav ファイルを生成
それに対応する .exo ファイルを1対1で生成
💬

これで .exo の自動生成まで統合完了です！
動作確認して問題なければ、そのままGit管理に加えてOKです。

次にやりたいこと（例：EXOをまとめてZIP化してダウンロードなど）あればお知らせください！


 ②動作確認しながら、エラーを解消していくでは、早速連携されたserver.pyをコピペして起動してみましょう！
# 自分のプロジェクトフォルダで実施
.\venv\Scripts\activate # 仮想環境を有効にする
python server.py # server.pyを起動
すると早速以下のようなエラーが発生します。

こちらもChatGPTに確認しましょう！
解析を依頼するプロンプトにはエラーメッセージもつけてあげましょう。
# サーバーの起動時に以下のエラーが発生しました。
# 解消方法を教えて下さい。
  File "E:\hoge\server.py", line 113 
    text_utf-16LE=encoded_text,
              ^
SyntaxError: invalid decimal literal
ChatGPTの回答
!はい、エラー内容と原因はすぐに特定できます。

以下に、エラーの意味と解決方法を簡潔に説明します。

 ❌ エラーの内容SyntaxError: invalid decimal literal
  File "E:\hoge\server.py", line 113
    text_utf-16LE=encoded_text,
              ^
これは：
text_utf-16LE = ...
という記述が Pythonの変数名として無効だからです。

 ✅ 原因Pythonでは 変数名に -（ハイフン） を使うことはできません。

- は引き算の演算子として扱われるため、構文エラーになります。

 ✅ 解決方法.format() 内で使う キー（プレースホルダー名） に - を使っていたのが原因です。

これは文字列テンプレート上ではOKですが、.format() 内では Python変数として扱われるため NG です。

 ✅ 修正方法
 ステップ1：テンプレート内を修正（安全なキー名に変更）テンプレートの該当部分：
text={text_utf-16LE}
を次のように修正してください：
text={text_utf16le}
（変数名にハイフンではなく、アンダースコアか連結形式）

 ステップ2：.format() 側の修正次のように修正します：
exo_content = EXO_TEMPLATE.format(
    length_wavefile=frame_length,
    text_utf16le=encoded_text,  # ← 修正済み
    saveWaveFile=wav_path.replace("\\", "\\\\")
)

 ✅ まとめ

修正ポイント
変更前
変更後


テンプレートのプレースホルダー
{text_utf-16LE}
{text_utf16le}


.format() のキー名
text_utf-16LE=...
text_utf16le=...

💬

この修正をすれば SyntaxError は解消されます！

修正したテンプレート行と .format() の呼び出しを再確認してみてください。
必要なら、修正済みのテンプレート全文も再掲できます！【希望あり／不要】で教えてください。

どうやら、プレースホルダーとして利用していた{text_utf-16LE}の記述が悪さをしていたみたいです。

以下が、修正ポイントのようなので、指示通りに修正してみましょう！


修正ポイント
変更前
変更後


テンプレートのプレースホルダー
{text_utf-16LE}
{text_utf16le}


.format() のキー名
text_utf-16LE=...
text_utf16le=...

修正したserver.pyfrom flask import Flask, request, jsonify
from flask_cors import CORS
import subprocess
import os
import wave

app = Flask(__name__)
CORS(app)

TEXT_FILE = "genkou.txt"
ASSISTANT_COMMAND = "SeikaSay2"  # 正しい実行名に注意

EXO_TEMPLATE = """[exedit]
width=1920
height=1080
rate=30
scale=1
length={length_wavefile}
audio_rate=44100
audio_ch=2
[0]
start=1
end={length_wavefile}
layer=1
group=1
overlay=1
camera=0
[0.0]
_name=テキスト
サイズ=34
表示速度=0.0
文字毎に個別オブジェクト=0
移動座標上に表示する=0
自動スクロール=0
B=0
I=0
type=0
autoadjust=0
soft=1
monospace=0
align=0
spacing_x=0
spacing_y=0
precision=1
color=ffffff
color2=000000
font=MS UI Gothic
text={text_utf16le}
[0.1]
_name=標準描画
X=0.0
Y=0.0
Z=0.0
拡大率=100.00
透明度=0.0
回転=0.00
blend=0
[1]
start=1
end={length_wavefile}
layer=2
group=1
overlay=1
audio=1
[1.0]
_name=音声ファイル
再生位置=0.00
再生速度=100.0
ループ再生=0
動画ファイルと連携=0
file={saveWaveFile}
[1.1]
_name=標準再生
音量=100.0
左右=0.0
"""

def encode_utf16le_hex(text: str) -> str:
    return text.encode('utf-16le').hex()

def count_frames(wav_path: str) -> int:
    with wave.open(wav_path, 'rb') as wf:
        frames = wf.getnframes()
        framerate = wf.getframerate()
        duration = frames / framerate
        return int(duration * 30)

def generate_exo_files_from_wavs(save_dir: str, cid: str):
    genkou_path = os.path.join(save_dir, TEXT_FILE)
    if not os.path.exists(genkou_path):
        print("genkou.txt が見つかりません")
        return

    with open(genkou_path, 'r', encoding='utf-8') as f:
        lines = [line.strip() for line in f if line.strip()]

    for idx, text in enumerate(lines):
        serial = f"{idx+1:06}"
        wav_name = f"SAY{serial}_{cid}.wav"
        wav_path = os.path.join(save_dir, wav_name)

        if not os.path.exists(wav_path):
            print(f"{wav_name} が見つかりません。スキップします。")
            continue

        exo_name = f"SAY{serial}_{cid}.exo"
        exo_path = os.path.join(save_dir, exo_name)

        frame_length = count_frames(wav_path)
        encoded_text = encode_utf16le_hex(text)
        exo_content = EXO_TEMPLATE.format(
            length_wavefile=frame_length,
            text_utf16le=encoded_text,  # ← 修正済み
            saveWaveFile=wav_path.replace("\\", "\\\\")
        )

        with open(exo_path, 'w', encoding='utf-8') as exo_file:
            exo_file.write(exo_content)
        print(f"{exo_name} を生成しました。")

@app.route('/generate', methods=['POST'])
def generate():
    data = request.json
    text = data.get('text', '')
    cid = data.get('cid', '2002')
    speed = data.get('speed', '1.3')
    pitch = data.get('pitch', '1.1')
    emotion = data.get('emotion', '喜び')
    emotion_value = data.get('emotion_value', '0.2')
    save_path = data.get('savepath')

    if not text:
        return jsonify({"error": "text is required"}), 400

    if not save_path:
        return jsonify({"error": "savepath is required"}), 400

    if not os.path.exists(save_path):
        try:
            os.makedirs(save_path)
        except Exception as e:
            return jsonify({"error": f"保存先フォルダを作成できませんでした: {str(e)}"}), 500

    # genkou.txt を保存
    text_path = os.path.join(save_path, TEXT_FILE)
    with open(text_path, 'w', encoding='utf-8') as f:
        f.write(text)

    # SeikaSay2 実行
    command = f'{ASSISTANT_COMMAND} -cid {cid} -speed {speed} -pitch {pitch} -emotion {emotion} {emotion_value} -savepath "{save_path}" -f "{text_path}"'

    try:
        result = subprocess.run(command, capture_output=True, text=True, shell=True)
        if result.returncode != 0:
            print(result.stderr)
            return jsonify({"error": result.stderr}), 500

        # 音声生成後、EXOファイルを生成
        generate_exo_files_from_wavs(save_path, cid)

        return jsonify({"message": "音声とEXO生成成功", "stdout": result.stdout})
    except Exception as e:
        print(e)
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(port=5000)
無事起動成功しました。
では、今度はクライアントからリクエストを投げてみます
Flaskサーバーのログでは、成功しています。

保存先にも保存されています！


 ③細かな調整をしていく実はここまでやって、exoファイルがUTF-8ではなく、SHIFT_JISでエンコードするべきということに気が付きました。（先ほどの生成された一式だけでは、AviUtlではうまく読み込めません。）

というわけで最後に以下のようなプロンプトでshift_jisでのエンコードを依頼します。
# 以下の部分について、shift-jisでエンコードするようにしてください。
        with open(exo_path, 'w', encoding='utf-8') as exo_file:
            exo_file.write(exo_content)
        print(f"{exo_name} を生成しました。")
ChatGPTの回答
!承知しました。exo ファイルを Shift_JIS（Windows標準の文字コード）で保存するには、以下のように encoding='shift_jis' に変更すればOKです。

 ✅ 修正前：with open(exo_path, 'w', encoding='utf-8') as exo_file:
    exo_file.write(exo_content)

 ✅ 修正後（Shift_JISで保存）：with open(exo_path, 'w', encoding='shift_jis') as exo_file:
    exo_file.write(exo_content)

 ✅ 完全な修正コード（該当ブロック）        with open(exo_path, 'w', encoding='shift_jis') as exo_file:
            exo_file.write(exo_content)
        print(f"{exo_name} を生成しました。")

 ✅ 注意点Shift_JIS で保存することで、AviUtlが正しく読み取れるようになります（AviUtlはUTF-8未対応のケースあり）。
UTF-16LEの16進文字列（text=の値）はそのまま文字列として使われるので、そこに問題はありません。
他にエンコーディングの調整が必要な箇所があればお知らせください。全体的な文字コード設計もサポート可能です。

また、こちらは単純に出力されたexoファイルを見ていて、気づいたことになりますが、音声ファイルのパスを作成している以下の記載は\\\\にする必要がないので修正しておきます。（これは特にChatGPTに聞くまでもなく修正してしまいました。。）
# 修正前
            saveWaveFile=wav_path.replace("\\", "\\\\")

# 修正後
            saveWaveFile=wav_path.replace("\\", "\\\\")

 ④実際に動かしてみるここまで実装してきましたが、最終的にできたserver.py（サーバーサイドソース）とApp.vue（クライアントサイドソース）はこちらです。
server.py
!from flask import Flask, request, jsonify
from flask_cors import CORS
import subprocess
import os
import wave

app = Flask(__name__)
CORS(app)

TEXT_FILE = "genkou.txt"
ASSISTANT_COMMAND = "SeikaSay2"  # 正しい実行名に注意

EXO_TEMPLATE = """[exedit]
width=1920
height=1080
rate=30
scale=1
length={length_wavefile}
audio_rate=44100
audio_ch=2
[0]
start=1
end={length_wavefile}
layer=1
group=1
overlay=1
camera=0
[0.0]
_name=テキスト
サイズ=34
表示速度=0.0
文字毎に個別オブジェクト=0
移動座標上に表示する=0
自動スクロール=0
B=0
I=0
type=0
autoadjust=0
soft=1
monospace=0
align=0
spacing_x=0
spacing_y=0
precision=1
color=ffffff
color2=000000
font=MS UI Gothic
text={text_utf16le}
[0.1]
_name=標準描画
X=0.0
Y=0.0
Z=0.0
拡大率=100.00
透明度=0.0
回転=0.00
blend=0
[1]
start=1
end={length_wavefile}
layer=2
group=1
overlay=1
audio=1
[1.0]
_name=音声ファイル
再生位置=0.00
再生速度=100.0
ループ再生=0
動画ファイルと連携=0
file={saveWaveFile}
[1.1]
_name=標準再生
音量=100.0
左右=0.0
"""

def encode_utf16le_hex(text: str) -> str:
    return text.encode('utf-16le').hex()

def count_frames(wav_path: str) -> int:
    with wave.open(wav_path, 'rb') as wf:
        frames = wf.getnframes()
        framerate = wf.getframerate()
        duration = frames / framerate
        return int(duration * 30)

def generate_exo_files_from_wavs(save_dir: str, cid: str):
    genkou_path = os.path.join(save_dir, TEXT_FILE)
    if not os.path.exists(genkou_path):
        print("genkou.txt が見つかりません")
        return

    with open(genkou_path, 'r', encoding='utf-8') as f:
        lines = [line.strip() for line in f if line.strip()]

    for idx, text in enumerate(lines):
        serial = f"{idx+1:06}"
        wav_name = f"SAY{serial}_{cid}.wav"
        wav_path = os.path.join(save_dir, wav_name)

        if not os.path.exists(wav_path):
            print(f"{wav_name} が見つかりません。スキップします。")
            continue

        exo_name = f"SAY{serial}_{cid}.exo"
        exo_path = os.path.join(save_dir, exo_name)

        frame_length = count_frames(wav_path)
        encoded_text = encode_utf16le_hex(text)
        exo_content = EXO_TEMPLATE.format(
            length_wavefile=frame_length,
            text_utf16le=encoded_text,  # ← 修正済み
            saveWaveFile=wav_path
        )

        with open(exo_path, 'w', encoding='shift_jis') as exo_file:
            exo_file.write(exo_content)
        print(f"{exo_name} を生成しました。")

@app.route('/generate', methods=['POST'])
def generate():
    data = request.json
    text = data.get('text', '')
    cid = data.get('cid', '2002')
    speed = data.get('speed', '1.3')
    pitch = data.get('pitch', '1.1')
    emotion = data.get('emotion', '喜び')
    emotion_value = data.get('emotion_value', '0.2')
    save_path = data.get('savepath')

    if not text:
        return jsonify({"error": "text is required"}), 400

    if not save_path:
        return jsonify({"error": "savepath is required"}), 400

    if not os.path.exists(save_path):
        try:
            os.makedirs(save_path)
        except Exception as e:
            return jsonify({"error": f"保存先フォルダを作成できませんでした: {str(e)}"}), 500

    # genkou.txt を保存
    text_path = os.path.join(save_path, TEXT_FILE)
    with open(text_path, 'w', encoding='utf-8') as f:
        f.write(text)

    # SeikaSay2 実行
    command = f'{ASSISTANT_COMMAND} -cid {cid} -speed {speed} -pitch {pitch} -emotion {emotion} {emotion_value} -savepath "{save_path}" -f "{text_path}"'

    try:
        result = subprocess.run(command, capture_output=True, text=True, shell=True)
        if result.returncode != 0:
            print(result.stderr)
            return jsonify({"error": result.stderr}), 500

        # 音声生成後、EXOファイルを生成
        generate_exo_files_from_wavs(save_path, cid)

        return jsonify({"message": "音声とEXO生成成功", "stdout": result.stdout})
    except Exception as e:
        print(e)
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(port=5000)

App.vue
!<template>
  <div>
    <h1>AssistantSeika Webコントローラー</h1>
    <form @submit.prevent="send">
      <div>
        <label>読み上げテキスト</label><br>
        <textarea v-model="text" placeholder="ここにテキストを入力" rows="5" cols="50"></textarea>
      </div>
      <div>
        <label>キャラID (cid)</label><br>
        <input v-model="cid" placeholder="例：2001">
      </div>
      <div>
        <label>速度 (speed)</label><br>
        <input v-model="speed" placeholder="例：1.3">
      </div>
      <div>
        <label>ピッチ (pitch)</label><br>
        <input v-model="pitch" placeholder="例：1.1">
      </div>
      <div>
        <label>感情 (emotion)</label><br>
        <input v-model="emotion" placeholder="例：喜び">
      </div>
      <div>
        <label>感情強度 (emotion_value)</label><br>
        <input v-model="emotion_value" placeholder="例：0.2">
      </div>
      <div>
        <label>保存先フォルダの絶対パス (savepath)</label><br>
      <input v-model="savepath" placeholder="例：E:\\A_動画編集素材\\ボイス\\任意フォルダ">
</div>

      <button type="submit">送信して音声生成</button>
    </form>

    <div v-if="response">
      <h2>サーバーからの応答</h2>
      <pre>{{ response }}</pre>
    </div>
  </div>
</template>

<script setup>
import { ref } from 'vue'
import axios from 'axios'

const text = ref('')
const cid = ref('2001')
const speed = ref('1.3')
const pitch = ref('1.1')
const emotion = ref('喜び')
const emotion_value = ref('0.2')
const response = ref(null)
const savepath = ref('')

const send = async () => {
  try {
    await axios.post('http://localhost:5000/generate', {
      text: text.value,
      cid: cid.value,
      speed: speed.value,
      pitch: pitch.value,
      emotion: emotion.value,
      emotion_value: emotion_value.value,
      savepath: savepath.value  // ← 新たにバインドした変数
    })
    response.value = res.data
  } catch (error) {
    response.value = error.response ? error.response.data : error.message
  }
}
</script>

<style scoped>
h1 {
  margin-bottom: 1rem;
}
form > div {
  margin-bottom: 1rem;
}
button {
  padding: 0.5rem 1rem;
}
</style>

ここまでできたら、実際に動かしてみましょう！
server.pyを起動

Vueプロジェクトを起動

VOICEROID2とAssistantSeikaを起動

投稿者は以下のような設定で利用しています！

!投稿者の環境では16bitのwavファイルで出力しないとAviUtlでそもそも読み込めなかったり、exoファイルを生成する際もちょっと工夫が必要だったりしました。

もし、有識者の方いたら、色々コメントしていただけると幸いです。

（実はこの辺は紆余曲折ありました。。）

http://localhost:5173/にアクセスして音声生成


しっかりと生成されています！

AviUtlで読み込めることの確認
しっかりと読み込めました！

簡単なアプリですが、やりたいことが達成できるとなんだか感動しますね！

 ✅ まとめここまで3回にわたって記事を投稿してきましたが、我ながら 実用的なWebアプリ を作れたのではないかと思っています。

実際にはもっと紆余曲折もありました（投稿者はPython初学者なので…）が、驚くほどスムーズに開発を進めることができました。
特に、ChatGPTを活用した設計・開発で感じたメリットは以下の通りです。

 🌱 自分の領域を広げられる私はPythonが全くの初心者で、今回が初めて本格的な実装へのチャレンジでした。

それでも、ここまで形にできたのはChatGPTのおかげです。
普段からシステムエンジニアとして仕事をしていたり、趣味で何かを開発している人であれば、プログラミング言語の違いは「方言」みたいなもの。

そういった人にとって、たたき台をすぐに提示してくれるChatGPTは、新しい技術に踏み出す強力なサポーターになると思います。

 💡 自分が知らない領域のアイディアを活用できるFlaskでWebサーバーを立てる、というアイディアなんて、Python超初心者の自分からは絶対に出てこない発想でした。

でも「なんとなくこうしたい」と伝えるだけで、設計を具体化してくれるChatGPTの提案力は本当に頼もしいです。
今回のチャレンジを通じて、ChatGPTの可能性の大きさを改めて実感しました。

これからも、いろいろなアイディアを形にしていきたいと思います。
ぜひ、この記事を読んでくださった皆さんのアイディアもコメントでシェアしてもらえたら嬉しいです。

実際に作ったアプリなどは、GitHubでの公開も検討中ですので、興味があればお気軽にコメントしてください！

 🐭 おまけ実際のやり取りはもうちょっといろいろエラー出たり、自分が知らないことだらけで色々質問したりしています。

実際のChatGPTとのチャットを公開します。

参考にしてください。
参考：実際のやり取り
修正ポイント	変更前	変更後
テンプレートのプレースホルダー	`{text_utf-16LE}`	`{text_utf16le}`
`.format()` のキー名	`text_utf-16LE=...`	`text_utf16le=...`
修正ポイント	変更前	変更後
テンプレートのプレースホルダー	`{text_utf-16LE}`	`{text_utf16le}`
`.format()` のキー名	`text_utf-16LE=...`	`text_utf16le=...`
修正ポイント	内容
Python側	`SAVE_DIR` を固定せず、リクエストJSONから `savepath` を受け取る
Vue側	`savepath` を入力フォーム＋POST内容に追加
安全対策	`savepath` の有無・存在確認・ディレクトリ作成をサーバー側で対応
項目	内容
対象	`genkou.txt`の各行 = 1つの音声ファイル
ファイル名	`SAY{nnnnnn}_{cid}.wav`（連番 + cid）
EXO出力先	各 `.wav` に対して `.exo` ファイル
EXO形式	AviUtl用、テンプレートをベースに変数を置換
文字コード	EXOファイルは UTF-8 で保存、text部はUTF-16LEでエンコードした文字列（ただしそのまま埋め込む）
音声長	`.wav`ファイルのフレーム数（例：長さ[s] × フレームレート30）
🛠 ChatGPTでVOICEROID2の作業を効率化するWebアプリを作ってみた～その3 改良編～

🚀 今回の改良内容

📊 今回作成するのWebアプリの簡単な構成図

🔧 ファイルの保存先を自由に設定できるように修正

🎨 AviUtlとの連携

✂️ 私が普段使っている動画編集ソフト：AviUtl

🧚 PSDToolKitとは？

🎯 今回Webアプリで作る機能の目的

📁 生成するexoファイルのフォーマット調査

🔍 まずは形式を知るところから

🧰 VoiceroidUtilを利用して調査開始

📄 exoファイルはテキスト形式！

🧠 exoファイル実装ロジックの生成

①まずは可能な限り、仕様を伝える

✅ このプロンプトの工夫したポイント

②動作確認しながら、エラーを解消していく

③細かな調整をしていく

④実際に動かしてみる

✅ まとめ

🌱 自分の領域を広げられる

💡 自分が知らない領域のアイディアを活用できる

🐭 おまけ

Discussion