画面構成
プラットフォームに応じたアプリケーションの起動を行うとブラウザで次の画面が表示されます。この画面で MMVC のコントロールを行います。
サーバコントロールエリア
ボイチェンの開始、停止を操作します。また、monitor 部分で動作状況を表示します。
Model Info の部分では、現在ロードされているモデルが表示されます。モデルがロードされているにもかかわらず表示が行われない場合は reload ボタンを押してください。
gain(in),gain(out)で音量を調整できます。gain(in)は MMVC のモデルにインプットする際の音量です。モデルが想定していない音量で入力されてしまい正しく音声が変換されていない場合にこれをコントロールすることで改善できる可能性があります。gain(out)は、モデルからのアウトプットを再生する際の音量です。
サーバセッティングエリア
モデルのアップロードと使用するフレームワークを指定します。
モデルのアップロードを行うには、config ファイルと correspondence ファイルと一つ以上のモデルファイルを指定する必要があります。config ファイルの拡張子は.json である必要があります。PyTorch のモデルファイルの拡張子は.pth である必要があります。Onnx のモデルファイルの拡張子は.onnx である必要があります。select ボタンを押して各ファイルを選択してください。
clear ボタンを押すと選択を解除することができます。
ファイルを選択したら upload ボタンを押してファイルをアップロードします。アップロード中は進捗が表示されます。この表示が消えたらアップロード完了です。
アップロードが完了したら、アップロードしたモデルファイルに対応する Framework を選択してください。Onnx を選択した場合は、更に OnnxExecutorProvider の選択が必要となります。Windows で GPU を使用する場合は CUDAExecutionProvider を選択してください。DirectML を使用する場合は DmlExecutionProvider を選択してください。Mac の場合は CPUExecutionProvider を選択してください。
デバイスセッティングエリア
マイク(Audio Input)とスピーカー(Audio Output)の設定をします。
(3-1) マイク選択
使用可能なマイクの選択ではマイクに加えて音声ファイルの指定もできます。
ファイルを指定した場合は、音声プレイヤーが表示されます。
右の load ボタンで音声ファイルを選択してください。echoback にチェックを入れると返還前の音声も再生されます。不要の場合はチェックを外してください。
(3-2) スピーカー選択
出力先のスピーカーを選択します。
Voice Meter などの仮想ケーブルがインストールされている場合は、それらを選択することができます。
(3-3) 出力録音コントロール
出力を録音することができます。これにより変換後の音声を確認することができます。
スピーカーセッティングエリア
変換元の話者と変換先の話者を設定します。
Source Speaker id が変換元の話者の ID になります。Destination Speaker id が変換先の話者の ID になります。
F0 Factor には、基本的に reccomended に表示されている値を設定するようにしてください。
変換セッティングエリア
変換にかかわる設定を行います。
Input Chunk Num で、変換用にバッファリングするサイズを指定することができます。大きな値ほど変換の効率(≒ 全体の処理速度)が良くなりますが、変換のタイムラグが大きくなります。
GPU の部分で使用する GPU を指定します。PyTorch を使用している場合は-1 にすると CPU を使用して変換が行われます。
アドバンストセッティングエリア
より高度な設定を行うことができます。デフォルトでは表示されていません。表示する場合は show をチェックしてください。