Open9

Lyra V2 メモ

voluntasvoluntas

ビルド

README に書いてあるとおりでビルド出来る。

Bazel インストール

Ubuntu 20.04 x86_64

$ sudo apt install apt-transport-https curl gnupg
$ curl -fsSL https://bazel.build/bazel-release.pub.gpg | gpg --dearmor >bazel-archive-keyring.gpg
$ sudo mv bazel-archive-keyring.gpg /usr/share/keyrings
$ echo "deb [arch=amd64 signed-by=/usr/share/keyrings/bazel-archive-keyring.gpg] https://storage.googleapis.com/bazel-apt stable jdk1.8" | sudo tee /etc/apt/sources.list.d/bazel.list

$ sudo apt update && sudo apt install bazel

numpy インストール

$ sudo apt install python3-numpy

Lyra V2 ビルド

$ git clone git@github.com:google/lyra.git
$ cd lyra
$ bazel build -c opt :encoder_main
$ bazel build -c opt :decoder_main
voluntasvoluntas

リリースノート

DeepL Pro による翻訳。

https://github.com/google/lyra/releases/tag/v1.2.0

  • 速度が大幅に向上(Android端末で5倍程度向上)
  • SoundStreamベースのモデルは、著しく高品質の音声を生成します(3kbps V1 と 3.2 kbps V2 を比較した場合)
  • ビットレートの選択が可能(3200、6000、9200bit/sec)
  • コーデックレイテンシーを100msから20msに短縮
  • MacとWindowsをサポート(LinuxとAndroidは継続サポート)。注:ビルドと実行が正常に行われることを確認していますが、コンパイルとリンカの警告が多数発生します(特にWindowsはMSVC/gccのミスマッチが原因です)。これらの問題や、iOS などの他のプラットフォームへの対応は、.bazelrc ファイルを修正することで対応可能です。このためのコミュニティの貢献を歓迎します
  • よりポータブルなコード .tfliteファイル内のTensorFlow Liteモデルは、他のプラットフォームでも使用することができる。TFLiteランタイムは各プラットフォームに最適化されており、プラットフォーム固有のアセンブリを記述する必要性を代替しています
voluntasvoluntas

雑感

  • 簡単に WebM / MP4 としては保存できない&再生ができないので辛い
  • ブラウザでの利用には Wasm 必須
voluntasvoluntas

Lyra v1.3.0

Release Lyra 1.3.0 · google/lyra

DeepL Pro による翻訳

Lyra 1.3.0がリリースされました。このリリースでは、モデルの速度が向上し、ストレージ容量が削減されています。以前のバージョンのビットストリームを再利用する必要がない場合は、すべてのユーザーがアップグレードすることをお勧めします。

新しいモデルは、43%小さくなり(TFLiteモデルサイズ)、20%速くなりました(Pixel 6 Proで1.2.0と1.3.0を比較した場合)。これは、32ビット浮動小数ではなく、8ビット整数で一部の重みを保存し、算術演算を行うことで実現されています。量子化を意識した学習により、より小型で高速なモデルの音質は以前のモデルと変わらず、リスニングテストでは、ユーザーは以前のモデルとこのモデルのどちらを選んでも構わないという結果が出ています。ただし、重みを変更したため、ビットストリームは以前のモデルと異なっています。

1.3.0のビットストリームは1.2.0と非互換です。