Open9
Lyra V2 メモ
-
Lyra V2 - a better, faster, and more versatile speech codec | Google Open Source Blog
- Lyra V2 の解説
-
Google AI Blog: SoundStream: An End-to-End Neural Audio Codec
- Lyra V2 が採用した仕組みの解説
-
Google AI Blog: Lyra: A New Very Low-Bitrate Codec for Speech Compression
- Lyra 最初のバージョンの解説
-
google/lyra: A Very Low-Bitrate Codec for Speech Compression
- GitHub のリポジトリ
- Lyra V2 on webassembly
ビルド
README に書いてあるとおりでビルド出来る。
Bazel インストール
Ubuntu 20.04 x86_64
$ sudo apt install apt-transport-https curl gnupg
$ curl -fsSL https://bazel.build/bazel-release.pub.gpg | gpg --dearmor >bazel-archive-keyring.gpg
$ sudo mv bazel-archive-keyring.gpg /usr/share/keyrings
$ echo "deb [arch=amd64 signed-by=/usr/share/keyrings/bazel-archive-keyring.gpg] https://storage.googleapis.com/bazel-apt stable jdk1.8" | sudo tee /etc/apt/sources.list.d/bazel.list
$ sudo apt update && sudo apt install bazel
numpy インストール
$ sudo apt install python3-numpy
Lyra V2 ビルド
$ git clone git@github.com:google/lyra.git
$ cd lyra
$ bazel build -c opt :encoder_main
$ bazel build -c opt :decoder_main
-
Lyra + Gstreamer + webRTC - missing specs? · Issue #98 · google/lyra
- GStreamer の WebRTC と組み合わせて使おうとしている人
- OSS で WebRTC のラッパーがあるといいよねと中の人も反応している
リリースノート
DeepL Pro による翻訳。
- 速度が大幅に向上(Android端末で5倍程度向上)
- SoundStreamベースのモデルは、著しく高品質の音声を生成します(3kbps V1 と 3.2 kbps V2 を比較した場合)
- ビットレートの選択が可能(3200、6000、9200bit/sec)
- コーデックレイテンシーを100msから20msに短縮
- MacとWindowsをサポート(LinuxとAndroidは継続サポート)。注:ビルドと実行が正常に行われることを確認していますが、コンパイルとリンカの警告が多数発生します(特にWindowsはMSVC/gccのミスマッチが原因です)。これらの問題や、iOS などの他のプラットフォームへの対応は、.bazelrc ファイルを修正することで対応可能です。このためのコミュニティの貢献を歓迎します
- よりポータブルなコード .tfliteファイル内のTensorFlow Liteモデルは、他のプラットフォームでも使用することができる。TFLiteランタイムは各プラットフォームに最適化されており、プラットフォーム固有のアセンブリを記述する必要性を代替しています
バイナリサイズ
6445784 Oct 8 06:07 decoder_main
6338848 Oct 8 06:03 encoder_main
雑感
- 簡単に WebM / MP4 としては保存できない&再生ができないので辛い
- ブラウザでの利用には Wasm 必須
WebRTC MediaChannel で Lyra V2
-
Lyra on WebRTC
- ブラウザ上で動くデモ
-
Flash-Meeting/lyra-webrtc
- ソースコード
Lyra v1.3.0
Release Lyra 1.3.0 · google/lyra
DeepL Pro による翻訳
Lyra 1.3.0がリリースされました。このリリースでは、モデルの速度が向上し、ストレージ容量が削減されています。以前のバージョンのビットストリームを再利用する必要がない場合は、すべてのユーザーがアップグレードすることをお勧めします。
新しいモデルは、43%小さくなり(TFLiteモデルサイズ)、20%速くなりました(Pixel 6 Proで1.2.0と1.3.0を比較した場合)。これは、32ビット浮動小数ではなく、8ビット整数で一部の重みを保存し、算術演算を行うことで実現されています。量子化を意識した学習により、より小型で高速なモデルの音質は以前のモデルと変わらず、リスニングテストでは、ユーザーは以前のモデルとこのモデルのどちらを選んでも構わないという結果が出ています。ただし、重みを変更したため、ビットストリームは以前のモデルと異なっています。
1.3.0のビットストリームは1.2.0と非互換です。