「Silero VAD」を試す

GitHubレポジトリ
https://github.com/snakers4/silero-vad

 Silero VADSilero VAD - 事前学習済みのエンタープライズ向け音声活動検出器 (Voice Activity Detector)（また、STTモデルも参照してください）。
依存関係
x86-64システムでPythonの例を実行するためのシステム要件：

python 3.8+;
1GB以上のRAM;
AVX、AVX2、AVX-512、またはAMX命令セットを備えた最新のCPU
依存パッケージ：

torch>=1.12.0;

torchaudio>=0.12.0（I/O用）;

onnxruntime>=1.16.1（ONNXモデル使用時）。
Silero VADは、音声I/Oにtorchaudioライブラリを使用しています（torchaudio.info、torchaudio.load、およびtorchaudio.save）。そのため、適切なオーディオバックエンドが必要です：
オプション1 - FFmpegバックエンド。conda install -c conda-forge 'ffmpeg<7';
オプション2 - sox_ioバックエンド。apt-get install sox、TorchAudioはlibsox 14.4.2でテスト済み;
オプション3 - soundfileバックエンド。pip install soundfile。
onnx-runtimeのみを使用してVADを実行する予定の場合、onnx-runtimeがサポートされている他のシステムアーキテクチャでも動作します。この場合、以下に注意してください：
I/Oを実装する必要があります;
既存のラッパー/例/後処理をユースケースに合わせて調整する必要があります。


 主な特徴

優れた精度

Silero VADは、音声検出タスクで優れた結果を示します。

高速

単一のCPUスレッドで1つの音声チャンク（30ms以上）の処理にかかる時間は1ms未満です。バッチ処理やGPUを使用することで、さらにパフォーマンスを向上させることが可能です。条件によっては、ONNXが最大4〜5倍速く動作する場合もあります。

軽量

JITモデルのサイズは約2MBです。

汎用性

Silero VADは、6000以上の言語を含む膨大なデータセットで学習されており、さまざまな背景ノイズや音質の音声に対して良好に動作します。

柔軟なサンプリングレート

Silero VADは8000Hzおよび16000Hzのサンプリングレートをサポートします。

高い移植性

Silero VADは、PyTorchおよびONNXのエコシステムから得られる利点を活用し、これらのランタイムが利用可能な環境であればどこでも動作します。

制約なし

許容的なMITライセンスの下で公開されており、Silero VADは制約が一切ありません - テレメトリなし、キーなし、登録不要、組み込みの有効期限なし、キーやベンダーロックもありません。


 主な使用例
IoT / エッジ / モバイル向けの音声活動検出
データクリーニングおよび準備、一般的な音声検出
テレフォニーおよびコールセンターの自動化、音声ボット
音声インターフェース

kun432

事前準備

とりあえずローカルのMacでやってみる。

Python仮想環境を作成。自分はmiseを使うが、適宜。

mkdir silero-vad-work && cd silero-vad-work

mise use python@3.12

cat << 'EOS' >> .mise.toml

[env]
_.python.venv = { path = ".venv", create = true }
EOS

パッケージインストール

pip install silero-vad

pip freeze | grep -i silero

出力

silero-vad==5.1.2

あとオーディオバックエンドが必要になる。今回はsoundfileを使う。

pip install soundfile

pip freeze | grep -i soundfile

出力

soundfile==0.13.0

Fast start

適当なWAVファイルを食わせてみる。ただし、サンプリングレートは8000Hz/16000Hzである必要があるみたいなので、事前にあわせておく必要がある。

sample1.py

from silero_vad import load_silero_vad, read_audio, get_speech_timestamps
import json

model = load_silero_vad()
wav = read_audio('sample.wav')
speech_timestamps = get_speech_timestamps(
  wav,
  model,
  return_seconds=True,  # 秒単位でタイムスタンプを返す
)

print(json.dumps(speech_timestamps, indent=2))

python sample1.py

音声が検出された区間がリストで返される。

出力

[
  {
    "start": 0.9,
    "end": 6.2
  },
  {
    "start": 6.9,
    "end": 7.9
  },
  {
    "start": 8.1,
    "end": 9.3
  },
  {
    "start": 9.6,
    "end": 10.9
  },
  {
    "start": 11.5,
    "end": 12.5
  },
  {
    "start": 13.9,
    "end": 23.2
  },
  {
    "start": 23.5,
    "end": 26.1
  },
  {
    "start": 26.5,
    "end": 31.8
  },
  {
    "start": 31.9,
    "end": 36.5
  },
  {
    "start": 36.7,
    "end": 39.2
  },
  {
    "start": 40.1,
    "end": 40.7
  },
  {
    "start": 40.9,
    "end": 42.7
  },
  {
    "start": 44.4,
    "end": 44.9
  },
  {
    "start": 45.5,
    "end": 52.2
  },
  {
    "start": 52.4,
    "end": 53.4
  },
  {
    "start": 53.6,
    "end": 58.4
  },
  {
    "start": 58.6,
    "end": 61.3
  },
  {
    "start": 61.9,
    "end": 66.9
  },
  {
    "start": 67.0,
    "end": 73.3
  },
  {
    "start": 73.5,
    "end": 78.6
  },
  {
    "start": 78.8,
    "end": 81.5
  },
  {
    "start": 81.6,
    "end": 82.7
  },
  {
    "start": 82.8,
    "end": 84.9
  },
  {
    "start": 85.8,
    "end": 89.5
  },
  {
    "start": 89.6,
    "end": 103.1
  },
  {
    "start": 103.3,
    "end": 104.2
  },
  {
    "start": 104.5,
    "end": 107.1
  },
  {
    "start": 107.5,
    "end": 110.6
  },
  {
    "start": 110.7,
    "end": 119.2
  },
  {
    "start": 119.6,
    "end": 126.2
  },
  {
    "start": 126.4,
    "end": 132.3
  },
  {
    "start": 132.4,
    "end": 134.0
  },
  {
    "start": 134.1,
    "end": 135.2
  },
  {
    "start": 135.4,
    "end": 139.1
  },
  {
    "start": 139.4,
    "end": 140.3
  },
  {
    "start": 141.3,
    "end": 144.2
  },
  {
    "start": 144.3,
    "end": 149.2
  },
  {
    "start": 149.3,
    "end": 151.1
  },
  {
    "start": 151.3,
    "end": 155.6
  },
  {
    "start": 155.7,
    "end": 156.4
  },
  {
    "start": 156.7,
    "end": 157.6
  },
  {
    "start": 157.8,
    "end": 163.5
  },
  {
    "start": 163.7,
    "end": 173.7
  },
  {
    "start": 173.9,
    "end": 175.1
  },
  {
    "start": 175.2,
    "end": 177.1
  },
  {
    "start": 177.4,
    "end": 180.1
  },
  {
    "start": 180.3,
    "end": 183.3
  },
  {
    "start": 183.8,
    "end": 186.8
  },
  {
    "start": 188.6,
    "end": 191.3
  },
  {
    "start": 192.6,
    "end": 196.3
  },
  {
    "start": 197.0,
    "end": 202.8
  },
  {
    "start": 202.9,
    "end": 209.2
  },
  {
    "start": 209.9,
    "end": 212.5
  },
  {
    "start": 213.1,
    "end": 222.0
  },
  {
    "start": 222.3,
    "end": 228.9
  },
  {
    "start": 229.1,
    "end": 231.7
  },
  {
    "start": 232.4,
    "end": 234.0
  },
  {
    "start": 234.2,
    "end": 237.9
  },
  {
    "start": 239.0,
    "end": 244.1
  },
  {
    "start": 244.4,
    "end": 246.2
  },
  {
    "start": 247.7,
    "end": 252.6
  },
  {
    "start": 252.7,
    "end": 255.8
  },
  {
    "start": 255.9,
    "end": 266.1
  },
  {
    "start": 266.4,
    "end": 268.3
  }
]

load_silero_vad()で読み込まれるモデルはデフォルトはJITモデルとなっている。

モデルは以下にあった。

ls -l ./.venv/lib/python3.12/site-packages/silero_vad/data

ONNXモデルもある。

出力

total 11496
-rw-r--r--@ 1 kun432  staff        0  1 15 16:57 __init__.py
drwxr-xr-x@ 3 kun432  staff       96  1 15 16:57 __pycache__
-rw-r--r--@ 1 kun432  staff  2269612  1 15 16:57 silero_vad.jit
-rw-r--r--@ 1 kun432  staff  2327524  1 15 16:57 silero_vad.onnx
-rw-r--r--@ 1 kun432  staff  1280395  1 15 16:57 silero_vad_half.onnx

以下にモデルごとのパフォーマンスが記載されている。

おそらく現在のモデルはV5だと思うので、ONNXモデルのほうが処理性能は2倍弱上ということだと思われる。

ONNXモデルを使う場合は以下。

model = load_silero_vad(onnx=True)

kun432

マイクからの入力を受け取って、無音・有音を検出するサンプル。

import numpy as np
import torch
from silero_vad import load_silero_vad, get_speech_timestamps
import pyaudio
import wave

# Silero VAD モデルのロード
print("Loading Silero VAD model...")
model = load_silero_vad()

# マイク入力の設定
CHUNK = 16000  # フレームサイズ (16000Hzのサンプリングレートに対応)
FORMAT = pyaudio.paInt16  # 音声フォーマット
CHANNELS = 1  # モノラル
RATE = 16000  # サンプリングレート

# PyAudio ストリームを初期化
audio = pyaudio.PyAudio()
stream = audio.open(format=FORMAT, channels=CHANNELS,
                    rate=RATE, input=True, frames_per_buffer=CHUNK)

print("Listening for audio...")

try:
    while True:
        # マイクからデータを読み取り
        data = stream.read(CHUNK, exception_on_overflow=False)

        # バイナリデータを数値データに変換
        # PyAudioはバイナリ形式でデータを提供するため、numpyを使ってint16型の数値配列に変換
        audio_data = np.frombuffer(data, dtype=np.int16)

        # 音声データを [-1.0, 1.0] の範囲に正規化
        # Silero VAD は正規化された音声データを期待するため、numpy配列を使って正規化
        audio_data = audio_data.astype(np.float32) / 32768.0

        # Silero VADで音声活動を判定
        speech_timestamps = get_speech_timestamps(
            audio_data, model, sampling_rate=RATE
        )

        # 判定結果を出力
        if speech_timestamps:
            print("O", end="", flush=True)
        else:
            print(".", end="", flush=True)
except KeyboardInterrupt:
    print("\n終了します...")
finally:
    # ストリームとリソースを解放
    stream.stop_stream()
    stream.close()
    audio.terminate()

以下のノートブックも参考になる。

kun432

発話の開始〜終了を検出して、発話部分をファイルに保存するサンプル。

import numpy as np
import torch
from silero_vad import load_silero_vad, get_speech_timestamps
import pyaudio
import wave

# Silero VAD モデルのロード
print("Loading Silero VAD model...")
model = load_silero_vad()

# マイク入力の設定
CHUNK = 16000  # フレームサイズ (1秒分のデータ)
FORMAT = pyaudio.paInt16  # 音声フォーマット
CHANNELS = 1  # モノラル
RATE = 16000  # サンプリングレート

# PyAudio ストリームを初期化
audio = pyaudio.PyAudio()
stream = audio.open(format=FORMAT, channels=CHANNELS,
                    rate=RATE, input=True, frames_per_buffer=CHUNK)

# 音声の一時保存用
audio_buffer = []  # 音声データを一時的に保存する
is_recording = False  # 現在有音かどうかを管理
counter = 1

print("Listening for audio...")

try:
    while True:
        # マイクからデータを読み取り
        data = stream.read(CHUNK, exception_on_overflow=False)

        # バイナリデータをnumpy配列に変換
        audio_data = np.frombuffer(data, dtype=np.int16).astype(np.float32) / 32768.0

        # Silero VADで音声活動を判定
        speech_timestamps = get_speech_timestamps(audio_data, model, sampling_rate=RATE)

        if speech_timestamps:
            # 音声が検出された場合
            print("発話開始")
            audio_buffer.append(data)  # 音声データをバッファに保存
            is_recording = True
        elif is_recording:
            # 「有音 → 無音」になった場合にファイルに保存
            print("発話終了")
            is_recording = False

            # バッファを結合
            full_audio = b"".join(audio_buffer)
            audio_buffer = []  # バッファをクリア

            # バッファをファイルに保存
            output_file = f"output_{counter}.wav"
            with wave.open(output_file, "wb") as wf:
                wf.setnchannels(CHANNELS)
                wf.setsampwidth(audio.get_sample_size(FORMAT))
                wf.setframerate(RATE)
                wf.writeframes(full_audio)

            print(f"ファイルに保存しました: {output_file}")
            counter += 1
        else:
            # 無音時
            print("...")
except KeyboardInterrupt:
    print("\n終了します...")
finally:
    # ストリームとリソースを解放
    stream.stop_stream()
    stream.close()
    audio.terminate()

kun432

 参考https://elosove.com/?p=701
https://medium.com/axinc/silerovad-発話区間を検出する機械学習モデル-2ad6cf395703

kun432

上で紹介したサイトに、他のVAD実装がいくつかリストアップされていたので、サラッと見てみる。

kun432

 py-webrtcvadhttps://github.com/wiseman/py-webrtcvad
https://dev.classmethod.jp/articles/trial-python-webrtcvad/
ただ以下の記事などを見ていると、人間の発話以外の普通の小さな音などにも反応しやすいみたいで、工夫が必要な模様。以下の1つ目の記事は最終的にSilero VADに変えていた。
https://qiita.com/hanaya/items/7e5dab92291c8dafedf5
https://developers.cyberagent.co.jp/blog/archives/44592/

kun432

 inaSpeechSegmenterhttps://github.com/ina-foss/inaSpeechSegmenter
論文もある。
https://arxiv.org/pdf/2406.04429
Claude-3.5-Sonnetによる落合プロンプト結果

 InaGVAD: フランスのテレビ・ラジオにおける音声活動検出と話者性別セグメンテーションのための挑戦的コーパス
 どんなもの？InaGVADは、フランスの10のラジオ局と18のテレビ局から収集された音声コーパスです。このコーパスは、一般ラジオ、音楽ラジオ、ニュースTV、一般TVの4つのカテゴリーに分類された277の1分間の音声録音で構成されています。主な目的は、メディアにおける男女の発話時間を監視できるシステムを構築することです。各録音には、音声活動検出(VAD)と話者性別セグメンテーション(SGS)のアノテーションが付与されており、さらに音声の重なり、話者特性（性別、年齢、声質）、10種類の非音声イベントカテゴリーについても詳細にアノテーションされています。データセットは1時間の開発用サブセットと3時間37分のテスト用サブセットに分割されており、公平で再現可能なシステム評価を可能にしています。

 先行研究を比べてどこがすごい？既存の音声コーパスと比較して、以下の点で優れています：
細かい時間コードが付与された音声・非音声イベントのアノテーション
話者特性（性別、年齢）と音声品質のアノテーション
フランスのテレビ・ラジオで見られるコンテンツの多様性を代表するデータ
コーパス、アノテーション、評価スクリプト、ベースラインモデルの学習コードが全て無料で利用可能
既存のASR用コーパスと異なり、InaGVADは非音声イベントのタイミングを正確に記録しており、VADやSGSシステムの評価に適しています。

 技術や手法の肝はどこ？コーパスの構築における主要な技術的特徴は以下の通りです：
300ミリ秒を最小単位とする精密な音声セグメンテーション
性別（男性/女性/不明）、年齢（子供/大人/高齢者）、音声品質（標準/間投詞/特殊）の3次元でのアノテーション体系
10種類の非音声イベント（拍手、環境音、ざわめき、ジングル、前景音楽、背景音楽、呼吸音、笑い声、その他、無音）のカテゴリー分類
'+'記号を用いた重複現象の表現（例：「HA*+FE」は特殊な声質の成人男性と女児の音声の重複を示す）

 どうやって有効だと検証した？以下の方法で検証を行っています：
6つのオープンソースVADソフトウェアによるベンチマーク評価
3つのSGSシステム（InaSpeechSegmenter、LIUM SpkDiarization、提案手法のECASGS）の性能比較
チャンネルカテゴリー別、非音声イベントカテゴリー別の詳細な性能分析
女性発話時間割合（WSTP）の推定精度評価

 議論はある？主な議論点として以下が挙げられています：
アノテーションの品質と効率のトレードオフ（20分の作業時間/1分の音声に対して）
歌声の扱い（音声として扱うべきか非音声として扱うべきか）
非二元的性別表現の扱いの課題（現状では「不明」カテゴリーのみ）
データセットの規模の制限（4時間37分）と、その影響

 次に読むべき論文は？以下の論文が関連研究として挙げられています：
Bredin & Laurent (2021) "End-to-end speaker segmentation for overlap-aware resegmentation"
Doukhan et al. (2018) "An open-source speaker gender detection framework for monitoring gender equality"
Ryant et al. (2019) "The second dihard diarization challenge: Dataset, task, and baselines"
Kong et al. (2023) "Strada: A singer traits dataset"
Q: 性能比較についてまとめてください。比較対象についても記載してください。

 性能比較の詳細
 VADシステムの比較以下の6つのオープンソースVADシステムを比較評価しています：
LIUM SpkDiarization
inaSpeechSegmenter
pyannote.audio's VAD
silero-vad
rvad
SpeechBrain
主な評価指標：
精度 (Accuracy)：入力信号の正しい分類の割合
適合率 (Precision)：音声予測における音声の割合
再現率 (Recall)：アノテーションされた音声の検出率
誤検出 (False Alarm)：非音声の音声への誤分類
結果：
inaSpeechSegmenterが精度と適合率で最高性能（93%、91.7%）
pyannotが再現率で最高性能（98.8%）
チャンネルカテゴリー別では一般ラジオとニュースTVで高性能（平均精度95.2%と94.2%）
一般TVが最も困難なカテゴリー

 SGSシステムの比較以下の3つのシステムを比較：
InaSpeechSegmenter（既存）
LIUM SpkDiarization（既存）
ECASGS（提案手法：InaGVAD開発セットで学習）
主な評価指標：
識別エラー率 (IER)
女性発話時間割合の推定誤差 (Werr)
録音ごとのWSTB二乗平均平方根誤差 (Wrms)
結果：
ECASGSが最高のIERとWrms値を達成
InaSpeechSegmenterが最も正確なWerr値（-0.1）を達成
チャンネルカテゴリー別では：
一般ラジオとニュースTVで高性能
音楽ラジオと一般TVで課題あり


 非音声イベントの検出性能笑い声が最も検出が困難（最良結果でも誤検出率63.1%）
呼吸音の検出も困難（最良結果で誤検出率41.1%）
前景音楽での性能差が最大（誤検出率1.5%～91.5%）
論文での評価では、Silelo VADよりも高い結果となっているが、以下の記事によると車載というユースケースではいまいちだったらしい。ノイズとかに弱いとかなのかも？
https://qiita.com/hanaya/items/7e5dab92291c8dafedf5
あと、論文には他にも色々実装が紹介されている。

kun432

 pyannote.audiohttps://github.com/pyannote/pyannote-audio/tree/develop
話者ダイアライゼーションを行うためのツールキットらしいけど、VADもできる。以下にサンプルコードがある。
https://github.com/pyannote/pyannote-audio/tree/develop/tutorials/voice_activity_detection.ipynb

kun432

このスクラップは2025/01/15にクローズされました