🤖

ReazonSpeech 日本語コーパスダウンロードのメモ

2023/02/02に公開

2 万時間近くの(著作権法の許容内で商用での)学習にも使える日本語コーパスええね

https://research.reazon.jp/projects/ReazonSpeech/index.html

https://huggingface.co/datasets/reazon-research/reazonspeech

セットアップ

huggingface にログイン登録がいるかもしれません
(少なくとも web での確認には必要)

とりま small をダウンロードする

huggingface datasets(ややこしい名前だね... )でダウンロードできます!

$ python -m pip install datasets

しておき,

from datasets import load_dataset

dataset = load_dataset("reazon-research/reazonspeech")

でとりあえずは small (350 MB くらい)が落とせます.

all をダウンロードする

configuration を設定します!

Huggingface Datasets 入門 (2) - データセットの読み込み
https://note.com/npaka/n/n17ecbd890cd6

ありがとうございます.

今回は単に引数に "all" つけるだけです.

from datasets import load_dataset

dataset = load_dataset("reazon-research/reazonspeech", "all")

1 TB 以上あるようなので, つよつよ SSD 用意しておきましょう.
(340 MB x 4096 個で, 1.4 TB ほどっぽい)

データセットの一部でよければ, npaka 先生の解説サイトを参考に split あたりを設定するとよさそうです!

dataset download スクリプトのありか

$HOME/.cache/huggingface/modules/datasets_modules/datasets/reazon-research--reazonspeech/d5a02359e78ed01812f8571c3480
18f9a21f04094a2bb41be18ba5657fc01947/reasonzpeech.py

にあります. ハッシュ名は環境によって異るかもしれません.

extract される...

↑の dataset スクリプトでは extract しているため, ストレージでは 2 倍の領域を確保しておく必要があります.

ファイルがこわている...

筆者は, 途中で connection 切れなどでファイルが壊れていて extract でエラーがでてしまいました.

huggingface datasets 自体はダウンロードしたファイルのハッシュ確認や整合性チェックなどはしません(ダウンロード元にハッシュがあればそれを使うのかしらん? datasets ソースコードみるのもめいどいので未検証)

また, datgasets はファイル名をハッシュにするので, ls で見てもなにがどのファイルかまったくわかりません. ハッシュ名.json で元ファイル名が残っていますのでそれで頑張って確認し, 壊れているファイルは削除してダウンロードしなおすしかありません.

webdatasets 化?

huggingface datasets だと, ファイル名はハッシュ管理されてわかりずらいし, トラブルあったときにはコード見て対応しないとで面倒なので, 自前で webdatset フォーマットで管理したほうがいいかもしれません. 幸いにも reazonspeech の元ファイルはすでに tar 化されています.

その他の話題

https://huggingface.co/datasets/reazon-research/reazonspeech/blob/main/reazonspeech.py

データセットの実体は abci.ai にホスティングされています.
(日本のサーバにホスティングされているので, 日本国内からアクセスするぶんには著作権的にも OK ネ(のはず))

TODO

  • tdmelodic あたりでアクセント推定しつつ reazonspeech コーパスで学習させてええ感じの TTS を実現する
  • ReazonSpeech コーパスを Whisper large にかけてアノテーションとの正確度を測る
  • ReazonSpeech コーパスで Whisper large ファインチューンする

Discussion