ReazonSpeech 日本語コーパスダウンロードのメモ
2 万時間近くの(著作権法の許容内で商用での)学習にも使える日本語コーパスええね
セットアップ
huggingface にログイン登録がいるかもしれません
(少なくとも web での確認には必要)
とりま small をダウンロードする
huggingface datasets(ややこしい名前だね... )でダウンロードできます!
$ python -m pip install datasets
しておき,
from datasets import load_dataset
dataset = load_dataset("reazon-research/reazonspeech")
でとりあえずは small (350 MB くらい)が落とせます.
all をダウンロードする
configuration を設定します!
Huggingface Datasets 入門 (2) - データセットの読み込み
ありがとうございます.
今回は単に引数に "all"
つけるだけです.
from datasets import load_dataset
dataset = load_dataset("reazon-research/reazonspeech", "all")
1 TB 以上あるようなので, つよつよ SSD 用意しておきましょう.
(340 MB x 4096 個で, 1.4 TB ほどっぽい)
データセットの一部でよければ, npaka 先生の解説サイトを参考に split あたりを設定するとよさそうです!
dataset download スクリプトのありか
$HOME/.cache/huggingface/modules/datasets_modules/datasets/reazon-research--reazonspeech/d5a02359e78ed01812f8571c3480
18f9a21f04094a2bb41be18ba5657fc01947/reasonzpeech.py
にあります. ハッシュ名は環境によって異るかもしれません.
extract される...
↑の dataset スクリプトでは extract しているため, ストレージでは 2 倍の領域を確保しておく必要があります.
ファイルがこわている...
筆者は, 途中で connection 切れなどでファイルが壊れていて extract でエラーがでてしまいました.
huggingface datasets 自体はダウンロードしたファイルのハッシュ確認や整合性チェックなどはしません(ダウンロード元にハッシュがあればそれを使うのかしらん? datasets ソースコードみるのもめいどいので未検証)
また, datgasets はファイル名をハッシュにするので, ls で見てもなにがどのファイルかまったくわかりません. ハッシュ名.json
で元ファイル名が残っていますのでそれで頑張って確認し, 壊れているファイルは削除してダウンロードしなおすしかありません.
webdatasets 化?
huggingface datasets だと, ファイル名はハッシュ管理されてわかりずらいし, トラブルあったときにはコード見て対応しないとで面倒なので, 自前で webdatset フォーマットで管理したほうがいいかもしれません. 幸いにも reazonspeech の元ファイルはすでに tar 化されています.
その他の話題
データセットの実体は abci.ai にホスティングされています.
(日本のサーバにホスティングされているので, 日本国内からアクセスするぶんには著作権的にも OK ネ(のはず))
TODO
- tdmelodic あたりでアクセント推定しつつ reazonspeech コーパスで学習させてええ感じの TTS を実現する
- ReazonSpeech コーパスを Whisper large にかけてアノテーションとの正確度を測る
- ReazonSpeech コーパスで Whisper large ファインチューンする
Discussion