📑
wiki40b ja データセットをダウンロードするメモ
整形済みの wikipedia 日本語データほしい...
現状(2023/07)では wiki40b しかないようです.
ただ, tensorflow-dataset 経由でめんどくさすぎ...
(正確には gs://
経由)
というか tensorflow ってまだあったの?... 使いたくない...
あと protobuf のバージョン低くしていると wiki40b
出てこんみたいで私の環境では wiki40b
選べずにエラーになりました... tensorflow-dataset ひどすぎです!
huggingface dataset から取得
range3/wiki40b-ja
で取得できました.
ありがとうございます.
TODO
- 自前で wikipedia 日本語データセットをクリーニングして公開する!
Discussion