もはや誰も使っていないのと思うのだが, tensorflow_data を使っているのでしぶしぶ tensorflow 関連インストールしておきます...
(データセットダウンロードだけなので, 一通り動くの試したら huggingface datasets に移行も検討してみましょう: https://zenn.dev/syoyo/articles/a83d44f4d2da1e )

日本語は wiki40b/ja 指定なのですが, これだと wiki40b/ja.test みたいなファイルが生成されてしまうので, scripts/load_dataset.py スクリプト修正してデータセット名だけ wiki40b/ja になるようにしておきます.

あとは README sample にあるように,

$ python3 scripts/load_dataset.py --data_dir ~/tensorflow_datasets --save_dir data --name wiki40b --split test

著者環境ではダウンロード終了&データ変換後 tensorflow のメモリリーク関連かなんかエラーがでてしまいましたが, ダウンロードと変換自体はできているので無視して OK でした.

suffix array 構築

tmp フォルダ作っておかないとエラーになるので, 先に tmp フォルダ作っておいたのち,

$ python3 scripts/make_suffix_array.py data/wiki40b.test

でいけます!

頻度をチェック

$ python scripts/count_occurrences.py --suffix data/wiki40b.test --query "東京"
Number of times present: 11952

Voila~

重複をチェック!

$ cargo run self-similar --data-file data/wiki40b.test --length-threshold 100 --cache-dir tmp/cache --num-threads 8

...
Duplicates found: 269594
Total time taken: 2236ms

👌

あとはいろいろいじって exact dedup できるでしょう!

さらなる高みへ...

tokenize する

日本語だと 1/2 ~ 1/3 に圧縮が期待されます.

メモリ効率よくしたい

全部オンメモリで扱うようで, C4(300GB)の処理には 600GB のメモリが必要とあります.

日本語特化 tokenizer である程度圧縮できるとは思いますが, mmap なり out-of-core で 128GB くらいで処理できるようにしたいところですね.

ただそれでも suffix array は一つのファイルにするなどしているため 100 GB ~ 1 TB 扱うのがめんどいです.

100 GB over の場合は自前で 10 GB 単位くらいで処理するような suffix array のコードを書くのが良いでしょう

他ツールとの連携

には exact-dedup 部分に deduplicate-text-datasets の Rust 部分が使われているので, text-dedup 使うのも検討してみましょう.

日本語いける?

試す

日本語 wiki40b ダウンロード