CommonCrawl WARC から日本語を抽出するメモ

syoyo

https://commoncrawl.org/

WARC : html タグとかふくんだ生データ

最新 WARC snapshot CC-MAIN-2023-40 は 98 TB(9000 files)ほど.

LLM 向けにデータセット作る場合は WARC から始めたほうがよいっぽい(RefinedWeb 参照).

syoyo

WET には言語判定メタデータ

WARC-Identified-Content-Language

があるので, まずは WET を見て, これで jpn と判定したのだけ WARC から抜き出すとよいであろう.

syoyo

index をみたほうが楽だった.

12,14,122,153)/en/shop/c_o_n_t_a_c_t_us?oscsid=ijiq2sk7doh6gc6olic6stbjo3 20231005001910 {"url": "http://153.122.14.12/en/shop/c_o_n_t_a_c_t_us/?osCsid=ijiq2sk7doh6gc6olic6stbjo3", "mime": "text/html", "mime-detected": "text/html", "status": "200", "digest": "E3FVOOAKBX3E3IL25PDBXPPXOPQKCICB", "length": "6064", "offset": "112457", "filename": "crawl-data/CC-MAIN-2023-40/segments/1695233511424.48/warc/CC-MAIN-20231004220037-20231005010037-00561.warc.gz", "charset": "UTF-8", "languages": "eng,jpn"}

syoyo

一応最近の WARC だと metadata に言語判定メタ情報があった

languages-cld2: {"reliable":true,"text-bytes":4081,"languages":[{"code":"ja","code-iso-639-3":"jpn","text-covered":0.85,"score":3192.0,"name":"Japanese"},{"code":"en","code-iso-639-3":"eng","text-covered":0.1,"score":1149.0,"name":"ENGLISH"}]}