Open11

日本語 LLM のためのデータセットメモ

syoyosyoyo

CC-100

https://data.statmt.org/cc-100/

日本語は 15 GB ほど. ただサーバが弱いのかダウンロードには時間かかる.

...
台湾料理の店でチャーハンと餃子を食べて、函南の道の駅で買い物して、スーパーで夕飯のおかずを買って帰宅。
試しにマクタロウと半分個して食べてみようってことで1個ずつ買ってみました。
これだと咲いているように見えますが、咲いている木から木まで結構な距離があります。
伊豆シャボテン動物公園 〒413-0231 静岡県伊東市富戸1317−13
なんとなく物足りなかったので…思い切ってシャボテン公園にカピバラを見に行ってみました!
ちょうどお風呂タイムでカピバラ一家が気持ち良さそうにお風呂に入ってました。
...

内容としては一定のクリーニングがされているようでした(文字化けなどない)

ただ, ↑のように二つの記事(段落?)が mix されているような文章が多く, 微妙におかしい日本語文章が結構ある感じでした
(とくに "..." が含まれている文章)

あと, ファイルは(展開しても)一個なので, 適当に分割するなりが必要でしょう.

syoyosyoyo

ここで LLaMa 論文再訪

https://arxiv.org/abs/2302.13971

  • English CC(CommonCrawl)
  • mC4
    • 元データはある程度キュレーションされている. 追加で LLaMa 側でフィルタリング処理など
    • 日本語はデータセットの時点で微妙なので, フィルタリングされたとしてもあまりいい感じになっていいないと思われる
  • Wikipedia, book3
    • 日本語は含まれていない
  • ArXiv, stackexchange, Github...

したがって LLaMa での日本語知識は mC4 or ArXiv,Github あたりで獲得しているのじゃろか...

syoyosyoyo

ちょっと寄り道して...

Textbooks Are All You Need
https://arxiv.org/abs/2306.11644

主に Python コード生成用であるが, クオリティ高いデータセットで学習すればクオリティ高い結果が少ないデータセットとネットワーク規模で実現できる.

syoyosyoyo

Chinese LLaMa では中国語(20 GB くらい)を追加学習(オリジナルの LLaMa checkpoint からはじめて, Chinese 要素増やした tokenizer と中国語データセットで LoRA 学習)している

https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/README_EN.md

これの中国語性能がよいのであれば(たぶん良いであろう), llama 10 ~ 30B 規模の pretrained からはじめて CC100 日本語データセットで追加学習させてみるのもよいかもしれません(llama.cpp あたり使えば CPU cluster 32 台で 1 週間とかでいけそう?)