Open11

日本語が話せるLLMに使われた学習データセット

PlatPlat

Japanese StableLM base alpha 7B

データセット

  • 日本語と英語の Wikipedia
  • mc4 の日本語サブセット(?)
  • CC-100 の日本語サブセット(?)
  • OSCAR の日本語サブセット(?)
  • RedPajama

(日本語のサブセット使ったのか英語を翻訳したのかわからないけど、おそらく日本語のものをそのまま使っている気がする。)

合計 750B トークン

リンク

https://huggingface.co/stabilityai/japanese-stablelm-base-alpha-7b#training-dataset

PlatPlat

Japanese StableLM instruct alpha 7B

ベースは Japanese StableLM base alpha 7B

データセット

リンク

https://huggingface.co/stabilityai/japanese-stablelm-instruct-alpha-7b#training-dataset