Open11
日本語が話せるLLMに使われた学習データセット
Japanese StableLM instruct alpha 7B
ベースは Japanese StableLM base alpha 7B
データセット
- スタンフォード Alpaca の日本語訳 (fujiki/japanese_alpaca_data)
- Databricks Dolly の日本語訳 (kunishou/databricks-dolly-15k-ja)
- Anthropic HH の日本語訳の一部 (fujiki/japanese_hh-rlhf-49k)
- Wikinews (タイトル付けタスク?) (fujiki/llm-japanese-dataset_wikinews)
リンク
OpenCALM 7B
データセット
- 日本語 Wikipedia
- 日本語 Common Crawl
リンク
LINE 3.6B
データセット
- C4, CC-100, OSCAR の日本語
- 独自にクロールした Web データ
合計 650 GB
リンク
rinna bilingual 4B instruction
ベースは rinna bilingual 4B
データセット
- Anthropic HH RLHF の日本語訳
- FLAN Instruction Tuning data の日本語訳
リンク
ELYZA 7B
ベースは Llama-2-7b-chat
データセット
- OSCAR, Wikipedia の日本語サブセット
- その他? (不明)
合計 18B トークン
リンク
ELYZA 7B instruct
ベースは ELYZA 7B
データセット
- 独自の高品質な指示データセット (詳細不明)
- GPT-3.5、4の出力は含まれない
リンク
Weblab 10B
データセット
- 日本語 C4
- The Pile
合計 600B トークン
リンク
Weblab 10B instruction
ベースは Weblab 10B
データセット
リンク