RWKV を商用利用可能なchat 向けデータセットでファインチューンしたいメモ(日本語成分マシマシで)
RWKV で日本語でファインチューンしたのでええ感じの作りたい... ライセンスに問題ない(Apache 2.0 or CC-BY-SA 的ライセンスで)形で.
Vicuna とか日本語ええ感じだけど, LLaMa 系なので商用利用できんのよね(あと元モデルは Meta に承認されんと取得できない. https://huggingface.co/decapoda-research に huggingface 版が黙認?でホストされてはいるが... )
Alpaca は CC-BY-NC 4.0 でそれの派生(finetuned)したのも同様っぽいので, 商用利用にはリスクある...
HuggingChat(OpenAssistant)も出てきたけど, そこそこ受け答えはいいけど, 現時点では LLaMa とか入っているので商用利用は NG ネ.
RWKV Raven(Alpaca とかでファインチューンしたやつ)は Apache 2.0 ライセンスだけどええんか?
RWKV のベース自体は商用利用可能(のはず)ので, RWKV をライセンスに問題ないデータセットでファインチューンでどうか!
情報
StableLM とか Dolly あたりで使われているもの
-
Dolly 2.0 データセット: https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm
- 日本語は https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja
- CC-BY-SA 3.0 ライセンス
-
GPT4ALL https://github.com/nomic-ai/gpt4all のデータセット
- GPT4ALL は Apache 2.0 謳っているがええんか?(元は CC-BY-NC なモデル)
- https://huggingface.co/datasets/nomic-ai/gpt4all-j-prompt-generations
- データセットは apache 2.0 で問題なさそう?(日本語訳化必要)
-
ShareGPT
- https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- cc0 でパブリックドメイン相当
-
HH
- https://github.com/anthropics/hh-rlhf
- MIT license
-
Open Assistant
日本語化
ChatGPT とか使ってもいいでしょうが, NLLB という手もありますね.
その他
俺たちの Stability AI がええ感じの日本語 StableChat (商用利用可能)出してくれるまで待つという手も...!!!
RWKV も多言語対応強化 tokenizer つくったので, それでいい感じに Jp 成分多めで学習された元モデルを待つという手も?
TODO
- Dolly LLM と結果を比較してみる
Discussion