🐥

RWKV を商用利用可能なchat 向けデータセットでファインチューンしたいメモ(日本語成分マシマシで)

2023/04/26に公開

RWKV で日本語でファインチューンしたのでええ感じの作りたい... ライセンスに問題ない(Apache 2.0 or CC-BY-SA 的ライセンスで)形で.

Vicuna とか日本語ええ感じだけど, LLaMa 系なので商用利用できんのよね(あと元モデルは Meta に承認されんと取得できない. https://huggingface.co/decapoda-research に huggingface 版が黙認?でホストされてはいるが... )

Alpaca は CC-BY-NC 4.0 でそれの派生(finetuned)したのも同様っぽいので, 商用利用にはリスクある...

HuggingChat(OpenAssistant)も出てきたけど, そこそこ受け答えはいいけど, 現時点では LLaMa とか入っているので商用利用は NG ネ.

RWKV Raven(Alpaca とかでファインチューンしたやつ)は Apache 2.0 ライセンスだけどええんか?

RWKV のベース自体は商用利用可能(のはず)ので, RWKV をライセンスに問題ないデータセットでファインチューンでどうか!

情報

StableLM とか Dolly あたりで使われているもの

ChatGPT とか使ってもいいでしょうが, NLLB という手もありますね.

俺たちの Stability AI がええ感じの日本語 StableChat (商用利用可能)出してくれるまで待つという手も...!!!

RWKV も多言語対応強化 tokenizer つくったので, それでいい感じに Jp 成分多めで学習された元モデルを待つという手も?