🐥

RWKV を商用利用可能なchat 向けデータセットでファインチューンしたいメモ(日本語成分マシマシで)

2023/04/26に公開

RWKV で日本語でファインチューンしたのでええ感じの作りたい... ライセンスに問題ない(Apache 2.0 or CC-BY-SA 的ライセンスで)形で.

Vicuna とか日本語ええ感じだけど, LLaMa 系なので商用利用できんのよね(あと元モデルは Meta に承認されんと取得できない. https://huggingface.co/decapoda-research に huggingface 版が黙認?でホストされてはいるが... )

Alpaca は CC-BY-NC 4.0 でそれの派生(finetuned)したのも同様っぽいので, 商用利用にはリスクある...

https://crfm.stanford.edu/2023/03/13/alpaca.html

HuggingChat(OpenAssistant)も出てきたけど, そこそこ受け答えはいいけど, 現時点では LLaMa とか入っているので商用利用は NG ネ.

https://huggingface.co/chat/

RWKV Raven(Alpaca とかでファインチューンしたやつ)は Apache 2.0 ライセンスだけどええんか?

RWKV のベース自体は商用利用可能(のはず)ので, RWKV をライセンスに問題ないデータセットでファインチューンでどうか!

情報

StableLM とか Dolly あたりで使われているもの

日本語化

ChatGPT とか使ってもいいでしょうが, NLLB という手もありますね.

https://zenn.dev/syoyo/articles/9a159ee747835a

その他

俺たちの Stability AI がええ感じの日本語 StableChat (商用利用可能)出してくれるまで待つという手も...!!!

https://www.techno-edge.net/article/2023/04/20/1189.html

RWKV も多言語対応強化 tokenizer つくったので, それでいい感じに Jp 成分多めで学習された元モデルを待つという手も?

TODO

  • Dolly LLM と結果を比較してみる

Discussion