【LLM】1B帯の日本語事前学習モデルのベンチマークを測定する
はじめに
先日、新しい1B帯の事前学習モデルとしてJapanese Stable LM 2 1.6Bが発表されました。
こちらのモデルはSFTモデルに関してはllm-jp-evalとMT-Benchの結果が公開されていたのですが、事前学習モデルに関してはベンチマークの結果が記載されていなかったため、llm-jp-evalを実施して性能を測定しました。
比較としてその他に発表されているパラメータ数が1B帯の事前学習モデルに関してもベンチマークを実施しました。
ベンチマークで性能を完全に測ることはできませんが、モデル選択時の参考にしていただければと思います。
ベンチマーク環境
ベンチマークにはllm-jp-evalを使用します。
v1.3.0のタグを使用しようとしたのですが、以下のIssueで報告されているように一部ダウンロードが失敗するデータがあるという不具合がありました。
そのためこちらの不具合に関する修正が行われたbbc03c655a93b244b6951f9549aad7dbf523508aのコミットが行われたコードを使用します。
ベンチマーク実行時のパラメータは全てのモデルに関してllm-jp-evalのデフォルト設定を使用し、modelとtokenizerだけ各モデルに合わせて変更します。
結果
ベンチマーク結果は以下のとおりです(太字がそのタスクでスコアが最高のものです)。
モデル | EL | FA | HE | MC | MR | MT | NLI | QA | RC | AVG |
---|---|---|---|---|---|---|---|---|---|---|
stabilityai/japanese-stablelm-2-base-1_6b | 0.3131 | 0.0897 | 0.1950 | 0.2700 | 0.0700 | 0.6553 | 0.5380 | 0.3424 | 0.7318 | 0.3561 |
lightblue/karasu-1.1B | 0.2324 | 0.0460 | 0.2700 | 0.1400 | 0.0300 | 0.5803 | 0.3240 | 0.2387 | 0.3104 | 0.2413 |
llm-jp/llm-jp-1.3b-v1.0 | 0.0968 | 0.0642 | 0.2350 | 0.1400 | 0.0100 | 0.5793 | 0.3340 | 0.2834 | 0.3388 | 0.2313 |
cyberagent/open-calm-1b | 0.0996 | 0.0186 | 0.1900 | 0.2000 | 0.0000 | 0.4219 | 0.2880 | 0.2121 | 0.1841 | 0.1794 |
line-corporation/japanese-large-lm-1.7b | 0.0000 | 0.0133 | 0.0000 | 0.0000 | 0.0000 | 0.3207 | 0.1940 | 0.0625 | 0.1058 | 0.0774 |
HE以外はjapanese-stablelm-2-base-1_6が最もスコアが高いという結果になりました。
これに関してはベースのモデルが強いということもありますが、CulturaXが日本語モデルの事前学習データとして有効な可能性があります。
また、Averageは次点でkarasu-1.1B、llm-jp-1.3b-v1.0が高いことから1B帯のモデルでも継続事前学習や学習データに英語のデータを含めることで性能が向上することが分かります。
まとめ
本記事では1B帯のLLMのベンチマークを測定しました。
現状japanese-stablelm-2-base-1_6が最もスコアが高かったため、ライセンスを意識しないのであれば初手にこちらのモデルを使用するのが良いのかなと思いました。
1B帯のモデルは個人でもフルパラメータチューニングが行いやすいため、今後も様々な企業から事前学習済みモデルが発表されると良いなと思いました。
Discussion
指示学習モデルはjasterを使っているからllm-jp-evalのスコアが高いのだろうと思いこんでいましたが、実はbaseモデルの性能も高かったということだったのですね。。勉強になりました、ありがとうございます 🙇
Stability AIが発表されてたデータでは指示学習モデルしか評価が行われておらず、おっしゃるとおりjaster学習させているだけでベースモデルは弱いのではと思い今回評価を行いました。
ベンチマークを行ったところベースモデルも強うそうという結果になりました。