👑

GPT-4o miniにShaberi3ベンチマークを採点させてみた

2024/07/23に公開

macOS

はじめに

どんな人向けの記事？

ローカルLLMに興味のある方
ローカルLLMの日本語性能に興味のある方
採点者とベンチマーク評価の依存性を知りたい方

環境

Mac Studio（M2 Ultra 128GB）

内容

今回の記事では、GPT-4o miniにShaberi3ベンチマークの採点をしてもらい、採点者によってLLMのランキングやベンチマークスコアがどう変化するかを見ていきたいと思います。
ちなみに、これまでは下記のうみゆきさんの記事に倣い、gemini-1.5-flashで採点していました。

採点者としてのローカルLLMの選定

GPT-4o miniを使って追加で採点するだけでもよいのですが、せっかくなのでローカルLLMを使って採点したときにどうなるかも確認したいと思います。
しかしすべてのモデルを試していては時間と電気代がバカにならないので、一つに絞ることにしました。

とりあえず、候補としては下記のパラメータサイズが異なる3つを選定しました。

採点者候補のローカルモデル	パラメータサイズ	理由
EZO-Humanities-9B-gemma-2-it-f16	9B	ローカルLLMのShaberi3ベンチスコアが最高だったため
gemma-2-27b-it.f16.Q8_0	27B	30Bクラスでスコアが最高だったため
Athene-70B_Q4_K_M	70B	70Bクラスでスコアが最高だったため

（参考）2024/7/21時点での評価結果

なぜパラメータサイズを分けたかですが、例えばEZO-Humanities-9B-gemma-2-it-f16モデルはベンチマークスコアとしては最高なのですが、zoltraakの記事で述べたように、非常に複雑なタスクではよりパラメータサイズの大きなモデルの方が期待通りのパフォーマンスを示せていたように感じたためです。
そして、LLMの回答を正確に評価するというタスクは、回答を生成することよりも複雑なタスクと言えると思います。そのため、比較的大型のモデルも選定対象に入れました。

ローカルLLM3モデルの採点者

まずは小手調べに、claude-3-opus-20240229の回答を上記3つのモデルに評価させてみました。
その結果、特に迷うことなくgemma-2-27b-it.f16.Q8_0を採用することに決まりました。
その理由は、scoreのnull数（つまり採点結果が格納されていなかった数）の多さです。

モデル	null score数
EZO-Humanities-9B-gemma-2-it-f16	95
gemma-2-27b-it.f16.Q8_0	0
Athene-70B_Q4_K_M	49
gemini-1.5-flash	4
gpt-4o-mini-2024-07-18	0

確認したところ、null だったスコアはカウントされず、それ以外の点数で平均化されるようです。
そのため、null score数が多いほど不正確な評価になってしまうことになり、そういった観点で3つのローカルモデルの中ではgemma-2-27b-it.f16.Q8_0一択となりました。
Athene-70B_Q4_K_MやEZO-Humanities-9B-gemma-2-it-f16は、回答の質は高いものの採点者としての能力はそれほど高くなかったようです。

結果

ベンチマークスコア

それでは、採点者をgemini-1.5-flash, gpt-4o-mini-2024-07-18, gemma-2-27b-it.f16.Q8_0としたときのランキングとスコアを見ていきましょう。
下記の図は、採点者3モデルの重み付き平均を高い順に並べたものになっています。
また、各モデルの下に書かれている数値は平均との差を表します。

Alt text

図からわかることは下記のとおりです。

gpt-4o-mini-2024-07-18は全体的にスコアが甘い。
→憶測だが、厳密さよりも人間に心地よい印象を与える機能がある？
gemini-1.5-flashとgemma-2-27b-it.f16.Q8_0は比較的点数が近い。
　→まあ同じGoogle製のモデルなので当然といえば当然か
gemma-2-27b-it.f16.Q8_0は、若干身内（gemma-2モデル）に甘い。
gpt-4o-mini-2024-07-18とgemini-1.5-flashは、自分に甘い採点はしていない。

ランキング

参考までに、ランキングについても記載します。右側のモデルの下にあるのは、平均からの差分です。

ランキング（3モデルの平均）	被評価モデル	gemini-1.5-flash	gpt-4o-mini-2024-07-18	gemma-2-27b-it.f16.Q8_0
1	claude-3-opus-20240229			+1
2	gpt-4o-2024-05-13			-1
3	gemini-1.5-pro
4	gpt-4o-mini-2024-07-18
5	EZO-Humanities-9B-gemma-2-it-f16			+2
6	gemma-2-27b-it.f16.Q8_0	+2		-1
7	Athene-70B_Q4_K_M		+1	-1
8	EZO-Common-9B-gemma-2-it-f16	-2	+1	+3
9	qwen2:72b-instruct-q4_K_M		+2	-1
10	claude-3-sonnet-20240229	+3	-3	-1
11	gemini-1.5-flash		-1	+2
12	gemma-2-9b-it.f16.Q8_0			-3
13	Gemma-2-9B-It-SPPO-Iter3-f16	-3
14	Llama-3-EZO-8b-Common-it-f16
15	claude-3-haiku-20240307			+1
16	calm3-22b-chat-fp16			-1
17	c4ai-command-r-plus-Q4_K_M
18	Llama-3-ELYZA-JP-8B-f16	+1
19	gpt-3.5-turbo-0125	-1
20	mistral-nemo:12b-instruct-2407-fp16

ランキングを見た感じ、下記のような階層構造があるように見えます。

トップクラス：claude-3-opus-20240229、gpt-4o-2024-05-13
→おそらくここにclaude-3.5-sonnetも入るはず。
準トップクラス：gemini-1.5-pro 、gpt-4o-mini-2024-07-18
→現状のローカルLLMの壁
ローカルLLM最強クラス：EZO-Humanities-9B-gemma-2-it-f16〜Gemma-2-9B-It-SPPO-Iter3-f16
→ほとんどスコアが同じ様々なモデルがひしめき合っている。ただし、gemma-2系が多い。
ローカルLLM高性能クラス：Llama-3-EZO-8b-Common-it-f16〜mistral-nemo:12b-instruct-2407-fp16

それと、gemini-1.5-flashが結構下の方まできてしまったのに驚きました。
今後gemma-2並かそれ以上のモデルを評価するなら、gpt-4o-mini-2024-07-18またはgemma-2-27b-it.f16.Q8_0で評価した方が良いかもしれません。
そもそも自分よりも賢いモデルを評価したときに、どれくらい正当な評価になっているのかが少し疑問に感じました。

参考：評価に要した時間と料金

参考までに、1つのモデルの評価にかかった時間とおおまかな料金は下記のとおりでした。

モデル	時間	料金
EZO-Humanities-9B-gemma-2-it-f16	29分	2.9円（電気代）
gemma-2-27b-it.f16.Q8_0	35分	3.5円（電気代）
Athene-70B_Q4_K_M	2時間	11.9円（電気代）
gemini-1.5-flash	20分（レートリミットで律速）	0円（API料金のみ）
gpt-4o-mini-2024-07-18	5分（レートリミットで律速）	0.08米ドル ≒ 12.5円（API料金のみ）

gpt-4o-mini-2024-07-18のAPI料金が、ローカルLLMの電気代にかなり近づいてきていますね。。。
gpt-4o-mini-2024-07-18は性能も高くて、さらに超高速なのでローカルLLMの優位性がますますなくなってきました。

まとめ

今回の記事では、GPT-4o miniにShaberi3ベンチマークの採点をしてもらい、採点者によってLLMのランキングやベンチマークスコアがどう変化するかを見てきました。
特筆事項をまとめると、下記のとおりです。

gpt-4o-miniの採点は全体的に甘い傾向はあるものの、採点者を変えてもモデル間の相対評価という観点では大きなランキング変動は起きなかった。
- 自分に極端に甘い採点をする、といった事象は見られなかった。
gemma-2-27b-it.f16.Q8_0モデルの性能が思ったより高く、かつ採点者としての能力もそこそこ高いことがわかった。
gpt-4o-mini-2024-07-18の登場により、API料金の価格破壊が起きた。
- 価格だけで見ても、ローカルLLMの電気代と同じくらいのオーダーまできてしまった。
- 性能や速度面ではgpt-4o-mini-2024-07-18の方が優れており、ローカルLLMの立つ瀬がなくなりつつある。

上記のように、意外性のある結果は得られませんでした。今回採点者として用いたLLMは思っていたより公平なようです。
gpt-4o-miniは、打破すべき明確な壁となりました。今後、このモデルを超えるローカルLLMが誕生することを期待しています！

ここまで見ていただきありがとうございました。次回もぜひ、よろしくお願いします。

Discussion

ログインするとコメントできます