日本語入力システムSumibiの開発 part8:各社LLMモデルのベンチマークを取ってみた
はじめに
これまで Sumibi (ローマ字仮名漢字変換) にどのLLMが適しているのかを感覚的にしか把握していませんでした。重い腰を上げてベンチマークを取り、感覚ではなく数字で良し悪しを把握できるようになりました。ちなみに、ベンチマークで一番適しているという結果が出たので、この記事は Gemini 2.0 Flash で書いています。課金と変換精度も問題がなく、快適に文章を入力できています。
結論:Sumibiに適したモデルは?
全体的な傾向
- 全体的にOpenAIよりもGoogleの方がコスパが良いです。
- レスポンス時間が長くても変換精度が上がるとは限りません。
順位は?
1位は Gemini 2.0 Flash、2位は GPT-4.1 といったところでしょうか。課金を気にしないのなら、少しだけ変換精度の良い GPT-4.1 もありますが、僅かな精度の差しかないため、気兼ねなく文章を入力できるのは、Gemini 2.0 Flash でしょう。
ベンチマーク結果の解説
使用したデータ
AJIMEE-Bench を使っています。日本語Wikipedia入力誤りデータセット (v2) を元に作成されたデータで、200件のテストデータが入っています。詳細は、GitHubのREADMEを確認してください。
エラー率グラフの見方
-
縦軸が変換エラー率
ローマ字から漢字仮名交じり文への変換エラー率です。期待する日本語変換結果とSumibiの変換結果との間の編集距離(挿入・削除・置換の最小回数)を計算します。編集距離を求めるアルゴリズムは、Levenshteinです。
-
横軸が1回の日本語変換の費用
-
円の大きさが変換の平均時間(秒)
平均レスポンス時間のグラフの見方
レスポンス時間の観点で比較するためのグラフです。
- 縦軸が平均レスポンス時間(秒)
- 赤色の折れ線が変換エラー率
より詳細な情報は、こちらのベンチマーク結果のまとめを見てください。
ベンチマークを取ってみた感想
Googleの方が安いですが、OpenAIとGoogleは熾烈なシェア争いをしているので、今だけ安いだけなのか、理由は分かりません。まだClaudeシリーズを試していないので、また機会があれば試してみたいと思います。 AlphaEvolve のおかげで、Googleが原価を低減できているのであれば、今後とも、Google有利という状況が続くかもしれません。
Discussion