🧱

日本語入力システムSumibiの開発 part8:各社LLMモデルのベンチマークを取ってみた

2025/05/18に公開

 はじめにこれまで Sumibi (ローマ字仮名漢字変換) にどのLLMが適しているのかを感覚的にしか把握していませんでした。重い腰を上げてベンチマークを取り、感覚ではなく数字で良し悪しを把握できるようになりました。ちなみに、ベンチマークで一番適しているという結果が出たので、この記事は Gemini 2.0 Flash で書いています。課金と変換精度も問題がなく、快適に文章を入力できています。

 結論:Sumibiに適したモデルは？
 全体的な傾向全体的にOpenAIよりもGoogleの方がコスパが良いです。
レスポンス時間が長くても変換精度が上がるとは限りません。

 順位は？1位は Gemini 2.0 Flash、2位は GPT-4.1 といったところでしょうか。課金を気にしないのなら、少しだけ変換精度の良い GPT-4.1 もありますが、僅かな精度の差しかないため、気兼ねなく文章を入力できるのは、Gemini 2.0 Flash でしょう。

 ベンチマーク結果の解説
 使用したデータAJIMEE-Bench を使っています。日本語Wikipedia入力誤りデータセット (v2) を元に作成されたデータで、200件のテストデータが入っています。詳細は、GitHubのREADMEを確認してください。

 エラー率グラフの見方縦軸が変換エラー率
ローマ字から漢字仮名交じり文への変換エラー率です。期待する日本語変換結果とSumibiの変換結果との間の編集距離（挿入・削除・置換の最小回数）を計算します。編集距離を求めるアルゴリズムは、Levenshteinです。
横軸が1回の日本語変換の費用
円の大きさが変換の平均時間（秒）

 平均レスポンス時間のグラフの見方レスポンス時間の観点で比較するためのグラフです。
縦軸が平均レスポンス時間（秒）
赤色の折れ線が変換エラー率
より詳細な情報は、こちらのベンチマーク結果のまとめを見てください。

 ベンチマークを取ってみた感想Googleの方が安いですが、OpenAIとGoogleは熾烈なシェア争いをしているので、今だけ安いだけなのか、理由は分かりません。まだClaudeシリーズを試していないので、また機会があれば試してみたいと思います。 AlphaEvolve のおかげで、Googleが原価を低減できているのであれば、今後とも、Google有利という状況が続くかもしれません。
https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-1

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-2

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-3

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-4

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-5

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-6

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-7

はじめに

結論:Sumibiに適したモデルは？

全体的な傾向

順位は？

ベンチマーク結果の解説

使用したデータ

エラー率グラフの見方

平均レスポンス時間のグラフの見方

ベンチマークを取ってみた感想

Discussion