🧱

日本語入力システムSumibiの開発 part8:各社LLMモデルのベンチマークを取ってみた

に公開

はじめに

これまで Sumibi (ローマ字仮名漢字変換) にどのLLMが適しているのかを感覚的にしか把握していませんでした。重い腰を上げてベンチマークを取り、感覚ではなく数字で良し悪しを把握できるようになりました。ちなみに、ベンチマークで一番適しているという結果が出たので、この記事は Gemini 2.0 Flash で書いています。課金と変換精度も問題がなく、快適に文章を入力できています。

結論:Sumibiに適したモデルは?

全体的な傾向

  • 全体的にOpenAIよりもGoogleの方がコスパが良いです。
  • レスポンス時間が長くても変換精度が上がるとは限りません。

順位は?

1位は Gemini 2.0 Flash、2位は GPT-4.1 といったところでしょうか。課金を気にしないのなら、少しだけ変換精度の良い GPT-4.1 もありますが、僅かな精度の差しかないため、気兼ねなく文章を入力できるのは、Gemini 2.0 Flash でしょう。

ベンチマーク結果の解説

使用したデータ

AJIMEE-Bench を使っています。日本語Wikipedia入力誤りデータセット (v2) を元に作成されたデータで、200件のテストデータが入っています。詳細は、GitHubのREADMEを確認してください。

エラー率グラフの見方

  • 縦軸が変換エラー率

    ローマ字から漢字仮名交じり文への変換エラー率です。期待する日本語変換結果とSumibiの変換結果との間の編集距離(挿入・削除・置換の最小回数)を計算します。編集距離を求めるアルゴリズムは、Levenshteinです。

  • 横軸が1回の日本語変換の費用

  • 円の大きさが変換の平均時間(秒)

errorrate_vs_cost.png

平均レスポンス時間のグラフの見方

レスポンス時間の観点で比較するためのグラフです。

  • 縦軸が平均レスポンス時間(秒)
  • 赤色の折れ線が変換エラー率

meanresponse_each_model.png

より詳細な情報は、こちらのベンチマーク結果のまとめを見てください。

ベンチマークを取ってみた感想

Googleの方が安いですが、OpenAIとGoogleは熾烈なシェア争いをしているので、今だけ安いだけなのか、理由は分かりません。まだClaudeシリーズを試していないので、また機会があれば試してみたいと思います。 AlphaEvolve のおかげで、Googleが原価を低減できているのであれば、今後とも、Google有利という状況が続くかもしれません。

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-1
https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-2
https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-3
https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-4
https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-5
https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-6
https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-7

Discussion