📈

日本語入力システムSumibiの開発 part12:GPT-5の性能評価をしてみた

に公開

はじめに

OpenAIからGPT-5がリリースされました。GPT-3.5からGPT-4への移行時には劇的な性能向上を感じましたが、GPT-5では「あの時のような衝撃」は感じられませんでした。

以前Sumibi (ローマ字仮名漢字変換) のベンチマークを取得した記事を上げました part8:各社LLMモデルのベンチマークを取ってみた。今回GPT-5のベンチマークを取得し、比較データを更新しました。結論として、他のフロンティアモデルと比べて段違いに良いわけではなく、Sumibi向けのエンジンとしては有意差が見えなくなっています。

結論:GPT-5はSumibiに適しているか?

コストと変換精度とのバランスが良いので、Sumibiに適していると感じます。

GPT-4.1に対するGPT-5の変化

  • 長考する
    GPT-5はデフォルトでReasoning Effort=mediumとなっており、ローマ字仮名漢字変換では時間を要します。SumibiではReasoning Effort=minimal指定が必須です。OpenAI参考リンク:Minimal reasoning effort

  • 日本語の変換精度は同等 (Reasoning Effort=minimal指定で評価)

  • コストが半分以下になった
    GPT-4.1を常用している私にとって、コストが下がっただけでも利用価値があります。

ベンチマーク結果の解説

ベンチマーク結果では、各社フロンティアモデルの変換精度は僅差で、コストはGoogleが若干優位です。GPT-5の登場により、OpenAIもコスト面で不利ではなくなりました。

img

使用したデータ

AJIMEE-Bench を使用。日本語Wikipedia入力誤りデータセット (v2) から作成された200件のテストデータです。

エラー率グラフの見方

  • 縦軸が変換エラー率

    ローマ字から漢字仮名交じり文への変換エラー率。期待結果とSumibi結果間のLevenshtein編集距離を計算。

  • 横軸が1回の日本語変換のコスト

    ※ Claude Opus 4はコストが大きくグラフ範囲外。

  • 円の大きさが変換の平均時間(秒)

詳細情報

詳細はGitHub上のベンチマーク結果のまとめを参照。

終わりに

GPT-5への期待値は高まっていましたが、GPT-3.5→GPT-4時のような衝撃的な性能向上は感じられませんでした。「劇的な変化」より「漸進的な改善」という印象です。
Markdown構文の認識能力など、ローマ字変換以外の改善があるかもしれません。今後Sumibiはコンテキストからローマ字だけを判別して変換する改善を予定しており、GPT-5の潜在能力が活かされることを期待しています。

https://zenn.dev/kiyoka/articles/japanese-input-method-sumibi-8

Discussion