日本語入力システムSumibiの開発 part12:GPT-5の性能評価をしてみた
はじめに
OpenAIからGPT-5がリリースされました。GPT-3.5からGPT-4への移行時には劇的な性能向上を感じましたが、GPT-5では「あの時のような衝撃」は感じられませんでした。
以前Sumibi (ローマ字仮名漢字変換) のベンチマークを取得した記事を上げました part8:各社LLMモデルのベンチマークを取ってみた。今回GPT-5のベンチマークを取得し、比較データを更新しました。結論として、他のフロンティアモデルと比べて段違いに良いわけではなく、Sumibi向けのエンジンとしては有意差が見えなくなっています。
結論:GPT-5はSumibiに適しているか?
コストと変換精度とのバランスが良いので、Sumibiに適していると感じます。
GPT-4.1に対するGPT-5の変化
-
長考する
GPT-5はデフォルトでReasoning Effort=mediumとなっており、ローマ字仮名漢字変換では時間を要します。SumibiではReasoning Effort=minimal指定が必須です。OpenAI参考リンク:Minimal reasoning effort -
日本語の変換精度は同等 (Reasoning Effort=minimal指定で評価)
-
コストが半分以下になった
GPT-4.1を常用している私にとって、コストが下がっただけでも利用価値があります。
ベンチマーク結果の解説
ベンチマーク結果では、各社フロンティアモデルの変換精度は僅差で、コストはGoogleが若干優位です。GPT-5の登場により、OpenAIもコスト面で不利ではなくなりました。
使用したデータ
AJIMEE-Bench を使用。日本語Wikipedia入力誤りデータセット (v2) から作成された200件のテストデータです。
エラー率グラフの見方
-
縦軸が変換エラー率
ローマ字から漢字仮名交じり文への変換エラー率。期待結果とSumibi結果間のLevenshtein編集距離を計算。
-
横軸が1回の日本語変換のコスト
※ Claude Opus 4はコストが大きくグラフ範囲外。
-
円の大きさが変換の平均時間(秒)
詳細情報
詳細はGitHub上のベンチマーク結果のまとめを参照。
終わりに
GPT-5への期待値は高まっていましたが、GPT-3.5→GPT-4時のような衝撃的な性能向上は感じられませんでした。「劇的な変化」より「漸進的な改善」という印象です。
Markdown構文の認識能力など、ローマ字変換以外の改善があるかもしれません。今後Sumibiはコンテキストからローマ字だけを判別して変換する改善を予定しており、GPT-5の潜在能力が活かされることを期待しています。
Discussion