👏

公式発表と違う…GPT-4.1 vs GPT-4o、速度検証してみた

Fujiwara Takayuki

2025/05/14に公開

 初めに私は「本物の人間のような会話応答が可能なAI電話オペレーター」を提供するnocall株式会社にて、架電業務を自動化するサービス「nocall.ai」のカスタマーサクセスを担当しています。

私の主な業務はクライアントの活用支援とサービス改善のサポートです。

 新たなモデル現在、nocall.aiではOpenAIのGPT-4oを活用し、柔軟で自然な会話を実現しています。

そんな中、OpenAIからGPT-4.1 miniが新しく登場しました。
Open AIの公式ホームページによると、4.1miniに関して次のような説明がされています。
GPT-4.1 miniは、小規模モデルのパフォーマンスにおいて飛躍的な向上を示し、多くのベンチマークでGPT-4oを上回ります。知能評価ではGPT-4oと同等かそれ以上であり、レイテンシはほぼ半分に短縮され、コストは83%削減されます。
果たしてこの新モデルは、現在運用中のGPT-4oの代替になり得るのか？
今回は実際に、GPT-4oとGPT-4.1 mini（加えて参考としてGPT-4.1）を用い、レイテンシーを比較検証してみました。

 検証方法langchain.com が提供する LLM アプリ開発のプラットフォームLangSmithにて、実際のクライアントで使用中のプロンプトを用いて、各フローごとの会話リクエストが送信されてからレスポンスが返るまでの時間(レイテンシ)を10回計測し、平均値を算出しました。

 検証結果

No
発話文
GPT-4o
GPT-4.1 mini
GPT-4.1


1
ご案内の初回メッセージ
0.82s
1.60s
1.27s

2
日程調整の可否確認
0.98s
1.14s
1.11s

3
日程候補の提示依頼
0.55s
✕（不適切出力）
1.10s

4
カレンダー空き確認API
0.67s
1.17s
1.32s

5
候補が埋まっていた場合の再提案
1.11s
1.20s
1.73s

6
イベント作成API
1.25s
3.07s
1.32s

7
最終確認・クロージング
0.90s
1.77s
1.08s

合計
―
6.28s
9.95s
8.93s


 考察上記の結果から、GPT-4.1 miniは代替となるかについての考察を述べます。

 速度面：期待と違う結果にGPT-4oのほうが圧倒的に速く、応答時間の合計で約36%の差が出ました。特にAPI呼び出し系の応答が遅延傾向にあり、体感としてもストレスがあるレベルです。電話サービスである弊社の特性を踏まえると、4.1miniを使用するのは難しいように思えます。また、GPT-4oと同等のレイテンシと称されるGPT-4.1のレイテンシが4oよりもかなり遅く、意外な結果になりました。

 出力品質面：まだ不安あり3番目の文（日程候補の提示依頼 ）では、4.1 miniが正しい文言を出力できず不適切な応答を返す結果となりました。精度にまだ不安が残る点は、ビジネス用途では致命的です。

 終わりにこちらの記事では、GPT-4o,GPT-4.1 mini,GPT-4.1のレイテンシについてそれぞれ比較し、その結果をまとめました。結果として、GPT-4.1 miniは「低価格・高速」を掲げながらも、出力の安定性にややばらつきが見られ、現時点では実運用での置き換えには慎重な検討が必要であるという結論に至りました。一方で、今後のモデル改善によっては、より実用的な選択肢となる可能性も十分に感じられる内容でした。
nocall.aiでは、こうした技術選定のひとつひとつが、クライアントの体験価値に直結します。これからも引き続き、最新モデルの動向を追いながら、最適なAI体験を届けていきたいと思います。

No	発話文	GPT-4o	GPT-4.1 mini	GPT-4.1
1	ご案内の初回メッセージ	0.82s	1.60s	1.27s
2	日程調整の可否確認	0.98s	1.14s	1.11s
3	日程候補の提示依頼	0.55s	✕（不適切出力）	1.10s
4	カレンダー空き確認API	0.67s	1.17s	1.32s
5	候補が埋まっていた場合の再提案	1.11s	1.20s	1.73s
6	イベント作成API	1.25s	3.07s	1.32s
7	最終確認・クロージング	0.90s	1.77s	1.08s
合計	―	6.28s	9.95s	8.93s

nocall株式会社テックブログPublication

「すべてのビジネスコミュニケーションをAI化する」私たちnocallは、まるで人間と会話しているかのような自然な会話応答が可能なAI電話オペレーターSaaS「nocall.ai」を提供しています。、「すべてのビジネスコミュニケーションをAI化する」というミッションを掲げ、電話業務の自動化を軸に挑戦を続けています。

初めに

新たなモデル

検証方法

検証結果

考察

速度面：期待と違う結果に

出力品質面：まだ不安あり

終わりに

Discussion