公式発表と違う…GPT-4.1 vs GPT-4o、速度検証してみた
初めに
私は「本物の人間のような会話応答が可能なAI電話オペレーター」を提供するnocall株式会社にて、架電業務を自動化するサービス「nocall.ai」のカスタマーサクセスを担当しています。
私の主な業務はクライアントの活用支援とサービス改善のサポートです。
新たなモデル
現在、nocall.aiではOpenAIのGPT-4oを活用し、柔軟で自然な会話を実現しています。
そんな中、OpenAIからGPT-4.1 miniが新しく登場しました。
Open AIの公式ホームページによると、4.1miniに関して次のような説明がされています。
GPT-4.1 miniは、小規模モデルのパフォーマンスにおいて飛躍的な向上を示し、多くのベンチマークでGPT-4oを上回ります。知能評価ではGPT-4oと同等かそれ以上であり、レイテンシはほぼ半分に短縮され、コストは83%削減されます。
果たしてこの新モデルは、現在運用中のGPT-4oの代替になり得るのか?
今回は実際に、GPT-4oとGPT-4.1 mini(加えて参考としてGPT-4.1)を用い、レイテンシーを比較検証してみました。
検証方法
langchain.com が提供する LLM アプリ開発のプラットフォームLangSmithにて、実際のクライアントで使用中のプロンプトを用いて、各フローごとの会話リクエストが送信されてからレスポンスが返るまでの時間(レイテンシ)を10回計測し、平均値を算出しました。
検証結果
No | 発話文 | GPT-4o | GPT-4.1 mini | GPT-4.1 |
---|---|---|---|---|
1 | ご案内の初回メッセージ | 0.82s | 1.60s | 1.27s |
2 | 日程調整の可否確認 | 0.98s | 1.14s | 1.11s |
3 | 日程候補の提示依頼 | 0.55s | ✕(不適切出力) | 1.10s |
4 | カレンダー空き確認API | 0.67s | 1.17s | 1.32s |
5 | 候補が埋まっていた場合の再提案 | 1.11s | 1.20s | 1.73s |
6 | イベント作成API | 1.25s | 3.07s | 1.32s |
7 | 最終確認・クロージング | 0.90s | 1.77s | 1.08s |
合計 | ― | 6.28s | 9.95s | 8.93s |
考察
上記の結果から、GPT-4.1 miniは代替となるかについての考察を述べます。
速度面:期待と違う結果に
GPT-4oのほうが圧倒的に速く、応答時間の合計で約36%の差が出ました。特にAPI呼び出し系の応答が遅延傾向にあり、体感としてもストレスがあるレベルです。電話サービスである弊社の特性を踏まえると、4.1miniを使用するのは難しいように思えます。また、GPT-4oと同等のレイテンシと称されるGPT-4.1のレイテンシが4oよりもかなり遅く、意外な結果になりました。
出力品質面:まだ不安あり
3番目の文(日程候補の提示依頼 )では、4.1 miniが正しい文言を出力できず不適切な応答を返す結果となりました。精度にまだ不安が残る点は、ビジネス用途では致命的です。
終わりに
こちらの記事では、GPT-4o,GPT-4.1 mini,GPT-4.1のレイテンシについてそれぞれ比較し、その結果をまとめました。結果として、GPT-4.1 miniは「低価格・高速」を掲げながらも、出力の安定性にややばらつきが見られ、現時点では実運用での置き換えには慎重な検討が必要であるという結論に至りました。一方で、今後のモデル改善によっては、より実用的な選択肢となる可能性も十分に感じられる内容でした。
nocall.aiでは、こうした技術選定のひとつひとつが、クライアントの体験価値に直結します。これからも引き続き、最新モデルの動向を追いながら、最適なAI体験を届けていきたいと思います。
Discussion