🥲

AzureOpenAIからgpt-5を使用するとレスポンスが遅すぎる件について

2025/09/17に公開

 はじめに現在のプロジェクトでAzureOpenAIを使用しています。
直近GPT-5のリリースがありました。

コスト、性能面で変えるメリットしかないとの判断で既存のGPT-4から5への変更を試みました。

ただ、レスポンスがあまりにも遅い。。

最低50秒〜2分ほどかかることも。
その原因と対策について深掘りしました。

 レスポンスが遅い原因下記記事に原因に関する言及がありました。

https://learn.microsoft.com/en-us/answers/questions/5520820/gpt-5-is-extremely-slow-on-azure
結論、AzureOpenAI側の問題で機能改善が入るまでは引き続きレスポンスは遅いままのようです。

同事象が他の方でも発生している模様。

アプリケーション側の問題ではなく一安心はしました。

 他ツールからの呼び出しはレスポンス遅くない件普段GitHub Copilot、ChatGPTのUIからGPT-5を使用していますがそこからは非常に速いレスポンスを取得出来ています。
なぜAzureOpenAIだけ遅いのか

原因をAIで分析したところ、下記いずれかの可能性が高いとの回答を得ました。
•Azure側のリージョン混雑度

•Azureプランの問題
＊まとめ表（AI作）


媒体
利用モデル / サービス内容
レスポンス速度
考えられる要因
コスト感


ChatGPT (OpenAI公式)
Webアプリ / モバイルアプリで直接利用（GPT-4o, GPT-5 など）
◎ 速い
OpenAI直営なので最適化されたサーバー・ネットワーク
Proプラン: 約3,000円/月

GitHub Copilot
開発支援向けLLM（VSCode, JetBrains, CLIなどで利用）
◎ 速い
開発特化の最適化済みAPI＋キャッシュ処理
約10 USD/月（約1,500円）

Azure OpenAI (AI Foundry)
GPT系APIを自分のAzureサブスクリプション経由で利用
△ 遅い場合あり
- リージョンによるサーバー負荷
- デプロイしているSKU（Free, Standard, Provisioned Throughputなど）の違い
- 帯域制限（Rate Limit）
GPT-4o: $0.002〜0.01/1kトークンと低コスト


 AzureAIにおけるGPT-5の使用可能リージョンについて現状AzureOpenAIを用いてのGPT-5は下記二つのリージョンのみで使用可能です。

•eastus2

•スウェーデン
参照

https://developer.microsoft.com/blog/gpt-5-for-microsoft-developers?utm_source=chatgpt.com
GPT-4は現状幅広いリージョンで対応、レスポンス遅延等は全くありません。

リージョンが二つのみであることにより、リクエストが混雑しているというのはかなり可能性は高いと思います。

 Azure利用プランについて現状のAzureOpenAIのプランについてAIに表形式でまとめてもらいました。

 Azure OpenAI / Azure AI Foundry：SKU 比較表

SKU／デプロイタイプ
課金形態・料金モデル
レイテンシ・スループット
利点
欠点／注意点


Standard (On-Demand / Pay-as-you-go)
トークン単位で使用した分だけ支払い（入出力トークン数）
中〜高（変動あり）。混雑時や高負荷時は遅延が出ることあり
• 初期コストが低い 
• 利用量が少ない・不定期な用途に向く 
• 柔軟なモデル／リージョン変更が可能
• レスポンス速度が不安定 
• 混雑時間帯では処理が遅くなる 
• 高スループット用途では割高になることも

Provisioned Throughput (PTUベースのデプロイ)
スループット単位 (PTU) を確保し、時間／月／年で料金が発生（予約すると割引あり）
高速かつ予測可能。安定したスループットと低遅延を保証
• レスポンス速度が安定 
• 高負荷・本番・リアルタイム用途に最適 
• コスト予測が容易
• 利用が少ない時間でもコスト発生 
• PTUクォータ取得が必要 
• モデルや地域によってはキャパシティ不足の可能性 
• 過剰確保で高コストになることも


デプロイメントタイプのバリエーション （Global／Data Zone／Regional）
Standard／Provisioned 両方で選択可能。データ処理地域・転送ルーティング・可用性に影響
リージョン間やネットワーク遅延に影響。Global／Data Zone は広域ルーティングで遅延リスクあり
• 高可用性を確保しやすい 
• データレジデンシー要件に対応可能 
• グローバル展開に有利
• 設定が複雑になる場合あり 
• ネットワーク遅延・転送オーバーヘッドの影響あり 
• コンプライアンス要件によっては Regional が必須になる場合も

現状私はstandardプランにて使用。

GPT-5の使用に関してGitHub Copilotはプレミアムプラン（月10$前後）、ChatGPTも有料プラン（月20$前後）かかります。

それを踏まえるとAzureOpenAIのstandardプランではレスポンスが遅いのも頷けます。。

 まとめ現状はAzureOpenAIインフラ側の問題という結論を出しています。

プラン変更はプロジェクトの予算都合上試せていませんが、今後リージョン拡大・azureAI側のインフラが整い次第、再度GPT-5導入を検討したいと考えております。

媒体	利用モデル / サービス内容	レスポンス速度	考えられる要因	コスト感
ChatGPT (OpenAI公式)	Webアプリ / モバイルアプリで直接利用（GPT-4o, GPT-5 など）	◎ 速い	OpenAI直営なので最適化されたサーバー・ネットワーク	Proプラン: 約3,000円/月
GitHub Copilot	開発支援向けLLM（VSCode, JetBrains, CLIなどで利用）	◎ 速い	開発特化の最適化済みAPI＋キャッシュ処理	約10 USD/月（約1,500円）
Azure OpenAI (AI Foundry)	GPT系APIを自分のAzureサブスクリプション経由で利用	△ 遅い場合あり	- リージョンによるサーバー負荷 - デプロイしているSKU（Free, Standard, Provisioned Throughputなど）の違い - 帯域制限（Rate Limit）	GPT-4o: $0.002〜0.01/1kトークンと低コスト

SKU／デプロイタイプ	課金形態・料金モデル	レイテンシ・スループット	利点	欠点／注意点
Standard (On-Demand / Pay-as-you-go)	トークン単位で使用した分だけ支払い（入出力トークン数）	中〜高（変動あり）。混雑時や高負荷時は遅延が出ることあり	• 初期コストが低い • 利用量が少ない・不定期な用途に向く • 柔軟なモデル／リージョン変更が可能	• レスポンス速度が不安定 • 混雑時間帯では処理が遅くなる • 高スループット用途では割高になることも
Provisioned Throughput (PTUベースのデプロイ)	スループット単位 (PTU) を確保し、時間／月／年で料金が発生（予約すると割引あり）	高速かつ予測可能。安定したスループットと低遅延を保証	• レスポンス速度が安定 • 高負荷・本番・リアルタイム用途に最適 • コスト予測が容易	• 利用が少ない時間でもコスト発生 • PTUクォータ取得が必要 • モデルや地域によってはキャパシティ不足の可能性 • 過剰確保で高コストになることも
デプロイメントタイプのバリエーション（Global／Data Zone／Regional）	Standard／Provisioned 両方で選択可能。データ処理地域・転送ルーティング・可用性に影響	リージョン間やネットワーク遅延に影響。Global／Data Zone は広域ルーティングで遅延リスクあり	• 高可用性を確保しやすい • データレジデンシー要件に対応可能 • グローバル展開に有利	• 設定が複雑になる場合あり • ネットワーク遅延・転送オーバーヘッドの影響あり • コンプライアンス要件によっては Regional が必須になる場合も

はじめに

レスポンスが遅い原因

他ツールからの呼び出しはレスポンス遅くない件

AzureAIにおけるGPT-5の使用可能リージョンについて

Azure利用プランについて

Azure OpenAI / Azure AI Foundry：SKU 比較表

まとめ

Discussion