【Azure OpenAI Service 最新Update】 Deploy方法が増えてPTUが安くなったよ🚀
はじめに
2024/10/28 にAzure OpenAI Serviceに大幅なUpdateが入りました。
その中で、Deploy方法が増えて、PTUが安くなったので、その変更点をまとめてみました。
前提 ~ PTUってそもそもなに? ~
PTUがそもそもなに?という方も多いと思います。
以下の記事にがっつりまとめてみましたので、詳しく知りたい方はこちらの記事をご参照ください。
ざっくりまとめますと以下です。
- PTUはProvisioned Throughput Unitの略で、Azure OpenAI ServiceのモデルのDeploy方法の一つ。Batch, Standard, PTUというDeploy方法がある。
- Deploy段階で、今月どれぐらい使うかを指定して専用のコンピューティングリソースを確保してDeployするので、OpenAIのパフォーマンスが安定する。
- 事前に予約したユニット数支払う為、コスト予測が簡単
StandardとPTUの違いをまとめると以下です。
Standard | PTU | |
---|---|---|
スケーラビリティ | トークン数の上限値あり | 必要な量を事前に確保 毎月予約量を変更可能 |
パフォーマンス | 共有のコンピューティングリソースを利用 レイテンシーのばらつき・遅れの可能性あり |
専用のコンピューティングリソースを利用 レイテンシーの安定性が高い |
コスト | 毎月のトークン利用数に応じた支払い コスト予測 = 複雑 |
事前に予約したユニット数支払い コスト予測 = 簡単 |
Updateその① ~ Deploy方法が増えました ~
DataZonesという新しいDeploy方法が追加されました。
まずは、Standard, PTUの下にあるそれぞれのDeploy方法について確認していきましょう。
Deploy方式
Regional
AOAIをDeployして、データ・推論共にDeployしたリージョンのGPUリソースを使用して行われます。
Global
AOAIをDeployして、データはDeployしたリージョンに留まりますが、推論はGlobalの空いているGPUリソースを使用して行われます。これにより、Regional よりも高いクォータとより多くのモデルを利用できます。
Data Zones
AOAIのDeploy場所は指定して、推論は指定した地域の空いているGPUリソースを使用して行われます。Regional よりも高いクォータを確保出来、地理的な要件がある方にも対応出来ます。
それぞれの使い所
Regional
方式はデータと推論を同じリージョンで行いたい場合に使用します。
国外にデータを出してはいけない要件を持つ方におすすめです。
Global
方式は、データはリージョン内に留めたいが、推論はGlobalで行うことで、Standardよりよりクォータの引き上げが可能です。国外にデータを出してもOKな方はクォータの許容量もこちらの方が大きいので、こちらを選択すると良いでしょう。
Data Zones
方式は、データはリージョン内に留めたいが、クォータ制限を引き上げたい場合に使用します。データはリージョン内に留めることが出来るので、国外にデータを出してはいけない要件を持つ方におすすめです。
現在はEUとUSのリージョンのみが指定可能ですが、これからどんどん増えていく予定とのこと。
Updateその② ~ PTUがお安くなりました。 ~
2024 年 11 月 1 日より、paygoと言われる時間あたりの従量課金でPTUが使える方式が8月よりリリースされたのですが、その価格がなんと50%
も安くなりました。
これにより、PTUどんなもんかいな?いっちょ試してみたろかという人がよりお試しをしやすくなりました。
また、PTUの最低購入数量も引き下げられたことで、より小規模なプロジェクトでもPTUを利用しやすくなり、PoCでPTU使って検証したろ!みたいな人でもこれまでより低コストで試せるようになりました。
PTU使うと、パフォーマンスかなり上がるとの声もお客様からいただいているので、是非ちょこっとお試ししてみるのも良いかもしれませんね。
まとめ
2024年11月1日に入りましたAzure OpenAI ServiceのUpdateについてまとめてみました。
Deploy方式が増えたり、コストが安くなったりしているので、これを機にAOAIを使ってみるのも良いかもしれませんね。
それでは🖐️
参考文献
Discussion