👈

【随時更新中】Azure/AWS/Google Cloudでの主要な生成AIモデルの日本リージョン提供状況🚀【2024/9/10版】

2024/08/29に公開

更新情報

  • 2024年9月10日:gpt-3.5-turbo/gpt-4のモデル廃止日に関する情報を更新
  • 2024年9月5日 :東日本リージョンのPTU容量チェック方法の情報を追記
  • 2024年9月4日 :gpt-4o 2024-08-06の情報を追記
  • 2024年9月2日 :軽微な修正を実施(アップデート情報は2024年8月29日から特になし)
  • 2024年8月29日:初稿

はじめに

昨今、企業における生成AIの導入が加速する中で、各クラウドベンダーの提供する生成AIモデルの選択は、ビジネスの成功に直結する重要な決定事項となっています。
しかしながら、東京などの日本リージョンにおける生成AIモデル(Azure OpenAIのGPTモデルやAWSのClaude、Google CloudのGemini/Claudeなど)の提供状況や提供形態はアップデートが激しい状況です。

2024年8月に入ってから、以下のような記事も出たりと世間がざわついたりしました。

https://xtech.nikkei.com/atcl/nxt/column/18/00001/09626/

なぜ、ざわついているのか?といいますと、特にエンタープライズでの利用においては、

  • 法規制(個人情報保護法など)
  • コンプラ(医療や金融、官公庁系は殊更に厳しい)

などの観点から生成AIモデルに対するAPI利用は日本国内にあるデータセンタ内で通信やデータ保存を完結することが求められるケースも多々あるためです。
今回の記事では主要クラウドベンダーの主要な生成AIモデルの提供状況や提供形態の概観を情報集約することで、現状の把握および社内外への提供計画の検討の一助になれば幸いです。

随時、記事は修正・追記しながら更新していく予定です。

2024年9月10日時点情報

Azure OpenAI GPTモデル提供状況@東日本リージョン

AzureにおけるOpenAI社のGPT系モデルの東日本リージョンでの提供状況と提供形態について、表にまとめてみました。

公式ドキュメントですと、全リージョンの情報なども包含されていたりなどで少し読みづらいドキュメントになっているため、読むのに時間がかかってしまいます。そのため、以下は東日本リージョンに対する情報のみを抜粋してまとめております。

モデル名 モデルバージョン Standard提供 PTU提供 Global-Standard提供 Global-Batch提供 モデル廃止時期
gpt-3.5-turbo 0301 提供なし 提供なし 提供なし 提供なし 2025年1月27日廃止予定

gpt-3.5-turbo(0125)へ2024年11月15日から自動アップデートの設定をしている場合、自動アップデートを開始予定
gpt-3.5-turbo(16Kも含む) 0613 提供中⭕ 提供なし 提供なし 提供なし 2025年1月27日廃止予定

gpt-3.5-turbo(0125)へ2024年11月15日から自動アップデートの設定をしている場合、自動アップデートを開始予定
gpt-35-turbo-instruct 0914 提供なし 提供なし 提供なし 提供なし 2025年9月14日以降
gpt-3.5-turbo 1106 提供なし 提供なし 提供なし 提供なし 2024年11月17日以降

gpt-3.5-turbo(0125)へ2024年11月15日から自動アップデートの設定をしている場合、自動アップデートを開始予定
gpt-3.5-turbo 0125 提供なし 提供中⭕ 提供なし 提供なし 2025年2月22日以降
gpt-4 (32Kも含む) 0314 提供なし 提供なし 提供なし 提供なし 非推奨開始日:2024年11月1日
廃止日:2025年6月6日
gpt-4 (32Kも含む) 0613 一部提供🔺(※1) 提供中 提供なし 提供なし 非推奨開始日:2024年11月1日
廃止日:2025年6月6日
gpt-4 1106-preview 提供なし 提供中⭕ 提供なし 提供なし 2025年1月27日以降に「gpt-4-turbo-2024-04-09」にアップグレードされます。
gpt-4 0125-preview 提供なし 提供中⭕ 提供なし 提供なし 2025年1月27日以降に「gpt-4-turbo-2024-04-09」にアップグレードされます。
gpt-4 vision-preview 提供中⭕ 提供中⭕ 提供なし 提供なし 2025年1月27日以降に「gpt-4-turbo-2024-04-09」にアップグレードされます。 (※3)
gpt-4-turbo 2024-04-09 提供なし 提供中🔺(※2) 提供なし 提供なし 未定
gpt-4o 2024-05-13 提供なし 提供中🔺(※2) 提供中⭕ 提供なし 未定
gpt-4o 2024-08-06 提供なし 提供なし 提供なし 提供なし 未定
gpt-4o-mini 2024-07-18 提供なし 提供なし 提供なし 提供なし 未定
text-embedding-ada-002 2 提供中⭕ 提供なし 提供なし 提供なし 2025年4月3日以降
text-embedding-ada-002 1 提供なし 提供なし 提供なし 提供なし 2025年4月3日以降
text-embedding-3-small 1 提供なし 提供なし 提供なし 提供なし 2025年2月2日以降
text-embedding-3-large 1 提供中⭕ 提供なし 提供なし 提供なし 2025年2月2日以降

※1:一部の既存顧客にはGPT-4 0613バージョンへのアクセスが許可されています。
上記※1の意訳:以前に東日本リージョンでGPT-4(0613)が提供された際に申請をし、利用承諾を得たサブスクリプションを保有しているユーザはモデル廃止日まで使えます。現時点(2024/8/29時点)では、利用承諾を有していない、つまりクォータを有していないサブスクリプションからの新規デプロイはできないようになっています。

※2:PTUでの利用であっても、Microsoft側のデータセンタのリソース状況や利用状況を踏まえて提供不可な場合があるため、PTU契約前にMicrosoftのフロント営業などに確認すること。それか、以下のように、モデルデプロイ画面から、東日本リージョンに十分な容量がないと、デプロイ不可の表示が出てくるため、デプロイ可不可のチェックはできる模様。

※3

詳しくは以下の参考にて、リンクしました公式ドキュメントをご参照ください。

補足

GPT-3.5系(instructモデルは除く)とGPT-4系の移行先モデルとして推奨されているのは、それぞれgpt-35-turbo (0125)/GPT-4o-miniおよびGPT-4oモデル(※)となっておりますが、東日本リージョンのStandard提供での利用では現時点(2024年9月10日時点)において利用できない状況です。
※後継モデルではなく、あくまで移行先モデルとして推奨されていることに注意

現状の課題感

以下は現状の課題感です。一言で言いますと、エンタープライズ利用では、エンドユーザへのサービス提供計画を検討しづらい状況が続いています。

  • 2024年11月1日 2025年1月27日で廃止となる予定のgpt-3.5-turbo(0613)モデルの移行先となる後継モデル/バージョンが東日本リージョンにStandard提供にないこと
  • gpt-4もvision-previewモデル以外は新規でのデプロイができず、vision-previewモデルはその名の通り、テキストでのユースケースに特化しておらず、なおかつpreview版は本番利用に際して非推奨となっているため本番採用しづらいこと
  • PTU利用もStandard利用と比較し高額になることが多くユースケース次第では予算に合わないことがある、かつ一部モデルは提供が確約されていないこと(金額や利用可能なモデルなど詳細はMicrosoftに問い合わせしてください)

対策案

上記課題感に対する対策案として、大きくは以下5つになります。しかしながら、上述した通り、海外リージョン利用がNG、予算的にPTUを利用できない、Azure以外のクラウド利用はNGの場合は、さらなる対策の検討が必要となります。(良い案がこれ以上パッと思いつかないためここでは述べません。もしかすると、時間が解決してくれるかもしれません。)

  • 海外リージョンの利用(エンドユーザへの許諾や説得が必要かも)
  • PTUの利用
  • 他クラウドのモデルの利用
  • OSSモデルの利用/Model Catalogの利用
  • クローズドなモデルでもオンプレ利用可能なITベンダーが提供しているモデルの利用

所感

おそらくこのような事態になっているのは、様々な複雑な事情が入り組んでいると思われます。例えば、以下などが推測されます。

  • インフラの状況(データセンターの拡張やGPUの需給状況、全世界での全体最適化を含む)
  • APIビジネスよりハードビジネスの方がなんだかんだ儲かる(営業戦略や米国本社の意向もあるんでしょう)
  • Model Catalogの利用/MaaSを促進したい(つまり、AOAI一辺倒にしたくない)
  • GPTモデルの数年先を見据えたロードマップ事情

参考:Azure公式ドキュメント

https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/models
https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/model-retirements
https://learn.microsoft.com/en-us/azure/ai-services/openai/whats-new

GPT-4o 2024-08-06がAzureで利用可能になった旨のブログ:
https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/introducing-gpt-4o-2024-08-06-api-with-structured-outputs-on/ba-p/4232684

参考:その他

上記の※1に関連した記事
https://zenn.dev/chips0711/articles/7fe1e588b7753a

PTUについては、以下が非常によくまとまっておりおすすめです!
https://zenn.dev/microsoft/articles/azure_perfectly_understand_ptu

また、こんな記事も。
https://zenn.dev/umi_mori/articles/aoai-warning-ptu

https://x.com/daiki15036604/status/1831340941430730755

AWS Claude提供状況@東京リージョン

以下は、BedrockにおけるClaude 3系とClaude 3.5系モデル、および周辺機能について、Asia Pacific(東京)リージョンでの利用可否をまとめた表です。

機能カテゴリー 名称 東京リージョンでの利用可否
モデル Claude 3.5 Sonnet 利用可能⭕️
モデル Claude 3 Opus 利用不可
モデル Claude 3 Sonnet 利用不可
モデル Claude 3 Haiku 利用可能⭕
周辺機能 ガードレール 利用可能⭕
周辺機能 モデル評価 利用可能⭕
周辺機能 ナレッジベース 利用可能⭕
周辺機能 エージェント 利用可能⭕
周辺機能 ファインチューニング(カスタムモデル) 利用不可
周辺機能 継続学習(カスタムモデル) 利用不可
周辺機能 プロビジョンドスループット 利用不可

詳しくは以下の公式ドキュメントをご参照ください。

参考:AWS公式ドキュメント

https://docs.aws.amazon.com/bedrock/latest/userguide/models-regions.html

https://docs.aws.amazon.com/bedrock/latest/userguide/bedrock-regions.html

東京リージョンではまだのようですが、AzureのPTUと同様にAWSにもProvisioned Throughput(プロビジョンドスループット)のサービスが存在します。(本記事を書くにあたって知りました。)

https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/prov-throughput.html

参考:その他

https://qiita.com/minorun365/items/e2202774ea357f311243

Google Cloud Gemini/Claudeモデル提供状況@東京リージョン

Geminiについて

モデル名 バージョン リリース日 廃止日
Gemini 1.5 Flash model gemini-1.5-flash-001 2024年5月24日 2025年5月24日
Gemini 1.5 Pro model gemini-1.5-pro-001 2024年5月24日 2025年5月24日
Gemini 1.0 Pro Vision model gemini-1.0-pro-vision-001 2024年2月15日 2025年2月15日
Gemini 1.0 Pro model gemini-1.0-pro-001 2024年2月15日 2025年2月15日
Gemini 1.0 Pro model gemini-1.0-pro-002 2024年4月9日 2025年4月9日

まとめますと、全Geminiモデル、東京リージョン(asia-northerast1)にて利用可能です。

ただし、Gemini 1.0 Ultra系の利用には、申請が必要なためGoogle Cloudの担当営業に申請方法などはお問い合わせください。

Claudeについて

現時点(2024/8/29時点)では、Claudeに関してはGoogle Cloudでは日本リージョンでは利用できない模様です。なお、モデル廃止日などの情報も公式ドキュメントから見当たらなかったです。(もし見当たりましたらコメント欄にこっそり教えていただければと思います。)

モデル名 利用可能なリージョン
Claude 3.5 Sonnet us-east5 (Ohio)
europe-west1 (Belgium)
Claude 3 Opus us-east5 (Ohio)
Claude 3 Haiku us-central1 (Iowa)
us-east5 (Ohio)
europe-west1 (Belgium)
europe-west4 (Netherlands)
Claude 3 Sonnet us-central1 (Iowa)
us-east5 (Ohio)
asia-southeast1 (Singapore)

詳しくは以下の公式ドキュメントをご参照ください。

参考:Google Cloud公式ドキュメント

https://cloud.google.com/vertex-ai/generative-ai/docs/learn/locations?hl=ja#asia-pacific

https://cloud.google.com/vertex-ai/generative-ai/docs/partner-models/use-claude?hl=ja#anthropic_claude_region_availability

https://cloud.google.com/vertex-ai/generative-ai/docs/learn/locations

以下は紛らわしいのですが、Gemini for Google CloudにおけるGeminiモデルがホストされるリージョン一覧です。
https://cloud.google.com/gemini/docs/locations#asia-pacific

AzureやAWSのPTUと同様にGoogle CloudにてProvisioned Throughput(プロビジョンドスループット)の利用が可能とのことです。

https://cloud.google.com/vertex-ai/generative-ai/docs/provisioned-throughput

個人的に理解を深めたく、以下に、Google CloudにおけるProvisioned Throughputついての概要をまとめてみました。

Google Cloudにおけるプロビジョンドスループットの概要

プロビジョンドスループットは、Google CloudのVertex AIで提供される固定料金の月額サブスクリプションサービスで、特定の生成AIモデルに対してスループットを予約するものです。ユーザーは、利用するモデルとそのモデルが実行される場所を指定することで、スループットを確保します。

利用するべきケース

以下の要件に該当する場合、プロビジョンドスループットの使用を検討してください:

  • 高いスループットを必要とする重要なワークロードがある場合
  • リアルタイム生成AIアプリケーション(例:チャットボットやエージェント)を構築している場合
  • 20,000文字/秒を超えるスループットが必要な場合
  • ユーザーに一貫性のある予測可能なエクスペリエンスを提供したい場合
  • 固定の月額料金で費用を抑えたい場合

プロビジョンドスループットの測定方法

プロビジョンドスループットは、**生成AIスケールユニット(GSU)**と呼ばれる単位で計測され、モデル固有の比率(バンダウンレート)を使用して、全ての入力と出力が秒あたりの入力文字数に変換されます。この変換された入力文字数を基に、必要なGSU数が算出されます。

サポートされているモデル

以下のGoogleおよびパートナーモデルがプロビジョンドスループットをサポートしています:

  • Googleモデル:

    • gemini-1.5-flash: 最大128,000文字/秒のコンテキストウィンドウで54,000文字/秒のスループットを提供
    • gemini-1.5-pro: 800文字/秒のスループットを提供
    • gemini-1.0-pro: 8,000文字/秒のスループットを提供
    • MedLM-medium: 2,000文字/秒のスループットを提供
    • MedLM-large: 200文字/秒のスループットを提供
  • パートナーモデル:

    • Anthropic Claude 3.5 Sonnet: 350トークン/秒のスループットを提供
    • Anthropic Claude 3 Opus: 70トークン/秒のスループットを提供
    • Anthropic Claude 3 Haiku: 4,200トークン/秒のスループットを提供

サブスクリプションに関する注意点

  • 注文のキャンセル不可:プロビジョンドスループットの購入は契約であり、キャンセルできませんが、GSUの追加購入は可能です。
  • 自動更新:注文時に自動更新を選択するか、期限切れで更新しないかを選べます。
  • モデルバージョンやリージョンの変更:同じパブリッシャーまたはリージョン内であれば、モデルのバージョン変更が可能です。
  • スループットの累積なし:未使用のスループットは翌月に繰り越されません。
  • 優先処理:プロビジョンドスループットのリクエストは優先的に処理されます。

購入手続き

Google Cloudコンソールでプロビジョンドスループットの注文を作成し、必要なGSU数を入力して確定します。購入後、ステータスは「審査中」、「有効」、「期限切れ」のいずれかになります。

使用方法と監視

プロビジョンドスループットは、リクエストごとに優先的に使用されますが、スループットを超えるとオンデマンドでの課金が発生します。また、監視メトリクスを使用して利用状況を追跡できます。

注意事項

プロビジョンド スループットの注文を行うか、既存の注文の GSU の数を増やすには、Google Cloud アカウントの担当者にお問い合わせください。

まとめ

生成AIモデルの提供状況は、クラウドベンダーごとに異なるだけでなく、各リージョンや提供形態によっても大きく異なります。本記事では、Azure、AWS、Google Cloudの主要な生成AIモデルの提供状況とその制約についてまとめました。エンタープライズ環境での導入を考える際には、データの取り扱いや法規制、予算など多くの要素を考慮する必要があります。最新の情報を把握し、各クラウドベンダーの特性を理解した上で、最適なAIモデルの選択を行いましょう。

また、生成AI技術は日々進化しており、モデルのバージョンアップや新機能の追加が頻繁に行われています。したがって、定期的に公式ドキュメントを確認し、最新の情報を取り入れることが重要です。今後もこの記事を通じて最新情報を提供していく予定ですので、引き続きご注目ください。

ここまで読んでいただきありがとうございます!お疲れ様でした。
もし少しでもお役に立てましたらいいねとフォロー 🙏 していただけると大変よろこびます!

【免責事項】
本記事の情報は執筆時点(2024年9月10日時点)のものです。本記事は、公開されている情報に基づいて作成されていますが、誤りが含まれている可能性もあります。内容の正確性については、読者ご自身の責任で判断をお願いいたします。AI技術は急速に進化しており、製品の仕様、価格、可用性などが予告なく変更される可能性があります。最新かつ正確な情報については、常に公式ドキュメントおよび関連するサービスプロバイダーの最新情報をご確認ください。また、本記事の内容は一般的な情報提供を目的としており、専門的なアドバイスとしては意図していません。具体的な導入や利用に関しては、適切な専門家にご相談ください。

Discussion