🐯

Google Cloud NEXT'24 Las Vegas で生成AIに最適化された Infrastructures Update まとめ

2024/04/11に公開

next24-lasvegas

はじめに

こんにちは、クラウドエース SRE部に所属している $\textcolor{red}{赤髪}$ がトレードマークの Shanks です。
現在、筆者はラスベガスで開催されている Google Cloud 主催の旗艦イベント「Google Cloud NEXT'24」に参加中です。

そこで発表された最新情報を現地からお届けしています。
この記事では主に「生成AI に最適化された Google Cloud のインフラと Compute リソース」に焦点をあてて解説いたします。

生成AI に最適化された AI Hypercomputer

生成AI による DX の推進やビジネスの拡大が昨今急激に加速してきています。
しかし、それらを従来のインフラで構築・運用するには限界がありました。

Google Cloud は、強力な TPUs / GPUs / AI ソフトウェアなどを組み合わせた新しいアーキテクチャ「AI HyperComputer」を公開しました。

A3 Mega [new!!]

H100 Tensor Core GPU を使用した NVIDIA 社と共同開発された新しい GPU ベースのインスタンスが来月一般公開されます。
従来の A3 インスタンスと比較して GPU あたり 2 倍の帯域幅をサポートし、より要求の厳しい AI ワークロードに対応します。

Confidential A3 [new!!]

A3 Mega インスタンスに加え、トレーニング中や推論中のデータの機密性と整合性をより保護するための Confidential A3 も提供されます。
政府や金融など規制が厳しい要件であってもワークロードを安全に保護し、生成AI による DX を加速させます。

NVIDIA HGX B200 / GB200 NVL72 [new!!]

tpu-gpu
最新の NVIDIA Blackwell プラットフォームを活用した HGX B200 と GB200 NVL72 をサポートする新しいインスタンスが 2025 年初頭に提供予定です。

GPU	ユースケース
HGX B200	最も要求の厳しい AI 基盤、データ分析、HPC ワークロード向け
GB200 NVL72	リアルタイムの大規模言語モデル推論と、兆パラメータ規模のモデルの大規模トレーニング向け

TPU v5p [new!!]

v5p
トレーニングと推論用の最も強力な AI アクセラレーターである TPU v5p が一般提供されます。
1 ポッドあたりの計算能力が従来と比較して 4 倍に向上しています。

Hyperdisk ML [new!!]

生成AI に最適化されたストレージオプションとして、Hyperdisk ML が発表されました。
Hyperdisk ML は、AI の推論とワークロードの実行に最適化されており、リアルタイム性が求められるワークロードに最適です。
一般的な他社製品と比較して、モデルのロード時間を最大 11.9 倍短縮し、ボリュームあたりのスループットが 100 倍以上向上しています。

Cloud Storage FUSE と Parallelstore [update!!]

Cloud Storage FUSE と Parallelstore の新しいキャッシュ機能が発表されました。
これにより、データを TPU または GPU に近づけてトレーニングをすることが可能となり、トレーニングに要する時間が短縮されます。
この技術のバックグラウンドには上述の Hyperdisk ML が採用されています。

Dynamic Workload Scheduler [new!!]

リソース管理とジョブスケジューリングのプラットフォームである Dynamic Workload Scheduler が発表されました。
開始時間を保証するカレンダーモードと、経済性を最適化するフレックススタートは、複雑なトレーニングや推論を実施する際に効率的なリソース管理を可能にします。

Google Distributed Cloud [update!!]

NVIDIA GPU、GKE Enterprise、OpenAI モデル（Gemma や Llama を含む）、Vector Search などの機能が新たに Google Distributed Cloud（GDC）で利用できるようになりました。

GDC については、以下の記事をご参照ください。

Google Axion [new!!]

axion
Google 初のカスタム ARM ベース CPU である Google Axion が発表されました。

現行世代の X86 ベースのインスタンスと比較して、パフォーマンスが最大 50％改善されます。
また、エネルギー効率は最大 60％改善します。

Spanner、BigQuery、GKE、Google Earth Engine、YouTube Ads Platform などのサービス向けにデプロイされ始めており、データセンタなどの環境で最適なアーキテクチャとされています。

N4 / C4 インスタンス [new!!]

新たな N4 / C4 インスタンスは第5世代 Intel Xeon プロセッサーを搭載した新しい汎用インスタンスです。
高性能、柔軟性、コストのバランスの最適化を Titanium アーキテクチャによって実現しており、すべての汎用ワークロードをサポートします。

インスタンス	ユースケース
C4	大規模ワークロード、ミッションクリティカルなワークロード向け
N4	コスト重視のワークロード向け

C4
- 他社クラウドと比較して 19% 優れた価格パフォーマンス
- 前世代の C3 VM よりも 25% 優れた価格パフォーマンス
- リアルタイムワークロードに対する CPU の応答性が前世代と比較して 80% 向上
  - 高頻度の取引やオンラインゲームなどに最適
N4
- 前世代の N3 VM よりも 18% 優れた価格パフォーマンス
- MySQL などの主要なワークロードでは最大 39% 価格パフォーマンスが向上
- 高 CPU (2GB/vCPU)、標準 (4GB/vCPU)、および高メモリ (8GB/vCPU) 構成で事前定義されたカスタムシェイプを提供
- 640 GB の DDR5 メモリで最大 80 個の vCPU を搭載し、最大 160k のハイパーディスク IOPS をサポート
- 最大 50 Gbps の帯域幅をサポートした NIC を搭載

まとめ

いかがだったでしょうか。
NEXT'24 では生成AIを中心に多くのアップデートや新機能の発表がされています。

弊社ではコラムを中心に続々と記事を追記していきますので引き続きチェックしてみてください！