🤖

Vertex AI でGPU学習を始める前に知っておくべきクォータ申請の手順

に公開

背景

Vertex AI で CLIP モデルのファインチューニングを行おうとして、以下のエラーが発生しました。

ERROR: RESOURCE_EXHAUSTED: The following quota metrics exceed quota limits: 
custom_model_training_nvidia_t4_gpus

プロジェクトのOwner権限もあり、Vertex AI API も有効化済みでしたが、GPU 学習用のクォータが初期状態では 0 に設定されていることが原因でした。本記事では、この問題の解決方法と事前に必要な設定について説明します。

前提知識:Vertex AI のクォータの種類

Vertex AI には大きく分けて2つのGPUクォータがあります:

1. Custom model serving (モデル配信用)

Custom model serving Nvidia T4 GPUs per region
  • モデルをデプロイしてAPIとして公開する際に使用
  • 一部のリージョンでは初期値が1に設定されている場合がある

2. Custom model training (学習用)

Custom model training Nvidia T4 GPUs per region  
  • モデルの学習・トレーニングで使用
  • 初期値は全リージョンで 0 に設定
  • 今回のエラーはこのクォータ不足が原因

クォータ申請の手順

Step 1: Google Cloud Console でクォータページにアクセス

  1. Google Cloud Console にアクセス
  2. IAM と管理割り当てとシステム制限 をクリック

Step 2: 学習用GPUクォータを探す

検索ボックスで以下を検索:

  • Custom model training
  • または training でフィルタリング

注意: serving ではなく training のクォータを選択する必要があります。

Step 3: 目的のGPUタイプとリージョンを選択

例:Custom model training Nvidia T4 GPUs per regionus-central1

現在の値が 0 になっているはずです。

Step 4: クォータ増加申請

  1. 該当行の「編集」ボタンをクリック
  2. 新しい上限値を入力
  3. 申請理由を記載
  4. 送信

よくある間違いとトラブルシューティング

❌ 間違い1: serving用クォータと勘違い

Custom model serving Nvidia T4 GPUs  # これじゃない

✅ 正解: training用クォータ

Custom model training Nvidia T4 GPUs  # これが正解

❌ 間違い2: Compute Engine のGPUクォータと混同

Compute Engine と Vertex AI は別々のクォータです。

❌ 間違い3: 無料トライアルアカウントでの申請

無料トライアル期間中はGPUクォータの増加申請ができません。

まとめ

Vertex AI でGPU学習を始める際の重要ポイント:

  1. GPU学習用クォータは初期値が0 - 事前申請が必須
  2. serving用とtraining用を混同しない - training用を申請する
  3. T4から始めるのが無難 - 承認されやすく、コストも抑えられる
  4. 余裕を持って申請 - 3-5営業日前に申請する

これらのポイントを事前に把握しておくことで、Vertex AI での機械学習プロジェクトをスムーズに開始できます。

参考資料

Discussion