🐇

AI時代のインフラ運用。クラウドコスト、GPU不足、スポットインスタンスをどう扱うか

に公開

本記事は、CodeRabbitの提供するポッドキャストTHE MERGEより、CastAIのDevRel、Kunal Kushwaha氏との対談の日本語解説になります。

TL;DR

Kunal Kushwaha氏は、AI時代のインフラ運用では「クラウドが自律的に考える」方向へ進むと語っています。Kubernetesやクラウド基盤は複雑であり、開発者やプラットフォームエンジニアがクラスタを手作業で監視し続けるのは非効率です。AIはワークロードのパターンを見て、過剰なリソース要求、スポットインスタンスの活用、GPU不足、ノード選定などを支援し、人間の運用負荷を下げます。

また、開発ツールの選び方では「最強のモデル」よりも「仕事を終わらせるモデル」が重要だと述べています。オープンソースモデルは特定用途に十分なら採用価値があり、AIによる開発支援が広がる中でも、成果物を自分でレビューする姿勢が不可欠です。オープンソースへの貢献も、コードだけでなく、ドキュメント、レビュー、コミュニティ支援まで含めて考えるべきです。

カンファレンスで見えた開発者向けブースとOSSの現場(01:17〜)

冒頭では、Scale Conでの参加者体験や、開発者向けカンファレンスにおけるブース設計について語られています。Kunal氏はCastAIでEMEA地域のDevRelを担当しており、同社を「アプリケーションパフォーマンス自動化プラットフォーム」と説明しています。KubeConではKelsey Hightower氏の基調講演や、開発者を引きつけるブースの工夫が印象に残ったと述べています。

https://www.youtube.com/watch?v=_14E-EwcXtE&t=77s

開発者向けイベントでは、単に企業説明をするだけでは注目を集めにくくなっています。Grafanaの3Dプリンタ、カップケーキ、ポップコーン、CastAIのLEGOブースなど、体験型の仕掛けが開発者との接点を作っています。また、Karpenterのようなインフラ関連OSSの話題も出ており、AIとKubernetesをどう組み合わせてインフラを賢くするかが、現場の関心として語られています。

AIによってクラウドが自律的に考えるインフラへ進む(04:51〜)

Kunal氏は、クラウドやインフラの世界でもAIを使わなければ取り残されると見ています。物理サーバーから仮想マシン、コンテナ、Kubernetesへと進化してきた流れを踏まえ、次はAIがインフラ領域に入り、クラウドの運用判断を支援する段階だと説明しています。Kubernetesは複雑ですが、その複雑さ自体が問題なのではなく、人間がすべてを手作業で管理し続けることが課題だと言います。

https://www.youtube.com/watch?v=_14E-EwcXtE&t=291s

AIは、CPUやメモリの過剰要求、ワークロードパターン、クラスタのスケールアップやスケールダウンを見て、より適切な運用判断を支援します。開発者もインフラ担当者もクラスタを常時監視したいわけではありません。AIが隠れたパターンを検出し、重たい運用作業を担うことで、開発者は実装に、インフラ担当者はより本質的なデプロイや基盤設計に集中できます。

コスト削減だけではない、AI管理インフラの価値(07:09〜)

インフラ運用では、クラウドコストの無駄が多くの箇所で発生します。動画では、スポットインスタンスを使わない、リソースを過剰に確保する、クラスタを夜通し動かしたままにする、クラウドプロバイダーの割引を活用しない、といった例が挙げられています。ただし、Kunal氏はコスト削減だけを目的にすると不十分だと見ています。信頼性や効率を犠牲にした低コスト化は、企業にとって受け入れにくいからです。

https://www.youtube.com/watch?v=_14E-EwcXtE&t=429s

AI管理インフラの価値は、クラウド料金そのものだけではなく、人間がインフラを見張る時間を減らす点にもあります。AWSのスポットインスタンスは大幅な割引がある一方、突然取り上げられる可能性があります。そこでAIツールがインスタンスの終了を検知し、別のインスタンスへライブマイグレーションすることで、コスト削減と運用信頼性の両立を狙います。手動でも可能ですが、非常に難しい作業であり、ここに自動化の意味があります。

GPU不足、モデル選択、ノード最適化をAIで扱う(10:41〜)

CastAIがAIをインフラ管理にどう取り込んでいるかについて、Kunal氏はワークロードのパターン分析を中心に説明しています。対象はKubernetesクラスタだけではなく、データベースやAIモデルにも広がります。AI Enablerというサービスでは、特定のタスクに対してどのモデルが最も効率的に動くかを判断する仕組みが語られています。

https://www.youtube.com/watch?v=_14E-EwcXtE&t=641s

さらに、GPU不足への対応としてOmni Computeの話が出ています。たとえばAWSの欧州リージョンでB200が足りない場合でも、Google CloudのアジアリージョンにあるGPUを既存のKubernetes環境へ接続する、という考え方です。また、過去の利用状況を見て適切なインスタンスタイプを選ぶ、ノード間でワークロードをライブマイグレーションする、Karpenterの上で人間の過剰なリソース指定を補正する、といった最適化も紹介されています。

開発ツール選びとオープンソースAIの実利(14:51〜)

日々の開発環境について、Kunal氏はターミナル派だと述べています。Cursorも評価しつつ、Warpを好んで使っている理由として、直感的であること、コミュニティ重視であること、フィードバックが次のリリースに反映されることを挙げています。また、WarpがOpenAIやClaudeなどの外部キーを持ち込める点も、特定プラットフォームへのロックインを避ける意味で評価しています。

https://www.youtube.com/watch?v=_14E-EwcXtE&t=891s

AIモデルについては、必ずしも最新・最強である必要はなく、自分の目的を達成できるかが重要だと語っています。たとえばGoだけを十分に扱えるオープンソースモデルがあれば、JavaやC++に強いプロプライエタリモデルでなくても構わない、という姿勢です。オープンソースはAIにおける教育、スキル不足、研究資金といった課題の解決にも役立つとされ、開発者にとって実用上の選択肢になっています。

まとめ

動画では、AI時代のインフラ運用、開発ツール、オープンソース貢献が一貫して「実用性」を軸に語られています。AI管理インフラは単なるコスト削減ツールではなく、Kubernetesやクラウド運用の複雑さを吸収し、人間の運用負荷を下げるための仕組みです。開発者やプラットフォームエンジニアがクラスタを監視し続けるのではなく、AIにワークロード分析、スケーリング、リソース最適化を任せる方向へ進んでいるのです。

開発者のAI活用でも同じ考え方が語られています。最強のモデルや最先端のツールを追い続けるより、自分の作業に合うものを選び、成果物を自分で確認する姿勢が重要です。オープンソースへの貢献もコードだけではなく、レビュー、ドキュメント、バグ報告、コミュニティ支援まで含まれます。AIを使うことで貢献はしやすくなりますが、未確認のAI生成PRを投げるのではなく、自分の責任で品質を担保することが求められます。

CodeRabbit

Discussion