🎞️

【開催報告】「クラウドネイティブ会議」実践 AI SRE — AIワークロードの自律的パフォーマンスエンジニアリング

に公開

2026年5月14日〜15日、名古屋・中日ホール&カンファレンスにてハイブリッド開催された「クラウドネイティブ会議」に、株式会社フィックスターズも参加しました。本イベントは、Kubernetesをはじめとするクラウドネイティブ技術の最前線を共有する場として、国内のエンジニアや企業から広く注目を集めました。

本記事では、5月15日に行われたフィックスターズ CTO 飯塚 拓郎によるセッション「実践AI SRE — AIワークロードの自律的パフォーマンスエンジニアリング」の内容をお伝えします。AI利用環境をいかに最適化していくのか、実践的な示唆に富むセッションでした。

開催日 : 2026年5月15日(金)13:40〜14:10
会場 : クラウドネイティブ会議 SRE Track(中日ホール&カンファレンス / 名古屋)
形式 : ハイブリッド開催(現地 + オンライン)


セッション概要:実践 AI SRE — AIワークロードの自律的パフォーマンスエンジニアリング

登壇者 : 株式会社フィックスターズ 飯塚 拓郎 氏(CTO)

「AI SRE」が持つ2つの意味

冒頭、飯塚はセッションタイトル「実践AI SRE」に込めた2つの意味を整理しました。

  • AIによるSRE : SREの構成要素や運用タスクをAIで拡張・自動化する取り組み
  • AIのためのSRE : 大量のGPUを消費し、計算リソースの性能が問われるAIワークロードを対象としたSRE

本セッションでは、この2つの意味が重なり合うかたちで、AIワークロードの性能課題とその解決にAIを活用する実践例が紹介されました。

AIワークロードが抱える性能課題と事業インパクト

AIワークロードは、WebサービスのようなSLO(サービスレベル目標)管理が必要でありながら、計算負荷の面では伝統的なHPC(ハイパフォーマンスコンピューティング)並みの重さを持つという、二面性を兼ね備えた難しさがあります。

xAIが運用する超大規模GPUクラスター「Colossus」を例に、飯塚氏は計算リソースの利用実態を紹介しました。膨大なコストが投じられているにもかかわらず、実質的なMFU(Model Flops Utilization:モデルの計算効率を示す指標)はわずか11%程度に留まっており、計算リソースの10%強しか有効活用できていないのが現状です。

GPUをはじめとするAIインフラは極めて高価です。リソースの利用効率を1%向上させるだけでも、劇的なコスト削減と巨大な事業インパクトが生まれます。しかし、その具体的な改善は技術的に非常に困難です。

パフォーマンスエンジニアリングの対象と自動化の壁

フィックスターズの注力分野は、計算機システムの性能を最大限に引き出す「パフォーマンスエンジニアリング」です。性能評価の主な指標として、以下の3つが挙げられました。

指標 概要
スループット 単位時間あたりにどれだけのデータをさばけるか
レイテンシー ユーザーへの応答遅延をどれくらい小さくできるか
電力効率 消費電力の最適化とインフラ費用対効果の最大化

AIワークロードは大きく2種類に分類できます。学習・バッチ推論はスループットを重視し、少数の大規模リクエストが中心です。一方、オンライン推論サービングはレイテンシーを重視し、多数の短時間リクエストを処理します。本セッションの対象は前者です。

一般的な性能改善は「検知 → 分析 → 改善 → 計測」の4ステップをループさせることで実現しますが、AIワークロードではこのサイクルを自動化・自律化する上で2つの大きな壁がありました。

  • 分析フェーズの壁(可観測性の不足) : 従来のWeb監視ツールではAIワークロードに関する情報が薄く、問題特定に必要な高密度のGPUプロファイリング情報がほぼ取得できない。
  • 改善フェーズの壁 : コンパイラによる自動最適化には限界があり、アルゴリズムの構造まで踏み込んだコード変換ができない。また、パターンマッチによるコード書き換えでは多様なユーザーコードに対応できない。

AIエージェントによる自律的パイプライン(デモ)

ここ1年(特に2025年以降)、AIエージェントの能力が飛躍的に向上したことで、自律化の潮目が変わりました。ドメイン知識を参照しながらボトルネックを特定し、自律的にコードを書き換えるアプローチが実用レベルに達したのです。

デモ環境のアーキテクチャは次の通りです。

  • インフラ : さくらインターネット提供のGPUクラスター「高火力PHY」(NVIDIA H200×8、2ノード構成)
  • 基盤 : Kubernetesによるコンテナ運用
  • 対象ワークロード : Stable Diffusionのファインチューニングジョブ

自律化パイプラインは4つのフェーズで構成されます。

  1. 検知(低オーバーヘッドの常時監視)
    DaemonSetとしてGPUノード上に常駐するエージェントが、GPUの使用率とSMアクティビティのギャップを常時監視。ボトルネックを検知して対象のPodを特定し、データはOpenTelemetry経由でClickHouseに集約される。
  2. プロファイリング(動的な深い分析)
    ボトルネック検知をトリガーに、対象PodへエフェメラルコンテナをCo-profiler PyTorchとして動的に注入。常時取得すると重すぎる高密度プロファイルデータ(CPU/GPUトレース、カーネルメトリクス等)を必要な瞬間だけ取得し、MinIOに格納する。
  3. 分析・レポート作成(AIの活用)
    格納された生のトレースデータをAIが扱いやすい統計データへ変換した上でLLMに投入。パフォーマンスエンジニアリングのドメイン知識を参照しながら、人間が読める「ボトルネック分析レポート」を自動生成する。
  4. 改善(自律ループの実行)
    同社内製の自律改善フレームワーク「APEX」を用いて、コード変更・機能の等価性検証・比較テスト・新たなボトルネックの検証という一連の改善サイクルをエージェントシステムで全自動に回す。

実績・成否の鍵と、デモに込めたメッセージ

「APEX」を「SAM 3」などの推論タスクに適用した事例では、処理速度 6倍、開発生産性 16倍という成果を達成しています。「SparseDrive」(自動運転モデルのエンドツーエンド学習)など、マルチクラウドやハイブリッド環境における大規模AIワークロードの最適化へも適用が進んでいます。

自律化を成功させるための鍵として、飯塚氏は3つの要素を挙げました。

  • Observability(観測) : データを深く・正確に取ることが大前提。「監視(モニタリング)」と「詳細分析(プロファイリング)」を明確に切り分け、観測者効果に配慮した仕組みが必要。
  • Context(コンテキスト) : 生の巨大トレースデータをそのままAIに投入しても機能しない。AIが理解しやすい「統計データ」に変換して与える知恵が必要。
  • Harness(ハーネス) : AIエージェントが実インフラとインタラクションできる実行環境の構築が必須。本番環境での運用には、安全性の担保と認証・認可の厳密な設計がセットで求められる。

なお、今回紹介された自律的なAI SREシステムは、AIエージェントを活用して短期間で構築されたものだといいます。「AIがAIの性能を改善する仕組み」を、その構築プロセス自体もAIに任せるという、デモ全体を貫く一つのメッセージが込められていました。


登壇者インタビュー

セッション後に、あらためて飯塚から当日の感想を聞きました。
株式会社フィックスターズ 飯塚 拓郎 氏(CTO)

会場で寄せられた声

講演後のスピーカーブースでは、さまざまな立場の方から質問が寄せられたそうです。

大手自動車メーカーの方からは、共通基盤の提供における難しさや、組織の縦割り(サイロ化)による全体最適化の課題に強く共感するとの声がありました。また、スタートアップ企業の方からは、大規模学習の本格運用を見据え、自律改善フレームワークのコア技術に対する高い関心をいただいたそうです。マルチエージェントシステムによる性能向上アプローチへの学術的・技術的な質問をする学生さんもいたそうで、AI活用の広がりと最適化ニーズの高まりが感じられます。

インフラと組織をめぐる課題感

インフラ層のエンジニアはコストや安定運用を重視する一方、上位のアプリケーション層(AI/ML)で何が動いているか、どう最適化すべきかには必ずしも関与していません。大手企業ほどインフラ部門とユーザー部門が完全に分かれており、全体最適化の推進には技術だけでなく組織的なサイロ化という課題が伴います。

プロダクト開発に向けて

オンプレミスや各種クラウドが混在するハイブリッド環境において、マルチテナント・マルチプラットフォームを横断して透過的に管理・チューニングできるソフトウェアエンジニアリングの重要性が、今回のイベントを通じて改めて感じたそうです。当日得られた現場の声は開発チームへフィードバックし、今後のプロダクト開発の参考にしていきたいと考えています。


おわりに

本セッションにご来場・ご視聴いただいた皆さま、誠にありがとうございました。AIワークロードのパフォーマンス改善やAIインフラの自律運用に関心をお持ちの方は、ぜひフィックスターズまでお気軽にご相談ください。

今後も皆さまのお役に立てるセミナーや技術情報をお届けしてまいります。次回のご参加もお待ちしております。

https://news.fixstars.com/category/event/

Fixstars Tech Blog /proc/cpuinfo

Discussion