Amazon SageMakerが駆け抜けた「激動の3年」歴史 (2022-2025)
この記事は株式会社ガラパゴス(有志) Advent Calendar 2025
の5日目です
今回は、最近触れていなかったSageMaker の歴史について、3年前から遡ってどう進化を遂げているのか書いてます!
AWS では、Bedrockしか触っていなかったので、出戻ろうとしています。
序章
今回の記事は僕が空白期間として残している2022年から2025年現在に至るまでのSageMakerの進化をまとめましたので、僕と同じくLLM以降追えていない人向けに発信していきます!
正直なところ、僕らが情報を追っていた2021年頃までの機械学習(ML)って、すごく直線的でしたよね。「データを集めて、アルゴリズムを選んで、学習させてデプロイする」。当時のSageMakerは、まさにこのプロセスを効率化する「MLOps」のプラットフォームとしてのポジションにいました。
Jupyter Notebookがマネージドで使えたり、実験管理ができたり、パイプラインが自動化されたり……。あれは当時としては画期的な進化で、企業のAI導入を単なる「実験」から「実務」へと押し上げる原動力だったと記憶しています。
でも、2022年後半にChatGPTが登場して、ゲームのルールが根底から覆されましたよね。企業が求めるものが、「効率よく予測モデルを作ること」から、「数千億パラメータの巨大言語モデル(LLM)をトレーニングすること」へ、劇的にシフトしてしまったんです。
この3年間でSageMakerに起きた変化は、単なる機能追加なんてレベルじゃありません。 もはやアイデンティティの再定義。「MLOpsの便利ツール」から、「AIとデータの統合プラットフォーム」へ。さらには「AIエージェントを生み出すための工場」へと、完全に別物レベルの進化を遂げています。
第1章:2022年 - ガバナンスの深化とMLOpsの「産業化」
生成AIの大波が来る直前ですが、企業での導入が本格化して、より高度な管理が求められる「MLOpsの成熟期」でもありました。この年、AWSは「モデルの中身がわからない」「ガバナンスどうするの?」といった、現場のリアルな課題に真正面から取り組んでいました。
1.1 「説明責任」の自動化:Model CardsとModel Dashboard
2022年の大きなテーマは間違いなく「MLガバナンス」でした。 金融や医療など、失敗が許されない領域でモデルが使われ始めると、「誰が、いつ、どんなデータで作ったの?」「リスク評価は?」という監査への対応が急務になりますよね。(XAIという言葉も出てきました。)
そこで登場したのが SageMaker Model Cards です。 これ、いわば「モデルの履歴書」の標準フォーマット(SSOT)です。それまでWordやExcelでバラバラに管理されていた仕様書を、SageMaker内で一元管理できるようにしてくれました。正直、モデル開発よりも辛い「ドキュメント作成」という苦行からMLエンジニアを解放してくれたのは画期的でした。
同時に導入された Model Dashboard も強力でした。 デプロイ済みの全モデルを一覧表示して、精度の劣化やリソース状況を監視できるコントロールタワーです。個別のエンドポイントを監視して回る「モグラ叩き運用」から、システム全体を俯瞰する運用へ。視座が一気に上がった感覚がありました。
1.2 地理空間データへの進出:SageMaker Geospatial Capabilities
2022年のre:Inventで個人的に「おっ」と思った隠れた革新が、SageMaker Geospatial Capabilities(地理空間機能) です。 衛星画像や地図データの処理って、これまではGIS(地理情報システム)の専門知識や高いツールが必要なニッチ領域でしたね。
1.3 開発者体験の再設計:Studioの刷新とRole Manager
初期のSageMaker Studio、機能はすごいけど「動作が重い」「UIが複雑」って感じてませんでしたか?(僕はかなりイライラしてました...)。 2022年のアップデートではバックエンドが見直されて、起動も速くなり、UIもかなり直感的になりました。
そして何より、SageMaker Role Manager の導入です。 「データサイエンティスト」「MLOpsエンジニア」といった役割ごとのテンプレートが用意されて、管理者は数分で権限付与ができるように。MLが「個人の職人芸」から「チームによる産業プロセス」へ移行したことを象徴する変化だったと思います。
第2章:2023年 - 生成AIの衝撃と「基盤モデル」へのピボット
2023年は、テクノロジー業界全体が生成AI一色に染まった年でした。SageMakerにとっても、設立以来最大の転換点だったと言えます。 ChatGPTの成功で、企業の関心が一気に「従来のML(予測・分類)」から「LLM(大規模言語モデル)」へシフトしました。AWSもこの激流の中で、SageMakerを「LLMを開発・運用するための最強プラットフォーム」へと進化させる年でした。
2.1 Amazon Bedrockの登場と、SageMakerの立ち位置
この年、AWSは生成AI向けの完全マネージドサービス「Amazon Bedrock」を発表しました。 ここで読者の皆さんも、当時の僕と同じ疑問を持ったはずです。「Bedrockがあるなら、もうSageMakerはいらないんじゃない?」と。
でも、2023年を通して両者の「棲み分け」は驚くほど明確になりました。以下の表が、2025年現在のAWSにおける生成AI戦略の地図です。
| 特徴 | Amazon Bedrock | Amazon SageMaker AI |
|---|---|---|
| 役割 | 「利用するAI」 (Consume) | 「作るAI」 (Build & Customize) |
| 主なユーザー | アプリケーション開発者 | データサイエンティスト、MLエンジニア |
| インフラ | 完全サーバーレス(管理不要) | インスタンス、クラスタの詳細管理が可能 |
| カスタマイズ | ファインチューニング等は限定的 | フルスクラッチ学習から高度なチューニングまで自由 |
| コスト構造 | トークン課金(従量制) | インスタンス時間課金(稼働時間制) |
| ユースケース | チャットボット、要約などの標準タスク | 独自ドメイン特化モデル、極限の低レイテンシ推論 |
2.2 インフラの怪物:SageMaker HyperPodの衝撃
生成AI時代、最大の敵は「計算リソースの巨大化」と「不安定さ」でした。 数千億パラメータのLLMを学習させるには、数千枚のGPUを数ヶ月稼働させる必要があります。この規模だと、ハードウェアの故障は「起きるかもしれない」じゃなくて、「確実に起きる日常」なんですよね。
従来はGPUが1つ壊れただけでジョブが止まり、エンジニアが手動で復旧させていました。多くの企業がKubernetes(EKS)で自前クラスタを組もうとしましたが、ネットワーク設定や障害対応の複雑さ(いわゆる「Kubernetes Tax」)に疲弊していた人も多いはず。
これに対するAWSの回答が、SageMaker HyperPod でした。 これは単なるEC2の集まりじゃありません。HPC界隈でお馴染みのワークロードマネージャー「Slurm」をAWSに完全統合し、以下の機能を実現しました。
- 自動修復(Auto-Healing): ハードウェア障害を検知すると、壊れたノードを勝手に切り離して予備と交換し、再開してくれます。これで、夜中に叩き起こされることはなくなりました。
- 分散学習の最適化: PyTorch FSDPなどを拡張し、数千GPU間の通信設定が最初から入っています。
2.3 コストとの戦い:Inference Components
モデルを作るのも大変ですが、それ以上にキツイのが「推論コスト」です。 LLM用のGPUインスタンスは高い。でも、使っていない時間(アイドルタイム)も課金される。「1モデル=1エンドポイント」という従来の常識では、コストが無駄にかかりすぎていました。
そこで2023年に登場したのが Inference Components です。 これは1つの巨大なインスタンスに複数のモデルを詰め込んで(Bin packing)、リソースを仮想的に分割する技術です。これによりリソース利用率を極限まで高めることが可能になり、Salesforceの事例では推論コストを最大50%削減しています。
2.4 生成AIのための評価基準:Clarify for LLMs
モデルが巨大化すると、「評価」も難しくなります。「正解率」だけじゃ、文章の流暢さやハルシネーションは測れません。
SageMaker Clarify は 「FMEval」ライブラリを提供し、正確性や毒性、バイアスを定量的に評価できるように。さらに、"LLM as a Judge"(LLMを使ってLLMを評価する)のアプローチも取り入れられ、人間評価に近いニュアンスを自動スコアリングする道が開かれました。
第3章:2024年 - "SageMaker AI"への新生と統合の時代
2024年、SageMakerは名称を Amazon SageMaker AI へと変更し、ブランドを刷新しました。機械学習(ML)という枠組みを超えて、データ分析とAI開発を一つのプラットフォームに統合するという、AWSの強い意志表示なんです。ぶっちゃけて言えば、DatabricksやSnowflakeといった「データ&AIプラットフォーム」の台頭に対するアンサーだったかなと思います。
3.1 ユーザー体験の統一:SageMaker Unified Studio
2024年最大のトピックは、間違いなく SageMaker Unified Studio の登場です。
かつてのSageMaker Studio(今はStudio Classicと呼ばれています)って、正直「MLエンジニアのための孤島」でしたよね? データの前処理にはGlueを開き、探索にはAthenaやRedshiftへ飛び、モデル開発でようやくSageMakerに戻ってくる……。このツール間の往復(コンテキストスイッチ)が……。
Unified Studioは、これらを全部一つのインターフェースに統合してくれました。 別のコンソールに移動することなく、Sparkジョブでデータを加工し、SQLでクエリを投げ、そのまま学習からデプロイまで完結できるんです。
さらに熱いのが Amazon DataZone との統合です。 「プロジェクト」という概念が中核に据えられ、データ資産やアクセス権限がプロジェクト単位で管理されるようになりました。これにより、データエンジニアが作ったデータを、データサイエンティストが即座に発見し、権限申請のラリーをすることなく(同じプロジェクトにいれば)すぐに使える。 まさに、ガバナンス付きの「データの民主化」が実現したわけです。
3.2 データの壁を壊す:SageMaker Lakehouse
Unified Studioと対をなすのが、SageMaker Lakehouse アーキテクチャです。 この思想はシンプルで強力。「データ移動こそが悪である」。
MLプロジェクトで一番時間とコストを食うのって、データをDWH(Redshift)からデータレイク(S3)へコピーして変換するETL処理ですよね? SageMaker Lakehouseは、Apache Icebergというオープンフォーマットを採用し、RedshiftやS3上のデータを「そのまま」SageMakerから扱えるようにしました。
いわゆる Zero-ETL統合 です。 Redshiftにあるペタバイト級の業務データに対して、データを移動させずに直接モデルトレーニングを回せる。データの鮮度は保たれるし、ストレージコストの二重払いも解消される。Snowflakeなどが先行していた「レイクハウス」の世界観を、AWSエコシステム全体で実現しようという壮大な構想です。
第4章:2025年 - エージェンティックAIと自律型ワークフロー
2025年現在。 SageMakerの最前線にあるキーワードは、**「エージェンティックAI(Agentic AI)」**です。 AIはもはや単にテキストや画像を生成するだけの存在ではありません。自律的に計画を立て、ツールを使いこなし、タスクを完遂する存在に昇華。
4.1 究極の回復力:HyperPod Checkpointless Training
LLMのトレーニングにおいて、長年の頭痛のタネだった「チェックポイント保存のオーバーヘッド」。これに対してSageMakerは、**Checkpointless Training(チェックポイントレス・トレーニング)**という、魔法のような技術的ブレイクスルーをもたらしました。
従来の分散学習では、ハードウェア故障に備えて、数時間ごとにテラバイト級のデータをS3に保存(チェックポイント)していました。この書き込み中はGPUが止まる(アイドルタイム)し、もし故障したら、直前のチェックポイントから再開するため、数時間分の計算が無駄になっていました。
Checkpointless Trainingは、この常識を覆します。採用されたのは メモリ内での状態冗長化(In-memory State Redundancy)。 モデルとオプティマイザの状態を、S3ではなく「クラスタ内の別のノードのメモリ(RAM)」に常に複製・同期させておくんです。 もしあるノードが故障しても、隣の元気なノードが持っているコピーから瞬時に状態を復元できる。S3への重い書き込みを待つ必要なんてありません。
この技術により、障害復旧時間は「数時間」から「数分」へ劇的に短縮されました。数千枚のGPUを使う大規模学習でも、実効効率(Goodput)は95%以上に達するそうです。ハードウェアとソフトウェアを垂直統合で開発できる、AWSだからこそ実現できた力技と言えます。
4.2 サーバーレスでのモデルカスタマイズ (Serverless Model Customization)
2025年のもう一つの目玉が、Serverless Model Customization です。
これまで、Llamaといったオープンモデルをファインチューニングするには、GPUインスタンスの確保が必須でした。「どのインスタンスタイプがいいの?」「GPU不足で確保できない!」……そんなインフラの苦労はもう過去の話です。
新機能では、これを完全サーバーレスで実行できます。 開発者は学習データを用意するだけ。インフラのプロビジョニングやスケーリングなんて気にする必要はありません。数クリックで RLHF(人間のフィードバックによる強化学習) や DPO(Direct Preference Optimization) といった高度なチューニングまで実行可能です。
Collinear AIのようなスタートアップは、この機能でインフラ管理の手間をゼロにし、実験サイクルを「数週間」から「数日」に縮めたとか。SageMakerが「パワーユーザー向け」だけでなく、「スピード重視のユーザー」にも最適化された証拠ですね。
4.3 エージェント構築の基盤へ:Amazon Nova Forge
SageMakerは今や、単なるモデル開発基盤ではなく、「AIエージェントを生み出す工場」としての性格を強めています。
AWSが独自開発した基盤モデルファミリー Amazon Nova の登場に合わせ、SageMaker上では Nova Forge という機能が提供されました。 これを使えば、AWS推奨のベストプラクティス(レシピ)に従って、Novaモデルに独自のデータを追加学習(Continued Pre-training)させたり、業界知識を注入したりといったカスタマイズが驚くほど簡単にできます。
さらに熱いのが、作ったモデルは Amazon Bedrock AgentCore とシームレスに連携できる点。カスタマイズしたその瞬間から、複雑なタスクを自律的にこなすエージェントとして即座にデプロイできるわけです。
結論:次の時代への羅針盤
この3年間で、Amazon SageMakerは「Jupyter Notebookのホスティングサービス」から、企業のAI戦略全体を支える「統合OS」へと変貌を遂げた。
2022年は、MLOpsを確立し、ガバナンスを効かせることで**「守り」**を固めた年であった。
2023年は、生成AIという黒船に対し、HyperPodやJumpStartで即座に応戦し、LLM時代のインフラとしての地位を築いた**「変革」**の年であった。
2024-2025年は、SageMaker AIへのリブランドとUnified Studioにより、データとAIを不可分なものとして統合し、エージェンティックAIという「攻め」のフロンティアを開拓した期間である。
3年間のブランクは意外に大きかったなという所感です。 Bedrock とともに、再度好きになります!
Discussion