【Amazon SageMaker】主要なSageMakerの機能をまとめてみた(AIF/MLA/MLS 対策)
はじめに
AWS認定試験(AIF/MLA/MLS)において、Amazon SageMakerに関する理解は極めて重要な要素となります。
SageMakerは数多くの「SageMaker ○○」という形式のサービス群で構成されており、各サービスの機能やユースケースを正確に理解することが試験攻略の鍵となります。
この記事では、これらのサービスを体系的に分類し、整理して解説していきます。
Amazon SageMakerについて
Amazon SageMakerは、AWSが提供する機械学習(ML)向けのフルマネージドプラットフォームです。データの準備段階から、モデルの訓練、最適化、デプロイメント、監視まで、機械学習プロジェクトの全工程をカバーしています。
- インフラストラクチャの準備が不要で、MLモデルの開発・運用を実現
- コーディング不要のユーザーから専門的なデータサイエンティストまで、幅広い利用者に対応
- 豊富な「SageMaker ○○」サービス群により、各用途に特化した最適化を提供
SageMaker主要サービス解説
試験対策に重要なサービスを中心に、包括的ではありませんが主要なものをご紹介します。
SageMaker Canvas
プログラミング不要で機械学習モデルの構築・予測を実現するサービスです。ビジネスアナリストやビジネスユーザーが、コーディングスキルなしでMLモデルを作成できます。
- データ前処理、モデル学習、評価、予測の全工程をGUIで完結
- 背後でAutoMLが稼働するため、機械学習の専門知識がなくても利用可能
🔗 公式ドキュメント:
SageMaker Studio
SageMakerの核となる統合開発環境(IDE)機能を提供するサービス。Jupyterをベースとし、開発・訓練・デプロイをGUIから実行できます。
- データサイエンティスト向けの設計
- 各種MLツール(TensorFlow, PyTorch, SKLearnなど)との連携が簡単
🔗 公式ドキュメント:
SageMaker Processing
スケーラブルなバッチデータ処理(前処理・後処理など)を実行するサービス。
- S3からの入力データ読み込み、処理後のS3への出力
- sklearnや独自スクリプトを使用したデータクリーニングに対応
🔗 公式ドキュメント:
SageMaker Clarify
機械学習モデルの バイアス検出 と 説明可能性(Explainability) を提供するサービス。
- データとモデルの公平性検証
- SHAP値による特徴量重要度の可視化
🔗 公式ドキュメント:
SageMaker Debugger
訓練中のモデルにおける問題(過学習、勾配消失など)を検出するためのツール。
- モデルの学習進捗をリアルタイムで監視
- 自動ルールベースでの異常検出
🔗 公式ドキュメント:
SageMaker Model Monitor
デプロイ済みモデルの ドリフト(性能劣化) を監視するサービス。
- 入力データの分布変化、予測結果の変化を監視
- リアルタイムアラート機能も搭載
🔗 公式ドキュメント:
SageMaker Autopilot
完全自動でのモデル構築(AutoML)を実現するサービス。訓練パイプラインを自動生成します。
複数のモデル候補を試行し、最適解を選択
重要な変更:2023年11月30日以降、AutopilotのUIはSageMaker Canvasに移行されており、単体UIはStudio Classicでのみ利用可能
APIレベルでの機能は引き続き利用可能
🔗 公式ドキュメント:
SageMaker Neo
訓練済みモデルを 最適化コンパイル し、エッジデバイスでの高速動作を実現するサービス。
- ARM、Intel、NVIDIAなど多様なデバイス向けの最適化
- IoTエコシステムとの高い親和性
🔗 公式ドキュメント:
SageMaker Pipelines
MLワークフローの構築・管理を行う MLOpsパイプライン機能。
- CI/CDを活用したML開発プロセスに対応
- ステップ(処理単位)の視覚的な接続が可能
🔗 公式ドキュメント:
SageMaker Data Wrangler
データ準備・クレンジング・変換をGUIベースで実行できるサービス。
- SQLを使わないGUIでの集計・結合・欠損値処理が可能
- データ前処理から直接訓練ジョブへの接続が可能
🔗 公式ドキュメント:
SageMaker JumpStart
事前訓練済みモデルやサンプルノートブックを活用して、迅速にMLを開始できるサービス。
- BERTなどの一般的なモデルをGUIから即座に利用可能
- 業界別テンプレートや事前訓練済みモデルの簡単デプロイ
🔗 公式ドキュメント:
SageMaker Feature Store
機械学習モデルで使用する 特徴量の保存・共有 を行うリポジトリ。
- オンライン・オフライン両方のストアを提供
- MLOpsにおける再現性・一貫性の確保に有効
🔗 公式ドキュメント:
SageMaker Ground Truth
教師あり学習のための データラベリングサービス。
- Amazon Mechanical Turkや自社作業者を活用したラベリング
- 自動ラベリング(Active Learning)機能も搭載
🔗 公式ドキュメント:
SageMaker Training Compiler
ディープラーニングモデルの訓練を 自動最適化し高速化するコンパイラ。
- PyTorch・XLAなどと連携し、GPUリソースを効率的に活用
- 学習時間・コストの削減を実現
🔗 公式ドキュメント:
SageMaker Experiments
MLの実験管理ツール。ハイパーパラメータの変更やデータバージョンに対する結果の追跡が可能です。
- モデルのバージョン管理を体系化
- 実験の比較・可視化機能
🔗 公式ドキュメント
SageMaker Model Registry
モデルのバージョン管理と、承認・デプロイステータスの記録を行う機能。MLOpsの文脈で重要な役割を担います。
- モデルの「ステージ(開発→本番)」管理
- Pipelinesとの統合が前提となることが多い
🔗 公式ドキュメント
SageMaker Inference Recommender
モデルを本番環境で推論実行する際の、最適なインスタンスタイプや設定を自動推奨するツール。
- デプロイ時のコストとパフォーマンスのトレードオフ分析
- スペック選定プロセスの自動化
🔗 公式ドキュメント
Discussion