🐷

機械学習プロジェクトのPDM要件に対応するAWSサービス詳細マップ

2025/03/05に公開

1. データ追跡と管理

バージョン管理

  • Amazon S3: データセットの保存とバージョニング
  • AWS Lake Formation: データレイク構築と管理
  • AWS DataSync: データ転送とバージョン同期

メタデータ管理

  • AWS Glue Data Catalog: メタデータの包括的管理
  • Amazon SageMaker Feature Store: 特徴量メタデータの追跡
  • AWS Step Functions: データワークフローの追跡

2. データ品質管理

品質モニタリング

  • Amazon SageMaker Data Wrangler: データ品質検査
  • Amazon EventBridge: データ品質イベント監視
  • AWS Glue DataBrew: データクレンジングと品質チェック

データ整合性確保

  • AWS Glue: スキーマ検証
  • Amazon Macie: 機密データ検出
  • AWS Step Functions: データ検証ワークフロー

3. コラボレーションと共有

チームワークサポート

  • Amazon Cognito: ユーザー認証と権限管理
  • AWS IAM: 詳細なアクセスコントロール
  • Amazon WorkSpaces: データ共有環境

ナレッジ管理

  • Amazon QuickSight: データ可視化
  • AWS CloudTrail: 変更履歴追跡
  • Amazon OpenSearch Service: ドキュメント検索と管理

4. モデル開発支援

実験追跡

  • Amazon SageMaker Experiments: モデル実験追跡
  • Amazon SageMaker Studio: 統合開発環境
  • AWS MLflow: オープンソース実験追跡

再現性担保

  • AWS CodeCommit: コード・設定バージョニング
  • Amazon SageMaker Pipelines: MLワークフロー管理
  • AWS Config: 環境設定追跡

5. データセキュリティとコンプライアンス

プライバシー保護

  • AWS Key Management Service: 暗号化鍵管理
  • Amazon Macie: 個人情報検出
  • AWS CloudHSM: ハードウェアセキュリティモジュール

規制対応

  • AWS Artifact: コンプライアンスレポート
  • Amazon Comprehend: データ匿名化
  • AWS Config Rules: コンプライアンス自動チェック

6. インフラストラクチャ統合

データパイプライン

  • AWS Data Pipeline: ETL管理
  • Amazon AppFlow: データソース連携
  • AWS Glue ETL: データ変換

スケーラビリティ

  • Amazon EMR: 大規模データ処理
  • AWS Lambda: サーバーレスデータ処理
  • Amazon ECS/EKS: コンテナ化されたデータ処理

統合ソリューション

  • Amazon SageMaker: エンドツーエンドの機械学習プラットフォーム
    • データ準備
    • モデル開発
    • 実験追跡
    • デプロイメント
    • モニタリング

推奨アーキテクチャ例

  1. データ収集: S3 + Glue
  2. データ品質: SageMaker Data Wrangler
  3. 実験管理: SageMaker Experiments
  4. モデル開発: SageMaker Studio
  5. デプロイ: SageMaker Endpoints
  6. モニタリング: CloudWatch + SageMaker Model Monitor

注意点

  • 全てのサービスを使う必要はない
  • プロジェクト規模と要件に応じて選択
  • コスト効率を常に意識する
  • セキュリティを最優先に考える

Discussion