Amazon DataZone 超概要
はじめに
この記事ではAmazon DataZoneの基本的な概要をまとめています。
具体的な実装・ソリューションは別途執筆予定です。
Amazon DataZoneとは
サービス概要
Amazon DataZone は、AWS、オンプレミス、およびサードパーティのソース全体に保存されているデータを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスです。
Amazon DataZoneを使用することで、きめ細かい制御によってデータへのアクセスを管理および統制できます。
その上で様々なロールが組織全体のデータに簡単にアクセスできるようになり、データに基づくインサイトを発見、使用、コラボレーションして導き出すことができます。
データによるイノベーション(アジリティ)とガバナンスを両立する、データドリブンのためのサービスです。
解決する課題
従来の課題:
- データサイロ化による組織横断でのデータ活用困難
- データの所在地や内容が不明(ダークデータ問題)
- アクセス権限管理の複雑さ、技術的な障壁
- データ品質や信頼性の可視化不足
- コンプライアンス要件への対応負荷
DataZoneによる解決:
- 統一されたデータカタログによるデータ発見性向上
- セルフサービス型のデータアクセス申請・承認機能
- ビジネス用語集による組織横断での用語統一
- きめ細かいアクセス制御とガバナンス機能
- 自動化されたメタデータ管理とデータリネージ追跡
Amazon DataZoneの主要構成要素
Amazon DataZoneの最上位の管理単位として「ドメイン」があり、その中に4つの主要なコンポーネントがあります。
- プロジェクトと環境
- ビジネスデータカタログ
- サブスクリプション
- データポータル
これらによってユーザーが目的に応じてデータにアクセスしやすくする仕組み(データの民主化)を実現しています。
さらにIAMとの統合(Identity Center)、ドメインユニットと認可ポリシーによってデータガバナンスを担保します。
Domain(ドメイン)
概要: DataZoneの最上位の管理単位。
全社的なデータポリシー、ユーザー管理、監査機能を統括します。
実際の利用イメージ:
- データ責任者レベルがドメイン管理者として設定。
- 全社共通のデータ分類ルール・用語集を管理
- 各部署のデータ利用状況を監視・レポート
主な機能:
- IAM Identity Center連携によるアクセス管理
- AWSアカウントの関連付け
- データポータルの提供
- プロジェクトの管理
- ブループリントの管理
プロジェクトと環境
プロジェクト
概要: "特定の目的やチーム、部門"(=ビジネスユースケース)に応じたワークスペース。
これが実際に各チームが作業する場所になります。「営業部プロジェクト」「マーケティング部プロジェクト」「データ分析チーム」といった具合に分かれます。
できること:
- ドメイン内のデータカタログに、データソースからデータを公開
- 複数のデータアセットをバンドルしてデータ製品を作成・メタデータ構築など、データの整理(キュレーション)
- カタログ内のデータを検索・アクセス(サブスクライブ)
主な機能:
- チームメンバーの管理と権限割り当て
- プロジェクト固有のデータソースとアセット管理
- 分析環境(Athena、SageMaker等)の統合
- サブスクリプションベースのデータ共有
環境
プロジェクト内で使えるツール(Athena等)やデータソース、権限は「環境」によってデプロイされます。
環境はプロジェクト内に複数含めることができます。環境を作成するためは「環境プロファイル」という環境で使用できる設定パラメータとリソースの定義が必要で、この環境プロファイルは「ブループリント」によって作成されます。
イメージはこちらのBlackBelt資料が分かりやすいです。
[引用]
ビジネスデータカタログの生成
Amazon DataZoneのビジネスデータカタログによって、組織全体で簡単にデータを共有したりデータにアクセスしたりできます。
検出、使用、共同作業を行ってデータを活用してインサイトを導きます。
ビジネスデータカタログは以下の流れで構築されます。
1. データソースからデータアセットを生成・公開
データソースは実際のデータが保存されている場所への接続設定です。
サポートされるデータソースタイプ:
- AWS Glue
- Amazon Redshift
データソース設定のポイント:
- 接続先の指定(Glueデータベース名など)
- アセットをカタログに公開するかの選択
- メタデータの自動生成有効化
- AWS Glue Data Qualityによる品質チェック
- カスタムメタデータフォームの適用
- 実行設定(オンデマンド or スケジュール)
データソースを実行すると、データアセットが生成され、カタログに公開されます。
2. カタログに蓄積されるデータアセット
データアセットは、カタログ化された個々のデータオブジェクト(テーブル、ビュー、ファイルなど)です。
各データアセットには以下の情報が含まれます:
- ビジネスメタデータ
- 品質情報
- データリネージュ
3. データの意味を統一するビジネス用語集
Business Glossary(ビジネス用語集) は、組織横断で使用される業務用語を定義・管理します。これによってデータの意味的な統一を実現します。
プロジェクト内で「ビジネス用語集」を作成し、その中に「用語」を作成することで定義します。
これにより、チーム間でのデータ理解のズレを防ぎ、統一された用語でデータを検索・利用できます。
4. 組織固有の分類を定義するメタデータフォーム
メタデータフォームは、データアセットに付与するカスタムメタデータの構造定義です。組織固有の分類要件や業界特有の要求事項に対応できます。
データカタログの効果
構築されたビジネスデータカタログにより、以下が実現されます。
データの発見性向上:
- ビジネス用語での直感的なデータ検索
- データの内容・品質・利用方法の可視化
- 関連データセットの自動推薦
データの信頼性確保:
- データ品質スコアによる信頼性評価
- データリネージ(系譜)による出所追跡
- 利用実績による実用性確認
組織横断でのデータ活用:
- 統一された用語によるコミュニケーション
- 部署を超えたデータ共有の促進
- データドリブンな意思決定の支援
サブスクリプション
サブスクリプションはデータアセットへのアクセス申請・承認・利用を管理する機能です。
データポータル
Amazon DataZoneは、さまざまなユーザーがセルフサービス方式でデータのカタログ化、検出、ガバナンス、共有、分析を行うことができるブラウザベースのウェブアプリケーションとしてデータポータルを提供しています。
まとめ
Amazon DataZoneを触ってみた所感として、実現できることが多い・サービスとしてまだ新しく進化の最中であることから、けして簡単ではないサービスだと感じました。
ここでは基本概要のまとめのみとなりましたが、引き続きステップを踏んでより詳細な記事を書いていこうと思います。
参考
Discussion