🪄

Amazon DataZone 超概要

maimy

2025/07/27に公開

AWS

DataZone

idea

 はじめにこの記事ではAmazon DataZoneの基本的な概要をまとめています。

具体的な実装・ソリューションは別途執筆予定です。

 Amazon DataZoneとは
 サービス概要https://aws.amazon.com/jp/datazone/
Amazon DataZone は、AWS、オンプレミス、およびサードパーティのソース全体に保存されているデータを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスです。
Amazon DataZoneを使用することで、きめ細かい制御によってデータへのアクセスを管理および統制できます。

その上で様々なロールが組織全体のデータに簡単にアクセスできるようになり、データに基づくインサイトを発見、使用、コラボレーションして導き出すことができます。

データによるイノベーション(アジリティ)とガバナンスを両立する、データドリブンのためのサービスです。

 解決する課題従来の課題:
データサイロ化による組織横断でのデータ活用困難
データの所在地や内容が不明（ダークデータ問題）
アクセス権限管理の複雑さ、技術的な障壁
データ品質や信頼性の可視化不足
コンプライアンス要件への対応負荷
DataZoneによる解決:
統一されたデータカタログによるデータ発見性向上
セルフサービス型のデータアクセス申請・承認機能
ビジネス用語集による組織横断での用語統一
きめ細かいアクセス制御とガバナンス機能
自動化されたメタデータ管理とデータリネージ追跡

 Amazon DataZoneの主要構成要素Amazon DataZoneの最上位の管理単位として「ドメイン」があり、その中に4つの主要なコンポーネントがあります。
プロジェクトと環境
ビジネスデータカタログ
サブスクリプション
データポータル
これらによってユーザーが目的に応じてデータにアクセスしやすくする仕組み(データの民主化)を実現しています。

さらにIAMとの統合(Identity Center)、ドメインユニットと認可ポリシーによってデータガバナンスを担保します。

 Domain（ドメイン）概要: DataZoneの最上位の管理単位。
全社的なデータポリシー、ユーザー管理、監査機能を統括します。
実際の利用イメージ:
データ責任者レベルがドメイン管理者として設定。
全社共通のデータ分類ルール・用語集を管理
各部署のデータ利用状況を監視・レポート
主な機能:
IAM Identity Center連携によるアクセス管理
AWSアカウントの関連付け
データポータルの提供
プロジェクトの管理
ブループリントの管理

 プロジェクトと環境
 プロジェクト概要: "特定の目的やチーム、部門"(＝ビジネスユースケース)に応じたワークスペース。
これが実際に各チームが作業する場所になります。「営業部プロジェクト」「マーケティング部プロジェクト」「データ分析チーム」といった具合に分かれます。
できること:
ドメイン内のデータカタログに、データソースからデータを公開
複数のデータアセットをバンドルしてデータ製品を作成・メタデータ構築など、データの整理(キュレーション)
カタログ内のデータを検索・アクセス(サブスクライブ)
主な機能:
チームメンバーの管理と権限割り当て
プロジェクト固有のデータソースとアセット管理
分析環境（Athena、SageMaker等）の統合
サブスクリプションベースのデータ共有

 環境プロジェクト内で使えるツール(Athena等)やデータソース、権限は「環境」によってデプロイされます。

環境はプロジェクト内に複数含めることができます。環境を作成するためは「環境プロファイル」という環境で使用できる設定パラメータとリソースの定義が必要で、この環境プロファイルは「ブループリント」によって作成されます。

イメージはこちらのBlackBelt資料が分かりやすいです。
[引用]

https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-DataZone-Overview_1231_v1.pdf







 ビジネスデータカタログの生成Amazon DataZoneのビジネスデータカタログによって、組織全体で簡単にデータを共有したりデータにアクセスしたりできます。

検出、使用、共同作業を行ってデータを活用してインサイトを導きます。
ビジネスデータカタログは以下の流れで構築されます。

 1. データソースからデータアセットを生成・公開データソースは実際のデータが保存されている場所への接続設定です。
サポートされるデータソースタイプ:
AWS Glue
Amazon Redshift
データソース設定のポイント:
接続先の指定（Glueデータベース名など）
アセットをカタログに公開するかの選択
メタデータの自動生成有効化
AWS Glue Data Qualityによる品質チェック
カスタムメタデータフォームの適用
実行設定（オンデマンド or スケジュール）
データソースを実行すると、データアセットが生成され、カタログに公開されます。

 2. カタログに蓄積されるデータアセットデータアセットは、カタログ化された個々のデータオブジェクト（テーブル、ビュー、ファイルなど）です。
各データアセットには以下の情報が含まれます：
ビジネスメタデータ
品質情報
データリネージュ

 3. データの意味を統一するビジネス用語集Business Glossary（ビジネス用語集） は、組織横断で使用される業務用語を定義・管理します。これによってデータの意味的な統一を実現します。

プロジェクト内で「ビジネス用語集」を作成し、その中に「用語」を作成することで定義します。
これにより、チーム間でのデータ理解のズレを防ぎ、統一された用語でデータを検索・利用できます。

 4. 組織固有の分類を定義するメタデータフォームメタデータフォームは、データアセットに付与するカスタムメタデータの構造定義です。組織固有の分類要件や業界特有の要求事項に対応できます。

 データカタログの効果構築されたビジネスデータカタログにより、以下が実現されます。
データの発見性向上:
ビジネス用語での直感的なデータ検索
データの内容・品質・利用方法の可視化
関連データセットの自動推薦
データの信頼性確保:
データ品質スコアによる信頼性評価
データリネージ（系譜）による出所追跡
利用実績による実用性確認
組織横断でのデータ活用:
統一された用語によるコミュニケーション
部署を超えたデータ共有の促進
データドリブンな意思決定の支援

 サブスクリプションサブスクリプションはデータアセットへのアクセス申請・承認・利用を管理する機能です。
https://docs.aws.amazon.com/ja_jp/datazone/latest/userguide/discover-subscribe-consume-data.html

 データポータルAmazon DataZoneは、さまざまなユーザーがセルフサービス方式でデータのカタログ化、検出、ガバナンス、共有、分析を行うことができるブラウザベースのウェブアプリケーションとしてデータポータルを提供しています。

 まとめAmazon DataZoneを触ってみた所感として、実現できることが多い・サービスとしてまだ新しく進化の最中であることから、けして簡単ではないサービスだと感じました。

ここでは基本概要のまとめのみとなりましたが、引き続きステップを踏んでより詳細な記事を書いていこうと思います。

 参考https://docs.aws.amazon.com/ja_jp/datazone/latest/userguide
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-DataZone-Overview_1231_v1.pdf

GitHubで編集を提案

Fusic 技術ブログPublication

さまざまな個性を受け入れて有機的につなぐ社内環境を整える。あらゆる事業機会の創出と実現を繰り返し、世の中に対する視点を絶えず増やして成長していく。あっと驚くような角度から発展できるポイントを見つけ、そこにいい感じにフィットする形でテクノロジーを組み込んで、世の中をちょっとずつ、時には大胆にアップデートしつづけていく。

はじめに

Amazon DataZoneとは

サービス概要

解決する課題

Amazon DataZoneの主要構成要素

Domain（ドメイン）

プロジェクトと環境

プロジェクト

環境

ビジネスデータカタログの生成

1. データソースからデータアセットを生成・公開

2. カタログに蓄積されるデータアセット

3. データの意味を統一するビジネス用語集

4. 組織固有の分類を定義するメタデータフォーム

データカタログの効果

サブスクリプション

データポータル

まとめ

参考

Discussion