🌏

Metadata Platform の Datahubの紹介

2022/03/31に公開

想定対象読者

  • Data Discovery, Data Governance, Data Reliablityに興味がある人
  • Datahubをざっくりと簡単に理解したい人

公式リソース

Datahub公式ドキュメント

Github Repository

この記事の目的

Datahubを手っ取り早く理解したいという需要を想定し、この記事ではDatahubの基本的な機能や使い方を紹介したいと思います。

ドキュメントにてDatahubの説明や使い方、Q&Aが載っているので
本格的に使ってみたい・開発したいという場合は公式ドキュメントを読むことを推奨します。

Datahubとは

上記ドキュメントにて、Datahubの機能とその概観が説明されています。
そちらに沿って機能や特徴を筆者の所感とともに紹介していきます。

End-to-end Search and Discovery

Webブラウザのようなトップ画面から欲しいデータの情報を検索し、データに関するドキュメントやData Lineage、DataのOwnerなどデータに関する情報を閲覧できます。

様々なデータセット、大量のデータセットから自分が欲しいメタデータを得ることができ、
Data Discoveryを向上させデータ活用の速度を高めることが期待できます。

このような特性上、まだ少数のデータしか集めることができていない新規事業系の組織よりは、ある程度大きな規模のデータセットを抱える組織ではDatahubが効果的になると考えられます。

The Self-Service Roadmapでも述べられていたように、複雑で大きなデータセットを抱える企業では、欲しいデータ・信頼性のあるデータを探すために奔走せざるを得ないことがデータ活用のボトルネックとなっている場合があり、その場合はDatahubなどData Discoveryのための基盤を導入してData Discoveryの向上が重要とされます。

Robust Documentation and Tagging​

Datahubでは、ドキュメンテーションやタグ付けによるデータセット間の関連付けがなど、柔軟な検索を実現できる仕組みも備えています。

見出しのリンク先で紹介されているUIや、GraphQL API経由でデータセットに対する編集操作が可能です。

Wikiによっては階層構造でドキュメントの管理をしなければならないこともあり、ドキュメントの量が増えるにつれて階層構造の維持に疲弊してしまうこともあるので、タグベースで検索できることは利用者のUXを高めることに繋がりそうです。

データ基盤側のエンジニアがつい見落としがちなことに、データ利用者のUXがあると考えています。
非エンジニアを含むデータ利用者にとっても扱いやすいUI/UXを備えた基盤を提供することは、自分達がつくった基盤を継続的に利用してもらうためにも重要なことです。

Data Governance at your fingertips​

メタデータとはドキュメントやスキーマ情報、Data Lineageだけではなく、データに関する人・データの責任者もまた重要な情報たり得ます。

ただ単にデータに関する人をメタデータとして付与するだけではなく、Datahub上ではAWSのIAMのようなアクセスコントロール機能も有しており、データに対する管理権限を委譲することもできます。

Metadata quality & usage analytics

Active Userや人気の検索ワードなど、検索プラットフォームとしてのメトリクスも見ることができます。

ここまでは利用者向けの機能が多かったですが、データ基盤エンジニアとして
自分達が作った基盤がどのくらい使われているのか、利用者のメトリクスを取得できる点で有効な機能です。

DataHub is a Platform for Developers​

Datahubでデータセットのメタデータを閲覧できる、と紹介してきましたがIngest可能なデータソースはDBやBI, Data Pipelinなど多岐にわたります。

有名どころのデータソースの多くがサポートされています。OSSなので、上記でサポートされていないデータソースも自分達で追加できるかもしれません。

終わりに

この記事では公式ドキュメントに倣う形式でDatahubを紹介をしていきました。

この記事では紹介できませんでしたが、Datahubに類似するOSSも複数存在します。Modern Data Stackという言葉が出回りつつあるように、データ基盤関連技術への取り組みは海外を中心にかなり注目度が高くなっていると思っています。

この記事を契機として、Datahubあるいはそれ以外のMetadata Platform系、Data Discovery系の技術に関心を持っていただければ幸いです。

Discussion