Snowflakeユーザーのデータマネジメントコミュニティの勉強会が爆誕しました
前置き
こんにちは。さすらいのデータエンジニアのこみぃです。
先日Snowflakeのユーザーコミュニティの中で、特に データマネジメント について議論するコミュニティが発足しました。
ラスベガスで声をかけていただいたご縁もあって、実はひっそりと初期メンバーをやらせていただいております。
会の目的などは上記のnoteを読んでいただくとして、そんなユーザー会で初めての勉強会がスタートしましたので、本日はそのお話をします。
データマネジメントとは?
データマネジメントというのは文字通りデータをマネジメント、管理することを指します。
企業においてデータが活用されるには以下のようなことが必要です。
- データが正しく蓄積されること
- データの意味や構造が利用者に共有されていること
- データが利用できる状態で提供されていること
これに加え、データを正しく扱うには以下の管理を行う必要があります
- データのセキュリティが守られていること
- データの品質が担保されていること
他にもあげていくと細かいものが色々あるのですが、要するに「データが活用されるまでに必要なステップ」及び「セキュリティや正常性」を管理するのがデータマネジメントです。
第一回のテーマはデータ品質
勉強会第一回のテーマは「データ品質」でした。これは多くのデータエンジニアが日々悩まされていることです。
第一回の発表者の佐川さんは、自社で何も考えずにデータ基盤を作ったが後々データ品質に苦しめられたという経験から、データ品質に関する問題提起をしてくださいました。
それについて参加者で議論する形式で、勉強会が行われました。
すでにコミュニティのnoteに第一回の記事が上がってますので、まずはそちらをお読みください。
データ品質とは?
さて、データの品質とはなんぞやという方のために、なんと政府がデータ品質についてまとめてくれています。
その名も「データ品質管理ガイドブック」!!とくとご覧あれ。
これによるとデータの品質は15個の要素で評価されます。え、多くない?
- 正確性(Accuracy)
- 完全性(Completeness)
- 一貫性(Consistency)
- 信ぴょう(憑)性(Credibility)
- 新性(Currentness)
- アクセシビリティ(Accessibility)
- 整合性(Compliance)
- 機密性(Confidentiality)
- 効率性(Efficiency)
- 精度(Precision)
- 追跡可能性(Traceability)
- 理解性(Understandability)
- 可用性(Availability)
- 移植性(Portability)
- 回復性(Recoverability)
信ぴょう(憑)性って書いてあるのが政府発行の資料っぽくていいですね。
そしてアクセシビリティはどうにかならなかったのだろうか?可触性とかなんかこう、なあ!!
項目数が多くてイスから転げ落ちた方のためにすごく簡単に言うと、 データソースが確かでデータにズレも被りも漏れもなくリアルタイムで遅延もなくて誰が見ても理解できて活用もしやすくて障害が起きてもへっちゃらでもし異常が起きても自動でリカバリする と信頼性が高いわけです。ね、簡単でしょ?
問1「データの品質をどうやって定義する?」
さて、もちろん データソースが確かでデータにズレも被りも漏れもなくリアルタイムで遅延もなくて誰が見ても理解できて活用もしやすくて障害が起きてもへっちゃらでもし異常が起きても自動でリカバリする データ基盤を作れたら一番いいのですが、そんなのはドラえもんでなければ不可能です。なんならドラえもんがいても予算の問題で不可能かもしれません。
そうなると一定の品質で妥協するしかないわけですが、データの品質が求めている基準に達していることを確かめるにはどうすればいいのでしょう?
「求めている基準を達している」という状態を定義する必要があるわけですね。
ど、どうやって、、、、
勉強会ではこれについて議論が行われ、「利用者に実際に利益をもたらす状態」を定義することがまず必要で、それこそが必要なデータの品質を定義することなんじゃないかなという話になりました(個人の感想です)。
データは利用者に利益をもたらすために整備されるものである というのは忘れないほうが良い概念ではありそうです。
しかし、これも利用者によって求めるレベルが違ったり、そもそも利用者自身が求めているレベルがわかっていない場合などのつらい問題もあり、さらなる精進が求められそうです。
問2「データの品質を守るために何をする?」
データ活用の重要性は昨今ではよく叫ばれますが、データ自体のモニタリングの重要性はまだあまり認知されていません。データ界隈では最近はData Observabilityという言葉が浸透していっていますが、一般的な単語とは言いにくいでしょう。
データの品質を守るためにする第一歩は、データの品質を保つことの重要性をデータ界隈以外にも周知することなのかもしれません。
実は海外ではすでにデータの信頼性を担保するサービスが生まれています。
日本も今後はこの考え方が浸透していくのかしていかないのか?
人の夢は終わるのか、終わらないのか?
今回の勉強会ではそんな議論が行われました。
問3「そもそもデータの品質は誰が担保するもの?」
今回大きく議論したのは問1と2でしたが、裏のテーマとして「そもそもデータの品質は誰が担保するものなのか?」という問が各メンバーの心にあったようで、最後にはそんな話になりました。
個人的な意見としてはデータの品質は全員で担保するものだと思っています。データ基盤担当者だけが担保するにはあまりにも大変すぎるからです。
そして、全員で担保しなければならないということはトップダウンの意思決定が必要だということです。
全国の社長さん、私が言いたいことはわかりますね?
結びの言葉
データ品質はデータ活用に向けて乗り越えなくてはいけない大きな壁の一つですし、一律で適用できる解決策があるわけではありません。だからこそ担当者は日々悩み、心をすり減らしています(体験談)。
そんな悩みを共有しつつ解決策を探り合っていくということで(この記事では大幅に端折っていますが)、ここで書いた他にも様々な体験談や意見が飛び出した有意義な会でした。
データマネジメントに限らず データ担当者は社内でも孤立しがち なので、語り合える相手がいるだけでも非常に素晴らしいことです。
次回は10/6(金)。テーマは データ活用文化醸成について です。これもまた深すぎる話題ですね。私含めて何人かトラウマがフラッシュバックしてきて号泣しだしたりしないか今から心配です。
この記事を読んで興味を持った方や、何故か涙が止まらなかった方はぜひぜひお声おかけください。あなたはひとりじゃあない。ひとりじゃあないんだよ。
ここまでお付き合いいただきありがとうございました。
本日はこのあたりで。
それじゃあ、バイバイ!
Snowlfake データクラウドのユーザ会 SnowVillage のメンバーで運営しています。 Publication参加方法はこちらをご参照ください。 zenn.dev/dataheroes/articles/db5da0959b4bdd
Discussion