Open7

データ基盤とは

さしもんさしもん

案件でシステム構成をみて、いつもは気にならないのに気になった
そもそも基盤がなんなのかすらわかってなかったし

さしもんさしもん

売上」と一言で言っても、考え方や用途によって定義はいくらでも変わりますし、さまざまな計算方法が考えられます。

データを利用して施策を考えようとしてもデータを正しく扱えないから
部署ごとにみてるデータが違ったりして
データに基づいた施策をしているつもりが全く無意味、むしろ悪影響になることはあるあるなのか

https://atmarkit.itmedia.co.jp/ait/articles/1804/23/news011_2.html

さしもんさしもん

一口に「データ活用」といってもさまざまな用途があります。これらの中にはDBのデータを定期的に見るだけで済むようなものもあります。では、あえて「データ基盤」と呼ばれるものが必要になるのは、なぜなのでしょうか。

確かに

データ基盤とは「データソースと利用者をリボンのように結び付けるもの」だと筆者は解釈しています。データソースや利用者がお互い1つのときは、直接参照するだけで要求は実現できるでしょう。
しかしプロダクト成長や体制拡大によって、リボンの両側は多様になっていきます。そうなると、結び付ける役割のデータ基盤が必要になるのです。

さしもんさしもん

そう考えると確かにファクトとしてデータを使えるのが、理想で綺麗だけど
現実はなかなかそううまくはいかないのか..

経験に頼るのではなく“ファクト“と“ロジック“で話す。そこに経験を裏打ちする。
https://twitter.com/masa_mimura/status/1630689550401150978?s=46&t=Zgc3t16fa9Kgb5kuuQQU4w

https://twitter.com/tsuru___chan/status/1630865973338345474?s=46&t=226uKnHxfFDsoQIx13idPQ

ユーザーヒアリングでは、ユーザーの「意見」ではなく「行動」を聞くべき。
ex)
×「体型は普段から気にしていますか?」
○「この1週間で、15分以上運動した日は何日ありますか?」
×「あなたに合った本を選んでくれるサービスがあれば欲しいですか?」
○「先月読んだ本は何冊ですか?」

でもこれはいいなー

さしもんさしもん

データ基盤とは

データ分析に必要なデータを扱う技術的基盤のこと
データ基盤を用いることで、これまでのツールでは取り扱えなかったビックデータの蓄積・加工・保管が可能になるため、データ活用の最初の一歩と言える

参照: https://www.incudata.co.jp/magazine/2022/000403.html
参照: https://aiacademy.jp/media/?p=3433

データ基盤の求められる理由

ビッグデータとしてビジネスへのデータ活用?

データ基盤の役割

データ分析は情報の収集・蓄積に始まり、そして分析から可視化へと至る

蓄積(データレイク)

生データ、何も手を加えていない状態のデータの保管
例えば、CSVデータやJSONやExcelなどのデータから、PDFファイルや動画データなど
Google Cloud StorageなどがAmazon S3該当する

加工(データウェアハウス)

加工済みデータ、構造化されたデータの保管

分析(データマート)

用途に応じたデータの保管
データの分析

データ基盤の形態

  • オンプレミス型
  • クラウド型

誰が開発するのか?

データ基盤エンジニア?
参照: https://www.criprof.com/magazine/2022/09/19/post-7066/

データ基盤エンジニアが、データの収集と分析をしやすくするための基盤を作るのに対し、データサイエンティストは、これらのデータを分析してビジネス改善の提案をするのが主な業務です。データ基盤エンジニアにはサーバーやネットワークについての技術的な知見が必要ですが、データサイエンティストはこれらのスキルがなくても、統計学や分析の知識、アプリケーションの最適な利用方法などの知見があれば業務を行えます。

データアナリストもデータサイエンティスト同様に、データを活用して企業の課題解決などに貢献する仕事です。データサイエンティストは分析モデルの構築がメインの仕事であるのに対し、データアナリストは企業の意思決定支援やビジネスへの応用に関わる役割が多くなります

データベースエンジニアとの違い

データ基盤エンジニアとデータベースエンジニアは、データベースを構築して正しく管理する点では違いはありません。違いはデータの利用目的や管理方法で、データベースエンジニアは業務システムからWeb系サービスまであらゆるデータが扱う範囲となります。

一方のデータ基盤エンジニアは分析のためのデータが対象範囲で、膨大な量であることから管理方法も異なり、分散管理を使った技術やクラウドサービスが用いられます。

色々な基盤

データ基盤以外にも色々と基盤はある
動画配信基盤: https://www.slideshare.net/dena_tech/dena-87959886
プッシュ通知配信基盤: https://atmarkit.itmedia.co.jp/ait/articles/1412/18/news022.html
https://techblog.zozo.com/entry/migrate-push-notification-to-fcm

さしもんさしもん

データ基盤とは

データ分析に必要なデータを扱う技術的基盤のこと
データ基盤を用いることで、これまでのツールでは取り扱えなかったビックデータの蓄積・加工・保管が可能になるため、データ活用の最初の一歩と言える

参照: https://www.incudata.co.jp/magazine/2022/000403.html
参照: https://aiacademy.jp/media/?p=3433

データ基盤の求められる理由

ビッグデータとしてビジネスへのデータ活用?

データ基盤の役割

データ分析は情報の収集・蓄積に始まり、そして分析から可視化へと至る

蓄積(データレイク)

生データ、何も手を加えていない状態のデータの保管
例えば、CSVデータやJSONやExcelなどのデータから、PDFファイルや動画データなど
Google Cloud StorageなどがAmazon S3該当する

加工(データウェアハウス)

加工済みデータ、構造化されたデータの保管

分析(データマート)

用途に応じたデータの保管
データの分析

データ基盤の形態

  • オンプレミス型
  • クラウド型

誰が開発するのか?

データ基盤エンジニア?
参照: https://www.criprof.com/magazine/2022/09/19/post-7066/

データ基盤エンジニアが、データの収集と分析をしやすくするための基盤を作るのに対し、データサイエンティストは、これらのデータを分析してビジネス改善の提案をするのが主な業務です。データ基盤エンジニアにはサーバーやネットワークについての技術的な知見が必要ですが、データサイエンティストはこれらのスキルがなくても、統計学や分析の知識、アプリケーションの最適な利用方法などの知見があれば業務を行えます。

データアナリストもデータサイエンティスト同様に、データを活用して企業の課題解決などに貢献する仕事です。データサイエンティストは分析モデルの構築がメインの仕事であるのに対し、データアナリストは企業の意思決定支援やビジネスへの応用に関わる役割が多くなります

データベースエンジニアとの違い

データ基盤エンジニアとデータベースエンジニアは、データベースを構築して正しく管理する点では違いはありません。違いはデータの利用目的や管理方法で、データベースエンジニアは業務システムからWeb系サービスまであらゆるデータが扱う範囲となります。

一方のデータ基盤エンジニアは分析のためのデータが対象範囲で、膨大な量であることから管理方法も異なり、分散管理を使った技術やクラウドサービスが用いられます。

色々な基盤

データ基盤以外にも色々と基盤はある
動画配信基盤: https://www.slideshare.net/dena_tech/dena-87959886
プッシュ通知配信基盤: https://atmarkit.itmedia.co.jp/ait/articles/1412/18/news022.html
https://techblog.zozo.com/entry/migrate-push-notification-to-fcm