🚀

データ基盤入門

2024/02/11に公開

✅ 目的

  • データ基盤に入門する際の主要な登場人物を理解する
  • 事例を参考にデータ基盤の概念を落とし込む

✅ 対象読者

  • データ基盤、なにそれ美味しいの?な人
  • 参画する案件がデータ基盤を活用する開発で、初歩的な知識を得たい人

✅ データ基盤の目的

  • データに基づいた迅速な意思決定をすること
  • 膨大なデータを統合・活用し新規ビジネスや顧客体験を創造する

✅ データ基盤の登場人物

3つの概念が理解できれば OK です 👍

  • 蓄積
  • 加工
  • 分析

⚙️ 蓄積
各所に散在しているデータを1箇所に蓄積します

  • 加工前の生のデータをそのまま保存
  • 加工したデータの紛失、違う加工をやり直したい、などの場合に加工前の生データが必要

⚙️ 加工
蓄積されたデータを汎用的に活用しやすくするために加工します

  • 日付のフォーマットを統一
  • 単位の統一
  • 特殊文字の変換

⚙️ 分析
加工されたデータを、用途ごとにさらに加工します

  • 月ごとに集計した売り上げデータ
  • 前月比を分析できるように集計した受注データ

「蓄積・加工・分析」するためのデータを格納する場所には名前があります

このように、データを蓄積・加工・分析できるようなデータ活用の基盤を
データプラットフォーム」といいます

✅ 例 1: 某開発案件

実際に自分が参画していたプロジェクトです
データマートの新規作成・データ連携と、それを参照するアプリの開発を担当しました
自分が担当した以外の領域も理解が深まってきたので説明してみます

  • 導入前
    • 事業データは基幹システムが持っていた
    • 基幹システムは社内 PC のみ使用できる
    • 営業員は客先で在庫情報など参照できず
      • 一旦持ち帰って所内で確認する
      • 事務員に電話で問い合わせ
      • などする必要があった
    • 顧客は発注した注文のステータスがわからない
      • 都度電話で問い合わせしていた
      • 両者ともに業務負荷が高まる
  • 導入後
    • 基幹システムのデータをデータプラットフォームに吸い上げることで社内 PC 以外でデータを活用できるようになった
    • 営業員は商談中に在庫情報を閲覧できるようになった
    • 顧客は問い合わせせず、アプリから注文状況を確認できるようになった
  • AWS リソースの説明(図の左から順に)
リソース名 役割
DirectConnect オンプレの基幹システムと AWS を繋ぐため。
Lambda 各データ連携処理
RDS データベース
DMS データ移行サービス。アプリで参照するため RDS(データマート)DynamoDB にデータを移行する。
DynamoDB NoSQL データベース
AppSync GraphQL API
Amplify Hosting フロントエンドアプリ(Next.js)をホスティング

✅ 例 2: AWS

こちらの書籍がとてもわかりやすかったので紹介します
https://www.amazon.co.jp/AWSではじめるデータレイク-クラウドによる統合型データリポジトリ構築入門-上原-誠-ebook/dp/B0C1MB516D/ref=sr_1_1?__mk_ja_JP=カタカナ&keywords=データレイク&qid=1707608145&sr=8-1

ログを蓄積して分析・機械学習などに活用するケース

  • データウェアハウス・データマートは登場していない
  • けど、「蓄積 → 加工 → 分析」の概念は変わらない
  • 分析用のデータを保存しておけば、アプリを作らずサービスを使うだけで分析を始められるのでお手軽

個人的にはデータ基盤に特化した AWS サービス使ったことないので機会があったら使ってみたいです

✅ まとめ

今回の記事では以下がわかれば OK👍

  • データ基盤は「蓄積 → 加工 → 分析」の3ステップ
  • 格納場所は「データレイク」「データウェアハウス」「データマート」
  • ただし「データレイクだけ」「データウェアハウスだけ」など様々
  • データストア・変換ツール・分析ツールなどデータ基盤を構築するための道具はいろいろある

この記事は以下の勉強会で使用しました
だいたい月1で開催しているので興味のある方は是非〜
https://no-mount.connpass.com/event/307915/

GitHubで編集を提案

Discussion