❄️

ANAグループのSingle Source of Truthを実現するデータレイクの全貌

2024/09/30に公開

個人的に興味があった点をメモしています。完全な文字起こしではありません。

  • 課題「事業ごとにデータがサイロ化している」
    運行事業、ノンエア事業、顧客データ

  • 対策「Single Source of Truth。データの一元管理。」

  • 課題「堅牢な個人情報の保護と柔軟なデータ活用の両立が難しい」

  • 対策「個人情報ありの領域となしの領域を分けよう」

  • 課題「上流システムのデータ仕様変更は大変で、データ同士が繋がらない」

  • 対策「データ基盤の中で、データを統一しよう」

  • 課題「ソリューションの進化が著しくて、選択が難しい・・」

  • 対策「基盤を疎結合にして、ソリューションを取捨選択しよう」
    S3にParquet形式のファイルとして保存。汎用性の確保


新しい取り組み

  • 課題「ファイルでデータを管理すると、加工でパフォーマンス課題が…・・

  • 対策「Icebergで53にファイルを配置してみよう

  • 課題「データ分析ってLLMで簡単にできないの?

  • 「そんな単純じゃない気もするけど…・・やってみよう!
    → StreamlitをUIにバックエンドに生成LLM
    https://reg.snowflake-world-tour-tokyo.com/public/session/view/343

Discussion