❄️
ANAグループのSingle Source of Truthを実現するデータレイクの全貌
個人的に興味があった点をメモしています。完全な文字起こしではありません。
-
課題「事業ごとにデータがサイロ化している」
運行事業、ノンエア事業、顧客データ -
対策「Single Source of Truth。データの一元管理。」
-
課題「堅牢な個人情報の保護と柔軟なデータ活用の両立が難しい」
-
対策「個人情報ありの領域となしの領域を分けよう」
-
課題「上流システムのデータ仕様変更は大変で、データ同士が繋がらない」
-
対策「データ基盤の中で、データを統一しよう」
-
課題「ソリューションの進化が著しくて、選択が難しい・・」
-
対策「基盤を疎結合にして、ソリューションを取捨選択しよう」
S3にParquet形式のファイルとして保存。汎用性の確保
新しい取り組み
-
課題「ファイルでデータを管理すると、加工でパフォーマンス課題が…・・
-
対策「Icebergで53にファイルを配置してみよう
-
課題「データ分析ってLLMで簡単にできないの?
-
「そんな単純じゃない気もするけど…・・やってみよう!
→ StreamlitをUIにバックエンドに生成LLM
https://reg.snowflake-world-tour-tokyo.com/public/session/view/343
Discussion