❄️

DataCloudWorldTour2023参加日記

2023/09/09に公開

時系列
9:00頃、なんとか到着。某イベントに参加(これは多分秘密の内容)

基調講演前に前せつ(盛り上げ)方が登場。
ケミカルライト(通称、光る棒)を使うタイミングの説明。
どんどん写真撮影をして、#datacloudworldtour のハッシュタグをつけての投稿の進め

10:00 基調講演開始。フランク・ストールマンCEO登場

Snowflakeのアピールポイント

  • シングルプラットフォームである事

  • データをマネタイズなど可能な事(マーケットプレイスなどを使用)

  • ML、AI、LLMにも対応していること

  • 日々チューニングされている項目の一覧
    (ここに写真を貼る)

  • 半年でクエリ時間が15%更新しました

可視性(コスト)、制御、最適化

  • Icebergについて
    二つのモード、アンマネージド、マネージド
    オブジェクトストレージ or 統合Icebergテーブル(Snowflake

** Icebergのパフォーマンスについて
 アンマネージドParquetとの二倍の性能
Parquet
 Managed Snowflake format同等、もしくは効率的なParquetのパフォーマンス

Document AIについて
自然言語で問い合わせ

マーケットプレイス
Native App

トレードオフのないAI MLの提供

gitの統合
snowparfkの紹介。パイソン、JAVAなどのプログラミング動作環境

snowpope ストリーミング
ダイナミックテーブル
 複雑なデータパイプラインをシンプルに
 それがsnowpopeライン

Snowpark ML Ai  API

予想?
トレーニング

Snowparkモデルレジストリ

Streamlit in Snowflake
Streamlit is ローコードツール(パイソンベース)
ビジュアライズまで対応

ダイナミックテーブルが適した内容。ある程度リアルタイムが求められう
差分に強いテーブル

パイソンコードが実行できる

ローカル環境とSFでのデータ処理のベンチマーク
ローカルで16秒
SFで実行2億データの処理 0.6秒

streamlitでインタラクtびぶなアプリを構築、エンドユーザーにアプリを使用してもらう

アプリから価格を変更する → MLに反映される → MLの結果がアプリに反映される

LLMについて
フロントエンドは Streamlit
LLMはコンテナでセキュアに分割。共有されていない

バックエンドはデータ、それに対して推論と微調整をしていく

主要なAIエンジン、主要なLLMデータベース(パイコーン)

Snowflake ✖️ LLM
Snowflake meets nVidia

Data & Appのコラボレーションへ。Native Appの紹介
NTTデータ、TrueStar
データの近くでアプリを動かす。安全、セキュリティー、安い
TrueStar 逆ジオコーディング
 緯度経度から住所へ変換。無料でサービス提供。

ここまで貴重講演

-- ここからは参加したセミナーの話
A-1 NTTデータグループの事例に参加。写真NG。
12:45 NTTの話
2030 新たな価値創造
データガバナンス

決済、調達のDX
デジタルプラットフォーム
DX KPI dashborad

benefit
コスト削減
プロセス、コード標準化

グループ共通マスターの作成

CMC コードマネジメントセンター
コード払出し
コードメンテナンス
コードクレンジング
不整合補正
標準化活動

DAC データアナリティクスセンター
データ分析
分析支援
グループデータ分析ユーザー会

データアフタヌーン
プロセスに対するデータ流通の課題を特かい

スタンダードマスター
合わせて配信のi F も定義

配信テストはケースで1500回

MDM マスターデータマネジメント

テーブル数は300以上

NTT(持株)データレイクとグループ会社へのデータ提供
セキュアデータせはリングの活用
コピー、移動することなく、ライブでデータをセキュアの共有
パイプライン不要。ストレージ料金不要

メリット
共有リストのかしか
	アカウント間でのやり取りをリストで可視化
	Listting Access History View
		共有したデータの利用状況の可視化が可能
		
	
02 データプロバイダーとして
	事前のデータの選定、利用承諾調整が済んでいれば
	データ共有自体はほぼノータイムに実現できる

データカタログの公開
SFが持つテーブルメタデータ 実データを利用して計算してデータの評価値 データオーナーから収集したビジネスメタデータ

A-2 Streamlit in Snowflake
Snowflakeの柔軟なプラットフォームとの融合
Snowflake社内での利活用の話

チャートとセレクタを追加してインシデントを調査
インシデントの要因を特定し、フラグを立てる

in Snowflaleの話
Streamlit パイソンスクリプトをアプリに変換
Snowflake ワンクリックで安全かつ大規模に展開

インサイトを得るまでの時間を短縮

迅速なイテレーション・進化

開発から実稼働時間の短縮

メリット

  • アプリコンポートネントとがSnowflake上で稼働
  • アプリは社内専用
    *JS、React、CSS無しで開発可能

M2 オープンデータ利用法
サービス提供者がオープンデータを加工して提供している
顧客の既存データと連動することで迅速な行動ができる

B-3 富士フィルム様事例
DXビジョン・基盤
生産性の向上、製品サービスを通じて

OneーData
ERPなどのデータを収集して可視化する
生産性の向上、K`PIの実現

既存システムの限界
アートスケール機能がない。のでBIのアクセスバーストに対応ふか
 まるまるでリソース不足

SFに期待すること
オートスケール
データ増加にも対応可能

PoCに向けて
1 SFからのロード時間を計測
2 ETLをSFでで再現し、性能を計測
3 セルフBIのアクセスを再現して、計測

2 データ変換
2-a 既存
2-b データが増加した場合

XSでも50パーセント以上の時間短縮

M サイズ以上 220倍に処理データが増加しても影響はほぼなし
Sサイズ spillの発生で時間の増大

3 セルフBI
ダッシュボードの作成
アクセス状況を再現
行アクセスポリシーの

結果 1000人でも高速なレスポンス
5秒をしたまわる(5秒はユーザーが不満を感じないレスポンスタイム0

PoCコスト改善こうか
 60%から82%のコスト削減

セルフBIのコスト改善計画
1000人。14000ドル(実際はスケールダウンなどでさらにコストダウン可能)

コスト削減
パフォーマンスチューニングでさらにコストダウン

苦労話
移管するDDLやETLが多い
 変換ツール作成で達成

てすとシナリオが多い

プロフェッショナルサービスの講座
クイックスタート支援で技術キャッチアップが効率的に

トラブルシューティングの高速化
週次定例会での技術インプット

将来のデータ活用基盤全体像
x Snowflakeのデータ集積、データ仮想化でほかクラウドのデータをみせる

B-6 株式会社CARTA HOLDINGSの事例
プレゼン資料が公開されているのでそちらをお読みください
https://speakerdeck.com/pei0804/data-cloud-world-tour-tokyo-2023

Snowflake meets KDDI
KDDI Vision 2030
つなぐ力を進化され、誰もが思う思いとを実現できる社会を作る

データコラボ
snowflakeにデータを集める
1 データをつなぐ 
2 データを巡らせる
3 データで生み出す

データクリーンルームの開発
他社データとコラボするには必要な技術

データコラボを実現する

  1. 企業間データ連携の仕組み、システムの実装
  2. 法規制に則った規格の整備

18:14から20時まで謎解きゲームをやっておしまい

Snowflake Data Heroes

Discussion