DataCloudWorldTour2023参加日記
時系列
9:00頃、なんとか到着。某イベントに参加(これは多分秘密の内容)
基調講演前に前せつ(盛り上げ)方が登場。
ケミカルライト(通称、光る棒)を使うタイミングの説明。
どんどん写真撮影をして、#datacloudworldtour のハッシュタグをつけての投稿の進め
10:00 基調講演開始。フランク・ストールマンCEO登場
Snowflakeのアピールポイント
-
シングルプラットフォームである事
-
データをマネタイズなど可能な事(マーケットプレイスなどを使用)
-
ML、AI、LLMにも対応していること
-
日々チューニングされている項目の一覧
(ここに写真を貼る) -
半年でクエリ時間が15%更新しました
可視性(コスト)、制御、最適化
- Icebergについて
二つのモード、アンマネージド、マネージド
オブジェクトストレージ or 統合Icebergテーブル(Snowflake
** Icebergのパフォーマンスについて
アンマネージドParquetとの二倍の性能
Parquet
Managed Snowflake format同等、もしくは効率的なParquetのパフォーマンス
Document AIについて
自然言語で問い合わせ
マーケットプレイス
Native App
トレードオフのないAI MLの提供
gitの統合
snowparfkの紹介。パイソン、JAVAなどのプログラミング動作環境
snowpope ストリーミング
ダイナミックテーブル
複雑なデータパイプラインをシンプルに
それがsnowpopeライン
Snowpark ML Ai API
予想?
トレーニング
Snowparkモデルレジストリ
Streamlit in Snowflake
Streamlit is ローコードツール(パイソンベース)
ビジュアライズまで対応
ダイナミックテーブルが適した内容。ある程度リアルタイムが求められう
差分に強いテーブル
パイソンコードが実行できる
ローカル環境とSFでのデータ処理のベンチマーク
ローカルで16秒
SFで実行2億データの処理 0.6秒
streamlitでインタラクtびぶなアプリを構築、エンドユーザーにアプリを使用してもらう
アプリから価格を変更する → MLに反映される → MLの結果がアプリに反映される
LLMについて
フロントエンドは Streamlit
LLMはコンテナでセキュアに分割。共有されていない
バックエンドはデータ、それに対して推論と微調整をしていく
主要なAIエンジン、主要なLLMデータベース(パイコーン)
Snowflake ✖️ LLM
Snowflake meets nVidia
Data & Appのコラボレーションへ。Native Appの紹介
NTTデータ、TrueStar
データの近くでアプリを動かす。安全、セキュリティー、安い
TrueStar 逆ジオコーディング
緯度経度から住所へ変換。無料でサービス提供。
ここまで貴重講演
-- ここからは参加したセミナーの話
A-1 NTTデータグループの事例に参加。写真NG。
12:45 NTTの話
2030 新たな価値創造
データガバナンス
決済、調達のDX
デジタルプラットフォーム
DX KPI dashborad
benefit
コスト削減
プロセス、コード標準化
グループ共通マスターの作成
CMC コードマネジメントセンター
コード払出し
コードメンテナンス
コードクレンジング
不整合補正
標準化活動
DAC データアナリティクスセンター
データ分析
分析支援
グループデータ分析ユーザー会
データアフタヌーン
プロセスに対するデータ流通の課題を特かい
スタンダードマスター
合わせて配信のi F も定義
配信テストはケースで1500回
MDM マスターデータマネジメント
テーブル数は300以上
NTT(持株)データレイクとグループ会社へのデータ提供
セキュアデータせはリングの活用
コピー、移動することなく、ライブでデータをセキュアの共有
パイプライン不要。ストレージ料金不要
メリット
共有リストのかしか
アカウント間でのやり取りをリストで可視化
Listting Access History View
共有したデータの利用状況の可視化が可能
02 データプロバイダーとして
事前のデータの選定、利用承諾調整が済んでいれば
データ共有自体はほぼノータイムに実現できる
データカタログの公開
SFが持つテーブルメタデータ 実データを利用して計算してデータの評価値 データオーナーから収集したビジネスメタデータ
A-2 Streamlit in Snowflake
Snowflakeの柔軟なプラットフォームとの融合
Snowflake社内での利活用の話
チャートとセレクタを追加してインシデントを調査
インシデントの要因を特定し、フラグを立てる
in Snowflaleの話
Streamlit パイソンスクリプトをアプリに変換
Snowflake ワンクリックで安全かつ大規模に展開
インサイトを得るまでの時間を短縮
迅速なイテレーション・進化
開発から実稼働時間の短縮
メリット
- アプリコンポートネントとがSnowflake上で稼働
- アプリは社内専用
*JS、React、CSS無しで開発可能
M2 オープンデータ利用法
サービス提供者がオープンデータを加工して提供している
顧客の既存データと連動することで迅速な行動ができる
B-3 富士フィルム様事例
DXビジョン・基盤
生産性の向上、製品サービスを通じて
OneーData
ERPなどのデータを収集して可視化する
生産性の向上、K`PIの実現
既存システムの限界
アートスケール機能がない。のでBIのアクセスバーストに対応ふか
まるまるでリソース不足
SFに期待すること
オートスケール
データ増加にも対応可能
PoCに向けて
1 SFからのロード時間を計測
2 ETLをSFでで再現し、性能を計測
3 セルフBIのアクセスを再現して、計測
2 データ変換
2-a 既存
2-b データが増加した場合
XSでも50パーセント以上の時間短縮
M サイズ以上 220倍に処理データが増加しても影響はほぼなし
Sサイズ spillの発生で時間の増大
3 セルフBI
ダッシュボードの作成
アクセス状況を再現
行アクセスポリシーの
結果 1000人でも高速なレスポンス
5秒をしたまわる(5秒はユーザーが不満を感じないレスポンスタイム0
PoCコスト改善こうか
60%から82%のコスト削減
セルフBIのコスト改善計画
1000人。14000ドル(実際はスケールダウンなどでさらにコストダウン可能)
コスト削減
パフォーマンスチューニングでさらにコストダウン
苦労話
移管するDDLやETLが多い
変換ツール作成で達成
てすとシナリオが多い
プロフェッショナルサービスの講座
クイックスタート支援で技術キャッチアップが効率的に
トラブルシューティングの高速化
週次定例会での技術インプット
将来のデータ活用基盤全体像
x Snowflakeのデータ集積、データ仮想化でほかクラウドのデータをみせる
B-6 株式会社CARTA HOLDINGSの事例
プレゼン資料が公開されているのでそちらをお読みください
Snowflake meets KDDI
KDDI Vision 2030
つなぐ力を進化され、誰もが思う思いとを実現できる社会を作る
データコラボ
snowflakeにデータを集める
1 データをつなぐ
2 データを巡らせる
3 データで生み出す
データクリーンルームの開発
他社データとコラボするには必要な技術
データコラボを実現する
- 企業間データ連携の仕組み、システムの実装
- 法規制に則った規格の整備
18:14から20時まで謎解きゲームをやっておしまい
Snowlfake データクラウドのユーザ会 SnowVillage のメンバーで運営しています。 Publication参加方法はこちらをご参照ください。 zenn.dev/dataheroes/articles/db5da0959b4bdd
Discussion