ちゅらデータ・データエンジニアギルド通信 Vol.3(〜6/28)
がく@ちゅらデータです。
弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。
まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを共有しています。
それ、公開しちゃってもいいんじゃね?って思ったので、記事を書いていこうかな〜と思っております。
今週のデータ界隈トピック
名著「10年戦えるデータ分析入門」 著者の方とTreasureDataのレジェンド、創設者のの古橋さん(@frsyuki)の登壇!
発表内容も、「10年生き延びることは出来た、次の10年は戦える?」みたいな内容。すげーたのしみ
デジタル庁のデータ基盤のお話。BigQueryとdbtとか、モダンデータスタックですやん!
Databricksが独自LLM構築ツールを提供するMosaicMLを買収
って、Mosaicって聞くと、インターネット老人会な私には、某ブラウザを思い浮かべるのですw
OpenMetadataとか盛り上がってますよね、その知見。
7月11日12時〜13時15分 とランチ開催。夜中のイベントは正直、育児コアタイムなので参加が難しく、昼にやってくれるのは、個人的に非常に助かります
最近話題になってる本。BIツールの話ではなく、BI構築プロジェクトの話とか。すごく参考になるのでこれから読み込もうと思ってます
今週のGCP
BigQuery
- BigQuery で Preview 中の procedures for Apache Spark で、Python に加えて Java と Scala が使えるようになった
とっても、Snowflakeだなぁ〜とSnowflake脳の私が思いましたw
Cloud SQL
- SQL Server 2022 が使用可能
- 現時点での各DBエンジンでの最新バージョンは以下の通り
- SQL Server : 2022
- PostgreSQL : 15.2
- MySQL : 8.0.33
Google CloudのRDBでベクトル検索
GoogleCloudのRDB、AlloyDBとCloudSQLでpg_vectorが利用可能に。Embeddings APIなどで作成したEmbeddingを利用してベクトル検索ができるようになりました
Cloud Functions で Recommender が GA
使用状況を解析し、コールドスタートの可能性を確認してミニマムインスタンス数の設定を推奨してくれるらしい。
今週のAWS
StepFunctionのチュートリアル? メンバーにおすすめされました♪
AWS Step Functionsのバージョンとエイリアス機能を発表
今週のSnowflake
Snowflake Ascent 7/25〜7/26
2日間、有償クラスルームトレーニング〜Fundamentals 相当との噂。前回も非常に好評だったようで・・・・SnowProCoreのきっかけになるかも
【90名限定!】Snowpark+StreamlitによるMLアプリ実装体験ハンズオン に参加予定♪
Snowpark+Streamlitは、SnowflakeSummit2023でもホットな話題で、とても興味あり
田代参加予定です!!
Snowflake Summit 2023 Update
- Dynamic Tables --- Preview
- 変換の最終状態を定義するだけで、複雑なパイプライン管理を Snowflake に任せることができる。
- 宣言型データ変換パイプラインを構成できる
- Amazon S3-compatible Storage --- General Availability
- Snowpark ML: Machine Learning at Scale --- Preview
- Snowflake 内で機械学習モデルを構築およびデプロイするための、SDK と基盤となるインフラストラクチャを含む Python ツールのセット
- ML-Powered Functions --- Preview
- 時系列データに基づいた機械学習
- 予測、異常検知、Contribution Explorer
- 時系列データに基づいた機械学習
- Native Applications Framework --- Preview
- 他のアカウントにアプリを共有できる。データだけでなく、データアプリもシェアリング
- NTTDATAさんが出しているNativeAppがすごいらしい
- Test Automation for Snowflake
- Cost Optimizer for Snowflake
- Custom Event Billing for Applications --- Preview
データアプリの課金でいろいろできる。一回限り、とかも・・・らしい - Marketplace Capacity Drawdown Program --- General Availability
Snowflake Summit 2023 Keynote
- Git対応
- 何を管理するのかまだ分かってないのですが、Appとかかな? DevOps関連が強化されるのはとてもいいですね!
- Document AI
- 文書ファイルからコンテンツを抽出する機能+インターフェース
- Unified Iceberg Table
- 昨年発表された Native Iceberg Table が Managed なほう
- Snowpark Container Service
- お好きな言語で作ったデータツールや Snowflake Native Apps をSnowflake アカウント内にインストールして実行できちゃう
- LLMも実行できちゃうし、GPUも使えちゃう
- Dataiku、Alteryxなどのサードパーティツールも使えちゃう
- 専用データベース(RelationalAI、 Pinecone 、CARTO)..!?
今週のBI
今週のお話「差分プライバシー」
先週の話題として「Snowflakeにて差分プライバシー」がでました。その差分プライバシーとはなんぞ?
って話をしました
差分プライバシーが注目を浴びている背景は様々ありますが、主な理由の1つとして、「データ利活用の高度化が進むことで、より柔軟なデータ分析や豊富な情報が活用されるようになってきており、これまでは問題視されることが少なかったプライバシーに関するリスクが顕在化してきている」ことが挙げられます。
k-匿名性、l-多様性 ってのが匿名化
例えば、人口の少ないとある村在住の60代女性 がとある商品を購入したとします。
上の購入情報で、名前などを削除したりして個人を特定できないように 匿名化 したとします。
その村に1人しか「60代女性」がいなければ、個人が特定できてしまう・・・・
→ これを防止するには「とある村在住の60代女性」のQueryを発行した時に、
結果がk件数以下なら、結果を出力しない
これがK-匿名化 かな
ブログの中には、様々な事例を上げてるので、そちらを参考にするといいかと思います。
雑感
Snowflake Summit 2023がすごく盛り上がってます。
新機能がいっぱい、追いかける身にもなって欲しい! ってぐらい、色々試したいことがたくさんです(笑)
Discussion