🐶

ちゅらデータ・データエンジニアギルド通信 Vol.9(〜12/27)

がく@ちゅらデータです。
鼻血で入院しちゃってました、てへっ

弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。

まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを共有しています。
それ、公開しちゃってもいいんじゃね?って思ったので、記事を書いていこうかな〜と思っております。
※テンプレ

今週のデータ界隈のトピック

https://medium.com/madhukarkumar/the-ultimate-guide-to-vector-databases-2024-and-beyond-16dfb15bef12
最近、LLMとかRAGとか耳にします。VectorDBってのは、今後データエンジニアリングの守備範囲にも入ってくるともいます。来年はLLMOpsが流行ってくると思います、まじで

https://bufferings.hatenablog.com/entry/2023/12/23/110403
EMとして素晴らし〜〜
だがしかし、PMだけでなく、メンバーでも心がけるべきことだらけ
自分も常に心に留めてやっていきたいです

  • いつもポジティブ
  • 寄り添ってくれる
  • 急に変えない・変わるきっかけを
    など。

https://no1.connpass.com/event/305664/
AWSのコストカッターが集結するという天下一武道会
なんか参加者がおかしいことになってます・・・・
2023年12月28日現在、現地参加400/100名、オンライン参加:1382人

最大93%カット! っていう話があったり。これは参加しないとだめですよね

今週のGCP

Compute Engine: NVIDIA H100を搭載した、A3マシンがGA

https://cloud.google.com/compute/docs/accelerator-optimized-machines#a3-vms

一時間あたり約80ドルだって(asia-southeast1)

今週のSnowflake

リリースノート

今週だけリリースノートの形式が変わってますね・・・たぶん、ホリデーシーズンだからちょっと変わってるだけだろうなぁなんて思ってます。

  • Recover worksheets for dropped users — Preview
  • View Query History in worksheets —– General Availability
  • Cost Management: Account Overview Page — Preview
  • Snowpark Container Services Release Notes

https://docs.snowflake.com/en/release-notes/2023/other/2023-12-20

待望のSnowpark Container ServiceがPuPrになりましたね!!!

Snowpark Container Servicesは、Snowflakeからデータを移動することなく、コンテナ化されたアプリケーションを簡単にデプロイ、管理、拡張できるフルマネージドコンテナサービスです。 Snowpark Container Servicesは、DockerやKubernetesに似たOCIイメージ用のOCI実行環境を提供します。 フルマネージドサービスとして、Snowpark Container Servicesには、セキュリティ、構成、運用のベストプラクティスのサポートが含まれています。

2023年12月現在、ムンバイ(AWS)、ロンドン(AWS)リージョンのみ提供
東京リージョンもComming Soonになってるとかとか

アドベンドカレンダーからピックアップ

https://zenn.dev/ryotas_data/articles/34624130412e14
 データスーパーヒーローの渋谷さんの記事
まじ半端ない
私は結構「大福帳モデリング」派だったりしますが、ディメンションモデリングを使ってパフォーマンスをあげつつ、大福帳をビューで作るとか、パフォーマンスを活かしつつ、利便性も・・・・いやぁ、ほんといい記事

https://ikuty.com/2023/12/16/deep_dive_into_the_internals_of_snowflake_virtual_warehouses/
弊社の親会社DATUM STUDIOの生田神、これぞシニアエンジニアって方が書いてるブログ群
※ちゅらデータとDATUM STUDIOは会社としては親子関係ですが、ほぼ同体の会社、事業本部が違うぐらいで、プロジェクトでも一緒に仕事をすることばかりです

ikutyさんのこと、あまり知られてない・・・・・いやもっと知られてもいいと思ってます!!!
エンジニアリングの経験を差し込んだ解説など非常に濃いです

その他Snowflakeの話題

https://zenn.dev/ioootarho/articles/0303b16a998fa9
SnowflakeのML機能は、BigQueryに比してもまだまだ弱いところですが、昨今力をゴリゴリに入れて、どんどん実装が進んできているように思います。
その中で、Googleで実現したことをSnowflakeで実現するってことをなさっている記事
SnowflakeもML機能をどんどん機能も充実すると思うので、その検証記事の第二弾、第三弾を楽しみにしたいですね!!

https://techblog.cartaholdings.co.jp/entry/snowflake-data-platform-vision
CARTA HOLDINGSのPeiさん、この12月にはすごい記事を連発して、さすが・・・さすぺい!って勝手にいってますが、まじすごい記事ばかりです(dbtの開発とかね)

今週のセキュリティ

https://qiita.com/IntenF/items/ab64b2fea5f063f9ce55

  • k匿名性
  • l多様性
  • t近接性
  • 差分プライバシー

データを扱う上でこの辺りの知識は必ず必要になっていくと思います。2019年の記事ですが、これは今でも

k匿名性、差分プライバシーについては、GoogleのAdsDataHubで実装されていますね
※実は、t近接性は知らなかった・・・・(恥

今週のデータモデリング

dbt

https://tech.gunosy.io/entry/dbt-orchestration

https://zenn.dev/allllllllez/articles/a00d3c816913fe
あれさん記載のジョークコンテンツ(dbtアドベンドカレンダー2023)

dbt seed --destiny, dbt seed --freedom
うん、好きw

https://techblog.cartaholdings.co.jp/entry/snowflake-dbt-data-platform-vision
こちらは、必読です。
CARTA HOLDINGSのpeiさんの記事、こちらの記事もsnowflake x dbtの開発に向けてのノウハウをおしげもなく、これでもかこれでもかってほど記載してます
これを単に真似るだけでもプロジェクトの質が格段に上がるでしょう

その他

https://akuwano.hatenablog.jp/entry/2023/12/23/004649
Databricksのkuwanoさんが記載してるレイクハウスとはなんぞや?
これまでの経緯とかホント分かりやすく記載してはります
※CA時代に一緒に働いた同僚^^

https://www.starburst.io/platform/compare/starburst-vs-legacy-data-virtualization/
Presto/Trino開発者が起業したStarburstもデータ仮想化ソリューション

データ仮想化っていうと

  • ELTしなくてもいいし
  • 認証認可全部任せられるし最強だよね
  • でも・・・パフォーマンスに難がありそうよなぁ・・・
  • 異なるデータソース(複数)でのJOINとかするのに、データ仮想化でのコンピュートリソースがかかわってきそう、スケールさせるの、めちゃ困難なんじゃないの??

なんて思っていま す。Denodoもデータ仮想化のソリューションですね
Starburstって新しくユニコーンとして出てきていて、今後データ仮想化ソリューションが興隆してくるかも・・・なんて

ちゅらデータ株式会社

Discussion