ちゅらデータ・データエンジニアギルド通信 Vol.6(〜7/19)
がく@ちゅらデータです。
弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。
まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを共有しています。
それ、公開しちゃってもいいんじゃね?って思ったので、記事を書いていこうかな〜と思っております。
※テンプレ
今週のデータ界隈のトピック
データレイクの新しいカタチ:Data Lake Table Formatの紹介 - 流沙河鎮
最近、Snowflakeが、Apache Icebergに対応する!といったり、今後、こちらがデファクトになりそう?どのプロダクトがてっぺん取りますかねぇ〜
Data Lake Table Format登場の背景やHudi/Iceberg/DeltaLakeの違いなども書いてあり、今後のデータレイクの行方について示唆が得られますね。
従来のデータレイクの技術的課題
- 同時書き込み、読み込みの独立性を確保できない
- テーブルを編集すると過去の断面が復元できない
などなど、詳しくは、元の記事を読んでみてください
Data Lake Table Formatの登場
- データフォーマット
- メタデータ管理機構
- クエリエンジン側の対応
Data Lake Table Formatの種類
- Apache Hudi(Uber製)
- Apache Iceberg(Netflix製)
- Delta Lake(Databricks製)
ソフトウェアテスト - Speaker Deck
サイボウズさんの研修スライド。
JSTQBのシラバスの内容も記載で、ソフトウェアテストについてとても良くまとまっています。
- 単体テスト
- 結合テスト
- 総合テスト
- 受け入れテスト
- ブラックボックステスト
- ホワイトボックステスト
- 経験ベースのテスト
- 動的テスト
- 静的テスト
ほんの一部、もっと読まねば
ビッグデータカンファレンス「SPECTACLEs 」 presented by unerry, Inc.
8月31日までアーカイブ配信してるとのこと
個人的には
- データドリブン社会に向けて、データ人材が持つべきマインドとは
- 現在、デジ庁ではたらく樫田さん
- 以前は、メルカリ、ブレインパッド
- データクリーンルームってなぜ注目されてるの?エンジニア目線で掘り下げた
は特に興味のある話題ですね
[2023年7月19日号]個人的に気になったModern Data Stack情報まとめ
クラメソのさがらさんのModern Data Stackのまとめ
相変わらず、とても質が高い!!
このレベルをかけるようになりたい・・・・
Snowpark Container Services — A Tech Primer
Snowflake Summit 2023で、衝撃的だった発表のSnowpark Container Servicesの話。具体的なコマンドとか構成ファイルを記載されていて、実際に動かしてみるとどうなるか・・・とかとか
これはホント早く使ってみたいですね
現在は、Private Preview で、一部のユーザさんが使えるようになっています。
Snowpark Container Services (SPCS) は、コンテナ化されたサービス、ジョブ、機能をすべて Snowflake のセキュリティとガバナンスの境界内で簡単にデプロイ、管理、拡張できるようにするフルマネージドのコンテナ製品であり、データ移動は必要なしです。
データの可観測性を活用して、事後対応的なデータ品質管理からプロアクティブなデータ品質管理に移行することになります。
Data Observability ってのが、プロアクティブな・・・というところが端的に表してますね
Your first 30 days as a Fivetran user
初めてFivetranを触るひとのためのチュートリアル
コスト試算のやり方があるので、プロジェクトに導入する際の見積もりなどにとても有用、やってみないとね
モダンデータスタックにおけるデータ漏洩防止 - Immuta
- データ漏洩とは、内部関係者が機密情報や個人情報を権限のない個人に、通常は無意識のうちに、または偶然に公開するインシデント
- 従来のRBAC (ロールベースのアクセス制御) と 属性ベースのアクセス制御(ABAC)
- データマスキングおよびプライバシー強化テクノロジー (PET)
- データ難読化、k-匿名化、差分プライバシーなどのプライバシー強化テクノロジー(PET)
今週のGCP
BigQuery
BigQuery release notes | Google Cloud
主キーと外部キーのテーブル制約がGA(効くわけではないけどSyntax的にOK)
他のDBMS製品からの移行に、こういうのがあると手間が減りますよね
今週のAWS
週刊AWS – 2023/7/10週 | Amazon Web Services ブログ
毎週、こちらを記載されていてほんとにたすかります(中の人は4名らしい)
- AWS Lambda now detects and stops recursive loops in Lambda functions
- Lambdaの再帰停止するようになったので、爆死する件が減りますね!
RedshiftにQUALIFY句がGA
BigQueryやSnowflakeでは実装されていたQUALIFY句がGA
QUALIFY句を使いこなせるとかっこいいよね!(主観
AWS associate試験の受験料が9/29まで半額
SAAをとったりするんのに良いですよね
今週のSnowflake
2023年7月のリリース
- Schema Detection and Evolution for Kafka Connector with Snowpipe Streaming --- Preview
- Snowpipe Streaming を備えた Kafka コネクタがスキーマの検出と進化をサポートするようになった
- 最近、CSVでの実装ができていたり、対応データソースが広がっていますね
- SYSTEM$CLUSTERING_INFORMATION Returns Error Messages
- Snowsight Set as Default Web Interface
- Snowflake On Demand のすべての顧客は、アカウント内のすべてのユーザーのデフォルト Web インターフェイスとして Snowsight を設定し、Snowflake の新規ユーザーはデフォルト Web インターフェイスとして Snowsight を設定
Snowflake Summitで発表されたExternal Network Accessを使用し、Slack通知をしてみた
Snowflake Summit 2023 で発表された機能で、私はすぐにでもほしい!と思った機能です。
現在、メール通知はできます。
しかし、Slack通知したいじゃないですか。
External Network Access で、真っ先に使ってみたいと思ったのはSlack通知でした。
まじ早く使いたい!!!
※現在は、Private Preview ですので、もし使いたい場合は、担当のSnowflakeのSEさんに相談してみてください
DebeziumとKafka ConnectとSnowflakeを使ってニアリアルタイムなデータパイプラインを作る - ytake blog
MySQLの変更を、オープンソースのCDCソリューションのDebeziumでキャッチ
それをKafka Connect ( Snowflake Sink Connector ) 経由で、Snowflakeに流し込む
Data Modeling with Snowflake [BOOK]
SnowPro Coreに向けて日本語公式ドキュメントをまとめてみた | Tableau-id Press
非常によくまとまっていました。
SnowPro Coreの資格を取得するならば、対象となる公式ドキュメントをひたすら読んで、理解して、覚えることが重要と思います。
その対象がしっかりと列挙されていたので、とても親切、学習しやすい形になっていますね
Udemyや模擬試験サイトなどはありますが、問題を覚えるだけではなく、しっかりとSnowflakeの仕様を理解して行ければいいかなぁって思ってます。
Summit 2023、Keynoteも含めた46のセッションのオンデマンド視聴が開始
せめて、Keynoteぐらいは見ないとねぇ(自戒)
DATUM STUDIO 主催 Snowflake hands-on 【無料・対面開催】 ー Snowpark for Python、dbt、AirflowでつくるMLパイプライン ー
2023年7月29日(土) 13時〜17時開催(無料、対面開催)
こちら田代もサポート要員として参加予定です。
先日のSnowDayで大好評だったハンズオンがパワーアップ(?)してるかも
今週のBI
Tableau Public実践 BIツールデータ活用 100本ノック
PowerBIへのロードが約50%高速化(Snowflake)
Access to Looker data models from Power BI now generally available
Power BI から Looker のデータモデル(セマンティックレイヤ)へのアクセスがGA。Looker の強みである LookML を用いたデータモデリングへ PowerBI からアクセスすることで「可視化は PowerBI」「指標の管理は Looker(LookML)」が可能
今週のセキュリティ
Mediumのカスタムドメイン機能を利用して訪問者のメールアドレスが盗まれる脆弱性を公開
※上記サイトで、再現方法が記載されていたそうなのですが、現在は非公開になっています
※数日以内に修正され予定とのこと
独自ドメインで、API公開などは考えにゃならんことが結構あるのかもねぇ
今週の開発ツールたち(dbt、SQLFluff、Terraform…etc)
dbt
dbt Incremental Cookbook.
モデルについて考えてみた話 | ikuty.com
めちゃくちゃ読まれてる記事
dbtのモデルについての考察、よもやま話がすごい良いですね!
Discussion