😎

ちゅらデータ・データエンジニアギルド通信 Vol.6(〜7/19)

がく@ちゅらデータです。

弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。

まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを共有しています。
それ、公開しちゃってもいいんじゃね?って思ったので、記事を書いていこうかな〜と思っております。
※テンプレ

今週のデータ界隈のトピック

データレイクの新しいカタチ:Data Lake Table Formatの紹介 - 流沙河鎮

https://bering.hatenadiary.com/entry/2023/07/17/235246

最近、Snowflakeが、Apache Icebergに対応する!といったり、今後、こちらがデファクトになりそう?どのプロダクトがてっぺん取りますかねぇ〜
Data Lake Table Format登場の背景やHudi/Iceberg/DeltaLakeの違いなども書いてあり、今後のデータレイクの行方について示唆が得られますね。

従来のデータレイクの技術的課題

  • 同時書き込み、読み込みの独立性を確保できない
  • テーブルを編集すると過去の断面が復元できない
    などなど、詳しくは、元の記事を読んでみてください

Data Lake Table Formatの登場

  • データフォーマット
  • メタデータ管理機構
  • クエリエンジン側の対応

Data Lake Table Formatの種類

  • Apache Hudi(Uber製)
  • Apache Iceberg(Netflix製)
  • Delta Lake(Databricks製)

ソフトウェアテスト - Speaker Deck

https://speakerdeck.com/cybozuinsideout/software_test-2023?slide=50

サイボウズさんの研修スライド。
JSTQBのシラバスの内容も記載で、ソフトウェアテストについてとても良くまとまっています。

  • 単体テスト
  • 結合テスト
  • 総合テスト
  • 受け入れテスト

  • ブラックボックステスト
  • ホワイトボックステスト
  • 経験ベースのテスト

  • 動的テスト
  • 静的テスト

ほんの一部、もっと読まねば

ビッグデータカンファレンス「SPECTACLEs 」 presented by unerry, Inc.

https://spectacles2023.unerry.co.jp/

8月31日までアーカイブ配信してるとのこと
個人的には

  • データドリブン社会に向けて、データ人材が持つべきマインドとは
    • 現在、デジ庁ではたらく樫田さん
    • 以前は、メルカリ、ブレインパッド
  • データクリーンルームってなぜ注目されてるの?エンジニア目線で掘り下げた

は特に興味のある話題ですね

[2023年7月19日号]個人的に気になったModern Data Stack情報まとめ

クラメソのさがらさんのModern Data Stackのまとめ
相変わらず、とても質が高い!!
このレベルをかけるようになりたい・・・・

Snowpark Container Services — A Tech Primer

https://medium.com/snowflake/snowpark-container-services-a-tech-primer-99ff2ca8e741

Snowflake Summit 2023で、衝撃的だった発表のSnowpark Container Servicesの話。具体的なコマンドとか構成ファイルを記載されていて、実際に動かしてみるとどうなるか・・・とかとか

これはホント早く使ってみたいですね
現在は、Private Preview で、一部のユーザさんが使えるようになっています。

Snowpark Container Services (SPCS) は、コンテナ化されたサービス、ジョブ、機能をすべて Snowflake のセキュリティとガバナンスの境界内で簡単にデプロイ、管理、拡張できるようにするフルマネージドのコンテナ製品であり、データ移動は必要なしです。

データの可観測性を活用して、事後対応的なデータ品質管理からプロアクティブなデータ品質管理に移行することになります。
Data Observability ってのが、プロアクティブな・・・というところが端的に表してますね

Your first 30 days as a Fivetran user

初めてFivetranを触るひとのためのチュートリアル
コスト試算のやり方があるので、プロジェクトに導入する際の見積もりなどにとても有用、やってみないとね

https://www.fivetran.com/blog/your-first-30-days-as-a-fivetran-user

モダンデータスタックにおけるデータ漏洩防止 - Immuta

https://www.immuta.com/blog/data-leak-prevention/

  • データ漏洩とは、内部関係者が機密情報や個人情報を権限のない個人に、通常は無意識のうちに、または偶然に公開するインシデント
  • 従来のRBAC (ロールベースのアクセス制御) と 属性ベースのアクセス制御(ABAC)
  • データマスキングおよびプライバシー強化テクノロジー (PET)
    • データ難読化、k-匿名化、差分プライバシーなどのプライバシー強化テクノロジー(PET)

今週のGCP

BigQuery

BigQuery release notes | Google Cloud

主キーと外部キーのテーブル制約がGA(効くわけではないけどSyntax的にOK)
他のDBMS製品からの移行に、こういうのがあると手間が減りますよね

今週のAWS

週刊AWS – 2023/7/10週 | Amazon Web Services ブログ

https://aws.amazon.com/jp/blogs/news/aws-weekly-20230710/

毎週、こちらを記載されていてほんとにたすかります(中の人は4名らしい)

  • AWS Lambda now detects and stops recursive loops in Lambda functions
    • Lambdaの再帰停止するようになったので、爆死する件が減りますね!

RedshiftにQUALIFY句がGA

BigQueryやSnowflakeでは実装されていたQUALIFY句がGA
QUALIFY句を使いこなせるとかっこいいよね!(主観

https://aws.amazon.com/jp/about-aws/whats-new/2023/07/amazon-redshift-qualify-clause-select-sql-statement/

AWS associate試験の受験料が9/29まで半額

https://pages.awscloud.com/jp-traincert-certification-challenge-associate-2023-reg.html?trk=25048c8a-53c3-41f1-a037-9a045ea58326&sc_channel=em

SAAをとったりするんのに良いですよね

今週のSnowflake

2023年7月のリリース

https://docs.snowflake.com/en/release-notes/2023-07

  • Schema Detection and Evolution for Kafka Connector with Snowpipe Streaming --- Preview
    • Snowpipe Streaming を備えた Kafka コネクタがスキーマの検出と進化をサポートするようになった
    • 最近、CSVでの実装ができていたり、対応データソースが広がっていますね
  • SYSTEM$CLUSTERING_INFORMATION Returns Error Messages
  • Snowsight Set as Default Web Interface
    • Snowflake On Demand のすべての顧客は、アカウント内のすべてのユーザーのデフォルト Web インターフェイスとして Snowsight を設定し、Snowflake の新規ユーザーはデフォルト Web インターフェイスとして Snowsight を設定

Snowflake Summitで発表されたExternal Network Accessを使用し、Slack通知をしてみた

https://zenn.dev/tf_takada/articles/d5d2c6c03b39a8

Snowflake Summit 2023 で発表された機能で、私はすぐにでもほしい!と思った機能です。
現在、メール通知はできます。
しかし、Slack通知したいじゃないですか。

External Network Access で、真っ先に使ってみたいと思ったのはSlack通知でした。
まじ早く使いたい!!!
※現在は、Private Preview ですので、もし使いたい場合は、担当のSnowflakeのSEさんに相談してみてください

DebeziumとKafka ConnectとSnowflakeを使ってニアリアルタイムなデータパイプラインを作る - ytake blog

https://blog.ytake.jp.net/entry/2023/07/17/011908

MySQLの変更を、オープンソースのCDCソリューションのDebeziumでキャッチ
それをKafka Connect ( Snowflake Sink Connector ) 経由で、Snowflakeに流し込む

Data Modeling with Snowflake [BOOK]

https://www.oreilly.com/library/view/data-modeling-with/9781837634453/cover.xhtml

SnowPro Coreに向けて日本語公式ドキュメントをまとめてみた | Tableau-id Press

https://blog.truestar.co.jp/snowflake/20230714/54875/

非常によくまとまっていました。
SnowPro Coreの資格を取得するならば、対象となる公式ドキュメントをひたすら読んで、理解して、覚えることが重要と思います。
その対象がしっかりと列挙されていたので、とても親切、学習しやすい形になっていますね

Udemyや模擬試験サイトなどはありますが、問題を覚えるだけではなく、しっかりとSnowflakeの仕様を理解して行ければいいかなぁって思ってます。

Summit 2023、Keynoteも含めた46のセッションのオンデマンド視聴が開始

https://www.snowflake.com/summit/on-demand/

せめて、Keynoteぐらいは見ないとねぇ(自戒)

DATUM STUDIO 主催 Snowflake hands-on 【無料・対面開催】 ー Snowpark for Python、dbt、AirflowでつくるMLパイプライン ー

https://datumstudio.jp/information/0729_snowflake_hands-on_seminar/

2023年7月29日(土) 13時〜17時開催(無料、対面開催)

こちら田代もサポート要員として参加予定です。
先日のSnowDayで大好評だったハンズオンがパワーアップ(?)してるかも

今週のBI

Tableau Public実践 BIツールデータ活用 100本ノック

https://techplay.jp/book/7723

PowerBIへのロードが約50%高速化(Snowflake)

https://twitter.com/mmotohas/status/1680417283750117377?s=46&t=IscHINDFbo4MyH8UjPPH4w

Access to Looker data models from Power BI now generally available

Power BI から Looker のデータモデル(セマンティックレイヤ)へのアクセスがGA。Looker の強みである LookML を用いたデータモデリングへ PowerBI からアクセスすることで「可視化は PowerBI」「指標の管理は Looker(LookML)」が可能

https://cloud.google.com/blog/products/business-intelligence/access-looker-data-models-from-power-bi/?hl=en

今週のセキュリティ

https://gist.github.com/mala/c2ef4b49e7d71490de22bd8e9c3f962f

Mediumのカスタムドメイン機能を利用して訪問者のメールアドレスが盗まれる脆弱性を公開
※上記サイトで、再現方法が記載されていたそうなのですが、現在は非公開になっています
※数日以内に修正され予定とのこと

独自ドメインで、API公開などは考えにゃならんことが結構あるのかもねぇ

今週の開発ツールたち(dbt、SQLFluff、Terraform…etc)

dbt

dbt Incremental Cookbook.

https://medium.com/@aaronbannin/dbt-incremental-cookbook-d70331ef879a

モデルについて考えてみた話 | ikuty.com

https://ikuty.com/2023/07/15/dbt_models/

めちゃくちゃ読まれてる記事
dbtのモデルについての考察、よもやま話がすごい良いですね!

ちゅらデータ株式会社

Discussion