🐥

ちゅらデータ・データエンジニアギルド通信(〜6/14)

がく@ちゅらデータです。

弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。

まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを合わせて共有してるだけではあります。
それ、公開しちゃってもいいんじゃね?って思ったので、できるときには記事を書いていこうかな〜と思っています。

今週のデータ界隈のトピック

https://twitter.com/mariko_gcp/status/1668505299152699395?s=46&t=IscHINDFbo4MyH8UjPPH4w

これ、先日

https://twitter.com/kazunori_279/status/1657645435937492993?s=46&t=IscHINDFbo4MyH8UjPPH4w

であった話題と多分一緒かなー
これ凄いなーって思った話題でした。
Looker Studio+BigQuery、この膨大な量をすごいなー、こういうのの開発いいですね

今週のGCP

https://cloud.google.com/bigquery/docs/query-insights?hl=ja

Snowflakeをよく使ってるんですが、似た機能がでてきましたね。Snowflakeとの違いは、上下が違うとことか、原因をサジェストしてくれてるとことか良さげだったな〜
Query Insights ってのですね。これは良き

今週のAWS

https://aws.amazon.com/jp/blogs/news/aws-weekly-20230605/

  • AWS Glue Data Qualityが一般利用開始に
  • Amazon QuickSightがBI環境のデプロイや管理を自動化するためのAPIを提供開始

https://qiita.com/hayao_k/items/cf3efb5d1645f3feff0e?utm_campaign=post_article&utm_medium=twitter&utm_source=twitter_share

不要な踏み台SSHサーバが必要なくなる?結構利便性が上がりそうだな〜

https://aws.amazon.com/jp/about-aws/whats-new/2023/06/amazon-redshift-query-scheduling-single-sign-on/

Amazon Redshift ServerlessでSQLのスケジューリングができるように。軽量のELTに活かせそう。あわせて外部IdPからのSSOも可能に

DW製品、どの製品も互いに切磋琢磨というか開発頑張ってますよねぇ

今週のSnowflake

SnowflakeSummitを前に怒涛のリリース
2週間ほどリリースの鳴りを潜めていたのですが・・・・・いっぱい!

https://docs.snowflake.com/en/release-notes/2023-06

  • Anonymous Procedures - GA

    • WITH…CALL構文
    • この場合、CREATE PROCEDURE権限は必要なし
  • Reading Files With a Java Function or Procedure Handler - GA

  • Reading Files With a Scala Function or Procedure Handler - Preview

  • Reading Files With a Python Function or Procedure - Preview

  • Schema Detection for JSON and CSV - Preview

    • これまでは、Parquet、Avro、OCRに対応していたが、JSON、CSVが追加
  • Table Schema Evolution - Preview

    • Snowflake では、新しい列を追加したり、新しいデータ ファイルに欠落している列から NOT NULL 制約を削除したりすることができ、列の削除や既存の列のデータ型、長さ、精度の変更もサポートされている
    • 有効にするには、テーブルの作成または変更時に ENABLE_SCHEMA_EVOLUTION パラメータを TRUE に
    • ※気になるのは、カラム削除のときに、変更追従した左記のテーブルの動き。追加だけ反映されるとかできるといいんだが・・・
  • Support for Python 3.9 in Snowpark, UDFs, and Stored Procedures - Preview

  • UDFs, UDTFs, and Stored Procedures Support Passing Arguments by Name - Preview

    • SELECT add_numbers(n1 => 10, n2 => 5);
    • SELECT add_numbers(n2 => 5, n1 => 10);
    • ↑順番はきにしなくてよくなった
  • Work With Snowflake’s Upcoming ML features

    • 共有 SNOWFLAKE データベースを含むすべての Snowflake アカウントの PUBLIC ロールに付与される ML_USER SNOWFLAKE データベース ロールとともに、新しいスキーマ「ML」が Snowflake データベースに導入される
  • ACCOUNTS View (Organization Usage) - Preview

    • 組織管理者は、過去 1 年以内に削除されたアカウントを含む、組織内のアカウントに関する詳細を取得できます
  • New Organizations Only Have Snowsight Access

    • 2023 年 5 月 30 日以降、新しい Snowflake オーガニゼーションは Snowsight にのみアクセスでき、クラシック コンソールにはアクセスできなくなります。
  • Summitで、DynamicTable(旧Materiaized Table ≒ Materiaized View)がPuPrになるらし

  • https://www.snowflake.com/snowflake-ascent-japan-2023-07-25/ ★6/14はここまで
    【7月25-26日】はSnowflake Ascent開講。Snowflake初心者の方も、使っているけど忘れたな...という方にも復習におすすめの〈無料トレーニング〉

    • 前回、大好評だった企画。有償クラスルームトレーニング(Fundamental)は3000$(40万円近く)かかるので、それを受けると思えば、すごくお得!
    • SnowProCoreを取るのにも良さそうなウェビナーです
  • dbt-snowflake-monitoring

    • dbt-snowflake-monitoring は、Snowflake と dbt の両方のパフォーマンスとコストを監視するために SELECT チームによって構築された完全に無料
  • Snowflakeでデータリネージやってみた |分析屋

    • QUERY_HISTORYから取得
    • Pythonのsqllineageモジュールで可視化
    • ※ちなみに、dbtを使ってもできます。troccoなどでもあるっちゃある
  • Airbyte x Snowflake x Twitter APIを使ったデータパイプラインの構築

    • Airbyte(ELTツール)もつかってみたいなぁ・・・

今週のBI

Tableau

https://public.tableau.com/app/profile/yoshihito.kimura/viz/JumpUPCHALENNGE/JumpUPChallenge

全8タイプのTableau表現をチュートリアル動画を見ながら作成頂くものです。レベル感は #Tableau 中上級向けになっております。初級はもう卒業という方、是非チャレンジしてくださいませ。

今週の開発ツールたち

terraform

https://dev.classmethod.jp/articles/terraform-deploy-pipeline-tool/

dbt

https://medium.com/datamindedbe/testing-frameworks-in-dbt-3fa8933a5807

dbtで単体テストってどうする?
データの品質テストはできるけれども・・・・

なんて議論を社内でしていたり。
今後、単体テスト、ユニットテストをソフトウェアエンジニアリングの手法が取り入れられるように、今後の発展していくんだろうな、していってほしいな〜

ちゅらデータ株式会社

Discussion