ちゅらデータ・データエンジニアギルド通信 Vol.4(〜7/5)
がく@ちゅらデータです。
弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。
まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを共有しています。
それ、公開しちゃってもいいんじゃね?って思ったので、記事を書いていこうかな〜と思っております。
※テンプレ
今週のデータ界隈のトピック
Data Engineering Study #20 「10年戦えるデータ分析入門」
積読になっていた「10年戦えるデータ分析入門」、読み始めてます!
登壇資料、さらに10年戦えるかもしれないデータ分析入門
ぜひ、書籍化を!!!!!私は絶対買います!!!!!
これが良かったですね!
バクラク事業におけるデータ組織とデータ基盤 2023 - LayerX エンジニアブログ
今最も勢いがある?と私個人的に思っているLayerXさんでデータチームが立ち上がったよ!ってお話
データ基盤化をしていくお話とか、メンバー構成とか、参考になることばかり
面白いなと思ったのは、GCP(BigQuery、Cloud Pub/Sub、Looker Studio)、AWS(Step Function)といった感じで、混在してるのかーって思いました。
後は、データカタログで、OpenMetadata導入予定!ってのも、お!分かってるね!?って(上から目線ですいません!!)いいな〜って思いました
[2023年7月5日号]個人的に気になったModern Data Stack情報まとめ by クラスメソッド相樂さん
クラメソのDataSuperHeroのさがらさんのまとめ記事
圧倒的です。内容盛りだくさん!!
※個人的に、着眼記事がかなり被ってて、ちょっとうれしかったw
簡単にピックアップ、詳しくは直接読んでください。まじ圧倒的な質・量です。・
- Monte Calro が今後来るよね!?
- 私は、昨年のdbtのイベントで初めて知りました
- SnowflakeのNative AppsにAirbyteが対応
- Snowflake Summit 2023の中でも一番衝撃的な発表の一つ、Native Apps、そこにAirbyteが乗る
- これで、Snowflakeで、Data Ingest(EL)ができるようになってしまう!!!!!
- なんてこった!!!!!!
- DuckDB/MotherDuck
- ローカルな軽量DataWarehouse、最近話題ですよね
- Semantic Layer
- dbt Semantic Layer, MetricFlow
- Cube
- 最近見かけるようになりました。SemanticLayerを実現するプロダクトかな
- BIの比較
- https://techblog.kazaneya.com/20230628-looker-alternative-bi/
- 風音屋さんの記事
- BIツールも新しいのがどんどんでてきてるの、知りませんでした。初耳のBIプロダクトがたくさん
- Cubeは、HeadlessBIとして説明にでてきてました
今週のAWS
週刊AWS – 2023/6/26週 | Amazon Web Services ブログ
この中で気になったDataEngineerな話題としては
「 AWS announces Amazon Aurora MySQL zero-ETL integration with Amazon Redshift (Public Preview)」
BigQueryの外部テーブル、CloudSQLのAWS版、Zero-ETLは流行ってますね
Snowflakeでも出てくるのかな?
今週のSnowflake
今週は、Snowflake Summit 2023 in ラスベガス があったので、盛りだくさんですね
準備から、到着、初日のKeynoteU(NVIDIAパートナー発表)まで
テクニカルパートナーの発表も
テクニカルパートナーで出てくる企業・サービスは、今最も勢いのあるサービスと思うので、ここはチェックすべしですね
dbt, Sigma(BI), dataiku (ML) , Alation(atranくるかな?とおもったけど)、 tenable, IMMUTA, HEX, ThroughSpot(?)
- Unified Iceberg Table
- External Table、大幅なパフォーマンス改善
- DocumentAI
- pdfなどの非構造化データからOCRで情報取得、SQLで解析結果を書き出したりもできる
- UIが用意されるらしい
- Snowflake performance index 15%向上
- 毎年、10%とか20%とか改善してるけど、5年前からはどのくらい改善してるのだろう・・・
- developer experience
- 熱いのは、GIT連携!!!!!!!
- Snowpark
- Python Runtime 3.9/3.10
- EXTERNAL NETWORK ACCESS
- AL/ML
- Snowpark Container Servieces
- なんと、SnowflakeのコンピュートリソースにContainer(Dockerとか)が乗る
- 何でも乗る
- Snowflakeだけで何でも完結するようになっちゃう
- Amazon S3-compatible StorageがついにGA!
- Dynamic Tables
- Native Applications Framework — Preview
代表的なものをピックアップしてます。詳しくは、上記の記事を読んでくださいね
Steamlit、Native Applicationsといった話を詳しく。
あと、劇団Snowflakeの小芝居(?)を見ることができましたね
※私にはちんぷんかんぷんで、最初の30分で寝落ちしてしまいました・・・(苦笑
Build.local Tokyo 7/11
来週の7月11日にやるリアルイベント@渋谷
私も参加します。
Airflow+Snowpark+Streamlitのハンズオンを受けるつもり、めっちゃ楽しみ
Snowflake Ascent Japan 7/25〜7/26
有償のクラスルームトレーニング Fundamentals が3000ドル(8時間x4日)
それにも匹敵すると言われて、前回大好評だったイベントが再度
これが無料!
ぜひ!
SnowProCoreのきっかけになるかも
Release
New SQL : GROUP BY ALL
めちゃくちゃ楽です、なんで今までなかったんだろう!
少し使っただけですが、これがないと生きていけない!
メール通知機能が Available to all accounts
USの一部のリージョンでしかオープンされてなかったEmail通知がやっとのことで!!!!!!!
これで、アラートとかを飛ばすことができる
SlackにもEmail経由だけど投げることができる!!!
その他(Native Application Framework )
Discussion