2022年にデータ界隈で私がしてきたこと
この記事は ちゅらデータ Advent Calendar 2022 の2日目の記事です。
筆者は誰?
私は2020年4月からちゅらデータの CTO として、主に日本の顧客向けにデータ基盤の構築を行ってきたエンジニアです。
好きなデータウェアハウスは Snowflake で、最近は Snowflake 7 : その他のDW 3 くらいの比率で開発してる気がします。
2021年には Snowflake から Data Hero Of The Year に選ばれたり、2022年は Data Superhero に選ばれたりと、データ界隈では結構頑張ったなという感じです。
注意
この記事は私の活動をサマリしたもので、あまり一般の人からは興味がわかない内容だと思います。
おそらく、ふーんって感じなので、このあたりでタブを閉じていただいても一向に構わないぜ。
活動方針
2021年は Snowflake の良さを発信することで、世の中のデータ界隈を良くしようと思い、活動の軸足を Snowflake においていました。
おかげさまで、 SnowVillage(Snowflakeの日本コミュニティ) は YouTube チャンネルや Slack で大変盛り上がりました。
2022年は Snowflake となにかを組み合わせて、世の中のデータ界隈をより良くしようと思いました。
そのため、 Snowflake +α で活動してきました。
2022年の活動
2022年にデータ界隈向けに発信してきたことを、時系列で並べてみました。
- 2022年3月 … 明日思わず誰かに伝えたくなる話 フラー × ちゅらデータ にて「Data Vault 2.0 をご紹介」
- 2022年3月 … 技育祭 2022 春 にて 「スケーラブルデータモデリングとその実装」
- 2022年3月 … 技育祭 2022 春 にて 「モダンデータスタックを支えるデータエンジニアリング」
- 2022年5月 … dbt Tokyo Meetup #3 にて「dbtvault on snowflake」
- 2022年5月 … datatech-jp Casual Talks #2 にて 「モダンデータスタックとかの話」
- 2022年5月 … dbt入門を執筆
- 2022年6月 … Snowflake Summit(ラスベガス)に参加
- 2022年8月 … データモデリングとデータ基盤の構築・運用 CARTA HOLDINGS x ちゅらデータにて「データ基盤を作りたァァい」
- 2022年8月 … ちゅらデータにて、データエンジニアリングテーマのインターンを実施
- 2022年10月 … KGDC Tech Conference #3 KDDIグループの「ごったに!」会にて「今日わかるデータメッシュ!!」
- 2022年10月 … ちゅらデータテックカンファレンスでパネルディスカッション
- 2022年10月 … JTUG 2022年総会 にて「Tableau使いのNext Step!!〜BIコンサル?データエンジニア?データサイエンティスト?〜」
- 2022年10月 … 様々なデータ&AIツールの適材適所を議論します! Supership & ちゅらデータ様にて、DatabricksとSnowflakeの混成アーキテクチャについてディスカッションしました
- 2022年11月 … BUILD.local Tokyo にて「LEGEND OF THE DATA HEROES」に運営参加
- 2022年11月 … みんなの考えた最強のデータアーキテクチャにて「もし何の制約もなくデータ基盤を作れたら私はこうする」
- 2022年12月 … 2022年、dbt で作るデータ基盤の現場の話にて「dbtvault はここまでできる」
並べてみると、データ系のこと色々してますね。
ここからはトピック的にいくつか取り上げてみます。
Data Vault
Snowflake は単なるデータウェアハウスで、それだけではデータ利活用をする基盤としては足りていません。
データの利活用をすすめるには、データウェアハウスの中をどうするかが大きなポイントになります。
そのためのデータモデリング手法はいくつかあります。
有名なものは正規化をすすめるリレーショナルモデリング、スタースキーマー化するディメンショナルモデリングなです。
でもさらに一歩進めたモデリングテクニックを日本にもっと広げたいなと思いました。
そうだ! Data Vaultだ!
Data Vault は2000年くらいに現れた比較的新しいモデリングメソッドです。
それがさらに2010年くらいに Data Vault 2.0 になって、近代化されました。
そんな Data Vault については下記のような活動をしました。
- 2022年3月 … 明日思わず誰かに伝えたくなる話 フラー × ちゅらデータ にて「Data Vault 2.0 をご紹介」
- 2022年3月 … (技育祭 2022 春)[https://talent.supporterz.jp/geeksai/2022spring/] にて 「スケーラブルデータモデリングとその実装」を発表しました。
- 資料非公開
- 2022年5月 … (dbt Tokyo Meetup #3)[https://dbt-tokyo.connpass.com/event/246144/] にて「dbtvault on snowflake」
- 2022年12月 … 2022年、dbt で作るデータ基盤の現場の話にて「dbtvault はここまでできる」
そんなこんなで、世の中では Data Vault を試している人が増えてきているのではないでしょうか?
来年はデメリットや適用するべきケースなど、 Data Vault についてさらに発展的な内容を紹介していければと思っています。
モダンデータスタック
Snowflake はあくまでもデータウェアハウスで、データの利活用をすすめるには他のシステムとの連携が必要です。
データ基盤のエコシステムはデータウェアハウスを中心に多くの SaaS や OSS があります。
そこで私はそれらを同時に提案していくことが、データ界隈をより良い方向に進めるだろうなと思いました。
以前から盛り上がっていたモダンデータスタックの話を掘り返して、色んな人に伝えることにしました。
- 2022年3月 … (技育祭 2022 春)[https://talent.supporterz.jp/geeksai/2022spring/] にて 「モダンデータスタックを支えるデータエンジニアリング」
- 資料非公開
- 2022年5月 … (datatech-jp Casual Talks #2)[https://datatech-jp.connpass.com/event/244516/] にて 「モダンデータスタックとかの話」
dbt
こんにち、データエンジニアが習得するべき技術No.1は間違いなく dbt です。
データ界隈をもっと良くするために dbt を日本に紹介しようと思いました。
- 2022年5月 … [再掲](dbt Tokyo Meetup #3)[https://dbt-tokyo.connpass.com/event/246144/] にて「dbtvault on snowflake」
- 2022年5月 … dbt入門を執筆
- 2022年11月 … みんなの考えた最強のデータアーキテクチャにて「もし何の制約もなくデータ基盤を作れたら私はこうする」
- 資料非公開
- 2022年12月 … 2022年、dbt で作るデータ基盤の現場の話にて「dbtvault はここまでできる」
dbt は間違いなく今後も発展していく技術テーマで、競合の Dataform と合わせて注目していきたいですね。
まとめ
正直、体は一つしかないので、仕事をしながらこういう登壇活動や発信活動をしてると、なかなかに大変です。
こういう活動をしていた影響で、滞ってる他のやりたいこともたくさんあります。
とは言え今はこれが楽しい時期でもあり、なかなか困ったものです。
2023年もいろんなことをやれたらと思っていますので、もし一緒にやろうぜ!みたいな人がいましたら、ぜひお声がけください。
また、さすがに2023年はVTuber活動もちゃんとやりたいのですが、もろもろ体が足りないので、動画や企画やら細かいことやってくれる奇特な人がいたらお声がけください。(お礼はします)
また、最後に宣伝ですが、ちゅらデータはたくさんデータエンジニアを採用していっています。
私と一緒に働きたい人をは、ご経歴問わず、ご年齢問わずお声がけいただけると嬉しいです。
TwitterなどでDMお待ちしてます〜。
Snowlfake データクラウドのユーザ会 SnowVillage のメンバーで運営しています。 Publication参加方法はこちらをご参照ください。 zenn.dev/dataheroes/articles/db5da0959b4bdd
Discussion