[レポート] #TROCCOUG dbtの概要からdbt連携の活用術まで一気に学びたい
当エントリでは 2024年09月13日(金)に開催された『#TROCCOUG dbtの概要からdbt連携の活用術まで一気に学びたい』のイベントセッションレポートをお届けします。
合わせてイベントのX投稿をまとめています。
イベント概要
イベントページに記載の概要はこちら。
今回のTROCCO UGはdbt連携特集!
ある日のデータカタログ会で気づいた、dbt連携ってあんまり使われてない?!
せっかくだからみんなで学んじゃおう!ということで発足しました、dbt連携特集回!
改めてdbtって何?どういう使い道があるの?というところから実際の活用事例まで、一気に学んじゃいましょう〜!
dbtやTROCCO®️が気になっていた方はぜひお越しください🙌
イベントページの副題に記載されている
2次会でdbtわからなさすぎてやりたい!って言った会が実現しました
という内容から推察するに、#TROCCOUGのコミュニティマネージャーであるたいがー(https://x.com/knuna_t) の発案、会話から発生したものと思われます。こういう何気ない会話からイベントが生まれる流れは良いですね。
イベントレポート
ここからは開催レポートをお届けします。
開催会場はDATUM STUDIO株式会社さん@虎ノ門。
現在の勤務地(クラスメソッド/日比谷フォートタワー)から程なく近い距離にある場所だったので徒歩移動で向かいました。
当日は前目の席に陣取り。コミュニティマネージャー近影頂きました。
オープニング
- 登壇者:たいがー(Kana Kitagawa/たいがー🐯(@knuna_t)さん / X)
TROCCOUGのコミュニティマネージャーである「たいがー」によるコミュニティ及びイベントの趣旨説明。
- TROCCOUGは参加される皆さんが相互交流し、それぞれが持つ経験やノウハウを共有しあう場である
- 「日本のデータマネジメント領域のリーダーを増やす」というビジョンを掲げている
- データマネジメント領域をみんなで盛り上げ、面白いことを一緒にやっていきたい
dbt cloud + TROCCO
- 登壇者:Aaron Mcgrath氏 (dbt Labs APJ アライアンス・マネージャー)
長年にわたり、BIとデータ活用のスペシャリスト・コンサルタントとして活動。
現在はdbt Labsのアライアンスマネージャーとして、データエンジニアリングにおける戦略的パートナーシップを促進し、イノベーションを推進。大手テクノロジー企業から新興企業まで、dbt社が業界をリードすることに取り組んでいる。
まず最初はdbt Labs社からAaron Mcgrath氏。リモート経由での登壇となりました。ちなみにAaronさん、日本での活動は割と長めですが、dbtユーザー会にはまだ参加(登壇)したことがないとの事。そうだったんだ!
セッションではdbtの概要と歴史について述べた後、dbtの今後のロードマップについて言及。
- dbtではオープンソースのコマンドラインベースのサービスである「dbt Core」と合わせて「dbt Cloud」が展開されており、dbt Cloudでは幾つかの利用方法が提供されている
- dbt Cloud CLI
- dbt Cloud IDE
- ローコードビジュアルエディタ
- 2024年のイノベーションのテーマは「組織データの管理を楽に」。
- データの信頼を創造
- データパイプラインの実装を迅速化
- コスト削減
- これらのテーマをカバーすべくdbtでは様々な機能を展開している
-
dbt Explorer:
- すべてのdbt Cloudプロジェクトをすぐに理解
- Discover data with dbt Explorer | dbt Developer Hub
- Explore data models with dbt Explorer | dbt Labs
- dbt Semantic Layer:
-
Snowflake Native app:
- Snowflake Cortex AIへの統合により、dbt Cloudの検出機能とセマンティック機能にアクセス出来る
- Snowflake Native App Framework について | Snowflake Documentation
- Snowflake Native Appsとはなにか?
-
Ask dbt:
- dbt Semantic Layer <> Snowflake Cortex AI統合により、信頼出来る回答をより迅速に創造
- https://www.youtube.com/watch?v=pKtkWQ2b56Q
-
dbt Explorer:
私のdbt布教用資料 〜TROCCOUG Ver.〜
- 登壇者:山本 雄太 氏(株式会社ヤプリ 開発統括本部 プロダクト開発本部 データサイエンス室)
2023年に新卒入社。データエンジニアとして分析用データ基盤をdbtで刷新する業務を担当
学生時代は機械学習を活用した研究に取り組みつつ、インターン等を通してWebシステムの開発・運用を経験
登壇資料はこちら。
-
2023年から分析用データ基盤のdbt移行を開始。諸々の内容はブログにまとめているのでご参照ください
- 「次の10年を戦える分析用データ基盤構築の第一歩 - dbtによる基盤刷新とクエリ費用90%削減への取り組み -」という発表をしてきました! #Yappli Tech Conference 2023 - Yappli Tech Blog
- dbt 基盤の開発フローを改善した話 - Yappli Tech Blog
- データ組織・基盤をスケール可能にするために dbt Core を導入した話
- Yappli Analytics のデータマートを dbt へ切り替えた話 - Yappli Tech Blog
- dbt-osmosisを導入してdbt docsのdescriptionの拡充率を30%→80%まで上げた話 - Yappli Tech Blog
-
当資料は開発本部内でデータエンジニアリングとdbtについて紹介した時のもの
- 入門資料、社内布教用の資料として活用頂ければ幸いです
-
1.データエンジニアリングとヤプリにおけるdbtの立ち位置
- データ基盤にデータをためて、「抽出」と「加工」を切り分ける
- ↑の仕組みを整えるのが所謂「データエンジニアリング」。
- ヤプリ社ではこのデータエンジニアリングにおいて、エンジニアとデータサイエンティストで責務の所在が曖昧な部分があった
- dbtを導入することで責務が明確になった
- 適切に変換出来ているか?:データサイエンティスト側の責務
- データを取り込み出来ているか?:エンジニア側の責務
-
2.dbtとは?
- データの変換処理を良い感じに管理出来るツール
- 今データ界隈で急速に浸透しているモダンなツール
- dbtを導入すると何が嬉しいのか?
-
- ソフトウェアエンジニアリングの叡智が活用できる
- 安全・容易にチーム開発が行えるように
-
- データカタログ機能が標準で付いてくる
- データカタログ:組織内のデータ資産についてまとまっている"目録"
-
- データの加工過程を可視化できる
-
- データのテストがやりやすい
-
-
3.ヤプリでのTROCCO x dbt事例
- 当セッションでは「dbt実行のオーケストレーション」に焦点を当てる
- ワークフローにおいて、要件が変わりうるものについては(要件が)固まるまでTROCCOで柔軟に対応
- また、実行が不安定なdbtモデルがあったのでそこに対してTROCCOでリトライ処理を行わせるという事もやっていた
会場スポンサーLT
会場スポンサーLTとして、DATUM STUDIOのムカイさんから「モダンデータスタックって高い?安い?」という発表がありました。
今回で言えばdbt。dbt Cloudはデータパイプラインに必要な要素が全て含まれているので、周辺ツール導入のコストと合わせて考えると「どう考えてもお得である」というお話でした。有償サービスはその「値段の高さ」で敬遠されがちな側面がありますが、諸々の手間などを考えるとSaaSに切り替えてしまった方が結果的に...というのは私も同意見です。
dbt-ga4パッケージを実業務に導入してみた話
- 登壇者:徳丸 貴嗣 氏(フィード株式会社 マーケティング戦略本部 データマーケティング部)
前職のマーケティング会社にて主に小売業やメーカーなどのデータ分析、データ基盤構築・運用を幅広く経験し、2022年9月から現職
現職では全社のデータ基盤構築・運用プロジェクトをリードするかたわら、データ抽出から分析まで手がけている。
この日最後の発表は徳丸 貴嗣 氏より「dbt-ga4パッケージを実業務に導入してみた話」。
dbt-ga4とはなにものか
- 動機
- 自社ECを複数運営、EC行動履歴の分析からの改善活動を実施
- レポート自動化や他のデータと紐付けて施策を実施したいといった需要からBigQuery連携をしたい
- しかし、GA4のデータはとても扱いづらい
- お決まりの処理は済ませてあり、良い感じのデータマートが欲しい
dbt-ga4パッケージ
各種参考資料は以下の通り。
導入方法
- packages.yml及びdbt_project.ymlに必要事項を記入でOK。
- 指定のGA4データ連携開始日から遡って現在までのデータを作成してくれる。
- 再集計の数字についてはGAデータの在り方から「3日前」を指定している。
当日のセッションでは、TROCCO/dbt連携機能を使って日次処理を行わせるという説明をされていました。
処理の中身がどうなっているか
dbt-ga4の解説へ。実際に利用しているのは以下4つ程度とのこと。
データリネージの内容は以下の通り。1つのデータから実に多くの展開がなされていますが、途中はビューで構成されているものも多いです。
肝となるのはベーステーブルの処理。当日はその辺りについても深堀り解説が為されました。
実際使ってみてどうだったか
プラグイン導入前と導入後の比較。SQLがシンプルになり、結果データスキャン量も減る=料金節約、という効果がありました。
セッション終盤では、このプラグインを使って「困った事例」についても紹介。
まとめ
クロージング
イベント最後は再びたいがー登場、各種アンケートの展開やお知らせ事項を共有して締め。
2024年12月10日(木)には東京ミッドタウンホールにてprimeNumber社の年次カンファレンスイベント「01 zero ONE」が開催されるとのこと。今回初のオフライン開催とのことで要注目ですね!
まとめ
ということで『#TROCCOUG dbtの概要からdbt連携の活用術まで一気に学びたい』のイベントセッションレポートを簡単ではありますがお届けしました。TROCCO自体は個人的にはまだ使ったことがなく、今回関連イベントの参加も初めてでしたがプラン的には無料で使えるというのもあるらしいので(月4時間までなら無料で使えるらしい)、ちょっと機会を見つけてお試しで使ってみようかなとも思った次第です。
Discussion