🛒

[レポート] #TROCCOUG dbtの概要からdbt連携の活用術まで一気に学びたい

2024/09/16に公開

当エントリでは 2024年09月13日(金)に開催された『#TROCCOUG dbtの概要からdbt連携の活用術まで一気に学びたい』のイベントセッションレポートをお届けします。

https://troccoug.connpass.com/event/326006/

合わせてイベントのX投稿をまとめています。
https://togetter.com/li/2434013

イベント概要

イベントページに記載の概要はこちら。

今回のTROCCO UGはdbt連携特集!
ある日のデータカタログ会で気づいた、dbt連携ってあんまり使われてない?!
せっかくだからみんなで学んじゃおう!ということで発足しました、dbt連携特集回!
改めてdbtって何?どういう使い道があるの?というところから実際の活用事例まで、一気に学んじゃいましょう〜!
dbtやTROCCO®️が気になっていた方はぜひお越しください🙌

イベントページの副題に記載されている

2次会でdbtわからなさすぎてやりたい!って言った会が実現しました

という内容から推察するに、#TROCCOUGのコミュニティマネージャーであるたいがー(https://x.com/knuna_t) の発案、会話から発生したものと思われます。こういう何気ない会話からイベントが生まれる流れは良いですね。

イベントレポート

ここからは開催レポートをお届けします。

開催会場はDATUM STUDIO株式会社さん@虎ノ門。

現在の勤務地(クラスメソッド/日比谷フォートタワー)から程なく近い距離にある場所だったので徒歩移動で向かいました。

当日は前目の席に陣取り。コミュニティマネージャー近影頂きました。

オープニング


TROCCOUGのコミュニティマネージャーである「たいがー」によるコミュニティ及びイベントの趣旨説明。

  • TROCCOUGは参加される皆さんが相互交流し、それぞれが持つ経験やノウハウを共有しあう場である
  • 「日本のデータマネジメント領域のリーダーを増やす」というビジョンを掲げている
    • データマネジメント領域をみんなで盛り上げ、面白いことを一緒にやっていきたい

dbt cloud + TROCCO

長年にわたり、BIとデータ活用のスペシャリスト・コンサルタントとして活動。
現在はdbt Labsのアライアンスマネージャーとして、データエンジニアリングにおける戦略的パートナーシップを促進し、イノベーションを推進。大手テクノロジー企業から新興企業まで、dbt社が業界をリードすることに取り組んでいる。


まず最初はdbt Labs社からAaron Mcgrath氏。リモート経由での登壇となりました。ちなみにAaronさん、日本での活動は割と長めですが、dbtユーザー会にはまだ参加(登壇)したことがないとの事。そうだったんだ!

セッションではdbtの概要と歴史について述べた後、dbtの今後のロードマップについて言及。

私のdbt布教用資料 〜TROCCOUG Ver.〜

2023年に新卒入社。データエンジニアとして分析用データ基盤をdbtで刷新する業務を担当
学生時代は機械学習を活用した研究に取り組みつつ、インターン等を通してWebシステムの開発・運用を経験


登壇資料はこちら。

会場スポンサーLT

会場スポンサーLTとして、DATUM STUDIOのムカイさんから「モダンデータスタックって高い?安い?」という発表がありました。

今回で言えばdbt。dbt Cloudはデータパイプラインに必要な要素が全て含まれているので、周辺ツール導入のコストと合わせて考えると「どう考えてもお得である」というお話でした。有償サービスはその「値段の高さ」で敬遠されがちな側面がありますが、諸々の手間などを考えるとSaaSに切り替えてしまった方が結果的に...というのは私も同意見です。

dbt-ga4パッケージを実業務に導入してみた話

  • 登壇者:徳丸 貴嗣 氏(フィード株式会社 マーケティング戦略本部 データマーケティング部)

前職のマーケティング会社にて主に小売業やメーカーなどのデータ分析、データ基盤構築・運用を幅広く経験し、2022年9月から現職
現職では全社のデータ基盤構築・運用プロジェクトをリードするかたわら、データ抽出から分析まで手がけている。


この日最後の発表は徳丸 貴嗣 氏より「dbt-ga4パッケージを実業務に導入してみた話」。

dbt-ga4とはなにものか

  • 動機
    • 自社ECを複数運営、EC行動履歴の分析からの改善活動を実施
    • レポート自動化や他のデータと紐付けて施策を実施したいといった需要からBigQuery連携をしたい
    • しかし、GA4のデータはとても扱いづらい
    • お決まりの処理は済ませてあり、良い感じのデータマートが欲しい

dbt-ga4パッケージ

各種参考資料は以下の通り。

https://hub.getdbt.com/Velir/ga4/latest/

https://github.com/dlt-hub/dbt_ga4

導入方法

  • packages.yml及びdbt_project.ymlに必要事項を記入でOK。
    • 指定のGA4データ連携開始日から遡って現在までのデータを作成してくれる。
    • 再集計の数字についてはGAデータの在り方から「3日前」を指定している。

当日のセッションでは、TROCCO/dbt連携機能を使って日次処理を行わせるという説明をされていました。

処理の中身がどうなっているか

dbt-ga4の解説へ。実際に利用しているのは以下4つ程度とのこと。

データリネージの内容は以下の通り。1つのデータから実に多くの展開がなされていますが、途中はビューで構成されているものも多いです。

肝となるのはベーステーブルの処理。当日はその辺りについても深堀り解説が為されました。


実際使ってみてどうだったか

プラグイン導入前と導入後の比較。SQLがシンプルになり、結果データスキャン量も減る=料金節約、という効果がありました。

セッション終盤では、このプラグインを使って「困った事例」についても紹介。

まとめ

クロージング

イベント最後は再びたいがー登場、各種アンケートの展開やお知らせ事項を共有して締め。

2024年12月10日(木)には東京ミッドタウンホールにてprimeNumber社の年次カンファレンスイベント「01 zero ONE」が開催されるとのこと。今回初のオフライン開催とのことで要注目ですね!

https://primenumber.com/01/2024

まとめ

ということで『#TROCCOUG dbtの概要からdbt連携の活用術まで一気に学びたい』のイベントセッションレポートを簡単ではありますがお届けしました。TROCCO自体は個人的にはまだ使ったことがなく、今回関連イベントの参加も初めてでしたがプラン的には無料で使えるというのもあるらしいので(月4時間までなら無料で使えるらしい)、ちょっと機会を見つけてお試しで使ってみようかなとも思った次第です。

Discussion