🤖

Cross Data Platforms Meetup #2 BigQueryと愉快な仲間たち

に公開

前置き

こんにちは。さすらいのデータエンジニアのこみぃです。

ちょっと間が空いてしまいましたが、先日開催したCross Data Platforms Meetup #2のお話です。

Cross Data Platforms Meetupとは?

Cross Data Platforms Meetupは最近のデータ基盤において、併用をテーマにした勉強会です。
https://cdpm.connpass.com/

特定のサービスやプラットフォームを前提とした勉強会だと、そのツールをヘビーに使うことが前提の事例は聞くことができますが、そのツールをサブにしたような構成の例の発表はなかなか聞くことができません。

Cross Data Platforms Meetupはその悩みへの回答として、併用をテーマとして様々な事例を共有し合うことを目標にしています。

今回のテーマはBigQuery

第二回となる今回のテーマはBigQuery。分析用のデータウェアハウス界の代表的なサービスであり、SnowflakeやDatabricksなどのサービスが出る前には絶対王者の風格をまとっていました。

日本だと一昔前にデータ基盤を構築した会社は大体BigQueryだったような気がします(個人の感想です)。

最近だと前述のSnowflakeやDatabricksなどが現れたり、各種ETLツールなどの周辺ツールも充実してきており、どんなサービスとどう併用するかは皆様知見がほしいところでしょう。

スポンサーのClickHouse様

今回の勉強会ではClickHouse様がスポンサーとして会議室や飲食を提供していただきました。誠にありがとうございました。

ClickHouseは高速分析に優れた列志向のデータベースであり、特に高頻度で飛んでくる分析用SQLを高速に捌くのに優れたサービスです。
https://clickhouse.com/jp

BigQueryなどのデータウェアハウスとは競合というよりは併用を想定されており、ダッシュボードやアプリから高頻度で参照されるデータをBigQueryからClickHouseに転送して参照を捌かせる構成を推しています。

まさにCross Data Platforms Meetupのテーマに相応しいサービスだと言えますね。

同じような用途のツールとしてはApache DruidやPinotなどがあります。
https://www.ibm.com/docs/ja/watsonxdata/standard/2.2.x?topic=source-apache-druid
https://pinot.apache.org/

また、先日のSnowflakeのオンラインイベントであるBUILDで発表されたInteractive Tableも同じ用途のツールです。
https://www.snowflake.com/en/developers/guides/getting-started-with-interactive-tables/

ClickHouseは近々日本オフィスができそうということでかなり勢いがあるとのことで、そこにSnowflakeも対抗の機能を出してきたりと、今まさに熱い領域と言えそうですね。

当日の様子

さて、それでは軽く当日の様子などを

BigQuery でできることと人間がやるべきこと

トップバッターはna0さん

人がデータ基盤の中でどんな役割を担うべきかという深いお話を語っていただきました。
https://x.com/suzupappa/status/1978406276909465767

人とAIの併用という、これもまた一つの併用の形であると言えるでしょう。

本当に有料級の本セッションですが、資料がSpeakerDeckでご本人から公開されていますので、ぜひご覧ください。
https://speakerdeck.com/na0/bigquery-dedekirukoto-ren-jian-gayarubekikoto

サービス基盤としてのBigQuery。分析基盤としてのSnowflake。

2番手はすずきさん。小技が効く2番バッターです。ちなみに最近はデータ分析が進んだ結果として4番ではなく2番に最強打者を置くらしいです。大谷は足も早いので1番打ってますけど、確かに2番もよく打ってましたよね。

今回の勉強会についてはすずきさん本人も「俺が出るのが最善の選択肢だ」と豪語してたとかなんとか。

BigQueryからSnowflakeに基盤を移行し、その後BigQueryを再度導入するという変遷を遂げたデータ基盤について、その経緯などを語っていただきました。
人材採用なども絡む高度な戦略のもとに行われており、非常に参考になるお話です。

ちなみに元カノ(BigQuery)とよりを戻すためにTROCCOを使ったそうです。TROCCOの事例としても非常に勉強になりますね。
https://x.com/kommy_jp/status/1978409326822707432

こちらも資料をご本人がSpeakerDeckで公開されてますので、詳しく知りたい方は合わせて御覧ください。
https://speakerdeck.com/ryo_suzuki/fen-xi-ji-pan-tositeno-snowflake-at-cross-data-platforms-meetup-number-2-bigquerytoyu-kuai-nazhong-jian-tati

クイズで学ぶClickHouse

3番手はスポンサー様によるClickHouseの紹介。クイズ形式でClickHouseの魅力を伝えていただきました。
ClickHouseはリアルタイム分析に強い。これだけは皆様覚えてください。
https://x.com/kommy_jp/status/1978414792369938718

そんなClickHouseについて興味が湧いた方は、ぜひ以下の資料をご覧ください
https://speakerdeck.com/chmasato001/cdpm-number-2

Cloud Composerが促した高凝集で疎結合なデータパイプライン

副将を務めるのは桂嶋さん。AWSとGoogle Cloudの併用体制をGoogle Cloudに統一したお話をしていただきました。
https://x.com/kommy_jp/status/1978417185132253311

ご自身が推進したプロジェクトでの経験をもとにデータパイプライン構築の際に抑えるべき要素がわかりやすく、かつ実感を伴ってまとめられており、非常に参考になる発表でした。
https://x.com/suzupappa/status/1978420678668775683

BigQuery ×Databricks × Snowflake の相互運用 ~忍び寄る Apache Iceberg をどう迎えるか~

トリを務めるのはmanabianさん

現代においてはBigQueryの使用は避けられないという衝撃のメッセージからスタート。GoogleAnalyticsが非常に強力なツールで、ここからデータを抽出するのにBigQueryが必須だからというお話ですね。
https://x.com/kommy_jp/status/1978421671905075372

その後はApache Icebergについて、本人が試した知見などを語っていただきました。

こちらのセッションは以下のブログの内容を解説したものになります。興味がある方は御覧ください。
https://qiita.com/manabian/items/6099b70e48f45747d882

集合写真

最後はみんなで集合写真。ご参加ありがとうございました!

次回は2026年1or2月。テーマは多分「ETLツール」

次回は年が明けて2026年の1月下旬から2月上旬あたりを予定しています。

テーマは「ETLツール」。これもまた最近注目が集まる領域です。

Snowflakeがdbtをサービス上で実行できるdbt Projectを発表したり、dbtがFivetranと合併したりなどなど、なかなかに目が話せないこの領域で、実際には皆様どんな構成で運用を行っているのか。

そんな話題で盛り上がる予定ですので、興味がある方はぜひ続報をお待ち下さい。

本日のまとめ

そんなわけで、本日のまとめはこちらです。

元カノとよりを戻すにはTROCCOを使え

結びの言葉

すごく個人的なお話をすると、Snowflakeを扱っているとDatabricksの情報は入ってくるけどBigQueryの情報はあまり入ってこないんですよね。な、なんでやろなあ。。。
でも他のサービスがどんな機能を備えてるかなどはキャッチアップしないといけないので、自分で言うのもなんですがこういうイベントはありがたいと思っています。

本日はこのあたりで。
それじゃあ、バイバイ!

Discussion