Snowflake3年目の浮気
前置き
こんにちは。私の名はこみぃ。さすらいのデータエンジニアだ。
※今日はいつもとは文体を変えてお送りしています。
本日の記事はSnowflake Advent Calendarの18日目の記事である。
ややタイトルが不穏だが、Snowflakeを運用しはじめて3年目を振り返って今思っていることなどを語りたいと思う。
2022, 2023年の振り返り
3年目である2024年について語る前に、まずは最初の2年について語ろう。
2022年 Snowflakeの導入
2022年の私は、一言でいうとミスミのじいさんであった。
2022年は私のSnowflakeとの出会いの年であり、前職(正確には12/27まではまだ籍があるのだが)の会社にSnowflakeを導入した年であった。
当時のデータエンジニアはサイロ化しているデータを各所から集めるのが最重要課題の一つとされており、その中でも特にサードパーティが提供するSaaSからデータを取得するためにパイプラインを構築するのは恐るべき苦役であった。
当時SaaSからデータを取得するには、各社ごとに違う仕様のAPIからデータを取得するスクリプトを書き、それらが正常に動いていることを管理しなければならなかった。
そんな中でSnowflakeはデータのサイロ化を最重要解決課題と考えており、その思想に感銘を受けた。
すべての企業がSnowflakeを採用してくれればサードパーティは自ずとAPIではなくシェアリングでデータを提供してくれるようになるだろう。
そうすればデータパイプラインの構築や管理で苦しむデータエンジニアもいなくなる。今日より明日なんじゃ、と、ミスミのじいさんのような気持ちで未来を想いながら、私はSnowflakeを導入したのだった。
2023年 無限に広がる世界
2023年の私は一言でいうとキュアスカイであった。
2023年はSnowflakeのユーザーグループであるSnowVillegeのリーダー陣の一人として、またData Superheroesの一人として奔走した年でもあった。ヒーローの出番だったのだ。
その中で、データ活用という世界が自分が思っている以上に遥かに広かったことを痛感した。
色々な企業で様々な人達がそれぞれの思いでデータを活用しているのだ。データの活用方法自体も多岐にわたるし、データ活用にまつわる技術も多岐にわたる。それに加えて、データガバナンスやデータマネジメントという別の側面も徐々に話題に登るようになっていった。
無限に広がる青い空のように、自分の中でデータという領域が広がっていった。あまりの広さに圧倒される想いでもあったが、胸踊るものであった。
そんな中で、私自身が予感しているものがあった。
1. データのサイロ化はデータを一箇所に集める以外の方法で解決される
データを一箇所に集めていくというのはとても素晴らしく、確かに文句なくサイロ化は解消されるだろうとは思う。しかし現実的には不可能だと思われた。
なぜならデータは価値を持つからである。価値を持つということは力を持つということであり、それは同時に共有することを難しくする。
国は自国民のデータを守ろうとし、企業は自社のデータを守ろうとし、社内でも各部署が自分たちのデータで優位に立とうとする。別におかしなことではない。
データのサイロ化を防ぐために一箇所に集めるのではなく、データは一箇所にないけれどサイロ化していないという状態を作るのが現実的な解決策になるだろうという予感があった。
当時からDenodoのようなデータ仮想化の概念は存在したし、この頃から話題になり始めたIcebergテーブルはその回答にかなり近いと考えている。企業間のコラボレーションではデータクリーンルームなどがより重要になりそうだ。
2. データマネジメントが重要になる
2023年にSnowVillegeで多くの方と話をしていて、みんなデータの品質の重要性には気づいているが苦戦している状況であった。
この重要性にさらに多くの企業が気づき、データマネジメントは必要の重要な概念になるだろうと考えられた。
こうして、自分自身でも2022年に視えていたのと別の未来を視え出したあたりで、2023年は終わりを告げた。
2024年 ふわり広がる世界
2024年の私は一言でいうとキュアプリズムであった。
2023年から続く、無限に広がるデータという世界で自分がどう振る舞うべきか、私の答えは一つであった。ふわりひろがる優しい光のような寛容さで、すべてを受け入れて自分の中でつなげていくということである。ゼロベースで考えるというのも近かったかもしれない。
その寛容さを表す最大のエピソードが、前職にDatabricksを導入したことであった。Databricksは言わずとしれたSnowflakeの競合サービスであり、Data SuperheroesがDatabricksの侵入を許したとあっては時代によっては斬首を命じられたことだろう(SnowVillegeの村長に)。
これは私の、三年目の浮気、なのだろうか?
私はそうは思わなかった。これからの時代のデータ人材は、こうした寛容さが必要であると私は考えている。理由を述べよう。
データのボーダーレス
近年はデータが増えすぎている。データ自体も増えているし、非構造化データのように、これまではデータとして扱えなかったものがデータとして扱えるようになることで、データは爆発的に増えている。
これらを一つのところに集めるのはもはや現実的ではないと思う。少なくとも現実的じゃない人たちがいるのは事実だ。他企業とコラボレーションしたいのならなおさらだ。
一箇所には集められないデータの間にあるボーダーを取り払う方向に世の中がシフトしている。Icebergテーブルがまさしくそれで、この技術は近い将来一般的になるんじゃないかと思う。
あらゆる場所にある、あらゆるデータを受け入れる寛容さがデータ人材には必要だ。
ツールのボーダーレス
データがボーダーレス化するということは、データを扱う技術もまたボーダーレス化することが予想される。
データの世界はこれからさらに広がっていくだろうし、それぞれの領域の中で様々なツールが生まれていく。ツールにはそれぞれ強みがあるから、ユーザー側は組み合わせて使うのがいい。ベンダーはもちろんベンダーロックインさせたいだろうけど、ユーザー側がその意図に乗る必要は必ずしもない。
そう考えたので、色々なツールを試していこうと考えた。こういうときはどこから始めるのがいいだろうか。
一番ありえないように見える選択肢を試そうと考えた。一番ありえない選択肢を最初に取れたら、そこから続くすべての事はありえなくなくなるだろう。
では、私が試すのが一番ありえなさそうなツールはなんだろうか、それがSnowflakeの競合サービスであるDatabricksだった。
Databricksはデータウェアハウスとしての機能を推しているのでSnowflakeの競合となっているが、データウェアハウス以外の機能だけ使うことも可能で、そういう形で並行して使ってみた。
結果としてこの併用は悪くなかった。BIやMLの領域ではDatabricksに軍配が上がる要素があった。この2つのツールは従量課金モデルで必要な機能だけピックアップして使うことができるから、ボーダーレスな思想で使っていくことができる。
様々なツールを受け入れて自社のデータ基盤に組み込む寛容さも、今後のデータ人材には求められると思う。
それでもやっぱりSnowflakeは良い
これらを踏まえて、Snowflakeについて考えていることを話そう。
Snowflakeはデータウェアハウスとしては最高のサービスだと思う。フルマネージドなサービスであることでSnowflake自体の運用コストがほとんどかからないのが良い。
料金体系的にデータマネジメントに適している点もポイントが高い。dbt testを用いたCI/CDを組もうと思うとスキャンしたデータ量のような課金体系はかなり厳しいからだ。
某グルメマンガのフルコースメニューのようにツールを組み合わせていく発想でデータ基盤を考えた時、私のフルコースのデータウェアハウスにはSnowflakeが入っている。
フルコースの他の場所に何が入ってくるのかは、来年以降の自分がきっと探していくことになると思う。それもとても楽しみだ。
もしこれを読んでいるあなたがデータ人材であるなら、ぜひ自分のデータ基盤という名のフルコースを探してみて欲しい。
2025年 勇気を胸に
最後にしれっと、私が2024年にしたもう一つの決断についてお話しよう。
X(旧Twitter)ではすでに告知したが、3年勤めたGENDAを12月で退職する。知人にお誘いいただき、色々考えた末にお話に乗ることにした。
これもまた浮気だろうか?うーん、そうかも?
2021年に入社したときは、もっともっと長く居ることになると思っていたのだが、未来なんて誰にもわからないものだ。
だからまあ、このブログに書いた未来予想も完全に的外れな可能性が多分にあるのだけれど、その時はその時だ。勇気を持って歩んでいけば、きっとなんとかなるだろう。
データの世界は今は激動の時であり、不安定である。心躍ると同時に不安でもあるというのが、正直なところだ。そんなタイミングに自分の転職を重ねるなどと、無謀にも思えてくる。
それでも勇気を持って歩んでいけば、きっとなんとかなるだろう。
天高く広がる勇気が、きっと私を、あなたを、導いてくれる。
本日のまとめ
そんなわけで本日のまとめは簡単だろう。
ひろプリは名作
結びの言葉
そんなわけで、さらっと退職の話まで書いてみました。次の職場はもう決まっていて、来年の頭から新天地です。
ちなみにSnowflakeはこれまで以上に使うことになります。コミュニティ活動もこれまで以上にアゲていこうと思っています。
それでは本日はこのあたりで。今年中にもういくつかブログを書く予定なので、年末の挨拶はもう少しお預けです。
それじゃあ、バイバイ!
Snowlfake データクラウドのユーザ会 SnowVillage のメンバーで運営しています。 Publication参加方法はこちらをご参照ください。 zenn.dev/dataheroes/articles/db5da0959b4bdd
Discussion