🤖

Snowflake SUMMIT 2024が示唆する、AI時代のデータエンジニアリングの在り方

2024/06/13に公開

Snowflake主催の最大のカンファレンスであるSUMMITに参加してきました。

今年はサンフランシスコで6月3日から6月6日にかけて開催されました。

去年の参加レポート: Snowflake SUMMIT 2023参加して、世界のスピードを感じてきた。

私は普段、株式会社CARTA MARKETING FIRM のデータエンジニアとして、Snowflakeを使ったデータ基盤構築・運用をしています。

どういう機能がリリースされたという話は、他の方が記事を書いてくれてそうなので、当記事ではデータエンジニアの立場から、SUMMITのメッセージをどう捉えたか、今後どのようにデータと付き合っていくと良いかを考察してみます。

当時の様子については、X でたくさんつぶやいてるので、そちらを見ていただくほうがわかりやすいです。

また、データエンジニア目線で、注目の機能に関しては、「Snowflake SUMMIT 2024をデータエンジニア目線で見る注目機能」でまとめているので、具体の機能に関して知りたい方はこちらをどうぞ。

AI DATA CLOUD

https://x.com/pei0804/status/1798060226366841128

今回のSUMMITは、AI、AI、AI という感じで、とにかくAIが全面に押し出された印象でした。
逆にこの時流で、AIを推さなかったら、何を推すんだ?という感じではあるので、AIに力入れてくぞというのは、分かりきっていた話ではありました。

ちなみに全部AIという感じではなく、Snowflake Trail をはじめとしたオブザーバビリティに関する発表もありました。
このオブザーバビリティに関するところは、私は「頼む、頼む、頼む」って感じだったので、とても嬉しい気持ちに包まれたりしてました。

https://x.com/pei0804/status/1798851536220803404

https://x.com/pei0804/status/1798035085721305160

個人的に熱いTrust Center。こういう設定したら、セキュアな設定になってるのが機械的に理解できる機能で、既に試しましたが、GAされたら即導入したいと考えています。

AI時代になると、Garbage In, Garbage Outが際立つ

様々な発表があったこともあり、現地でAI関連機能のハンズオンをいくつかトライしてみました。やってみた感想としては、Garbage In, Garbage Outが際立ってくるということでした。

AIと言えば、生成系AIのLLMが注目されています。LLMといえばRAG(Retrieval-Augmented Generation)が話題ですが、SnowflakeのCortexを使うと簡単に構築することが可能になりました。私もこの機能に注目していたので、早速触ってみました。

https://x.com/pei0804/status/1798423690985853365

RAGとは、簡単に説明すると、自然言語で社内ドキュメントなどをいい感じに見つけて、要約して教えてくれるフレームワークです。

RAGは、LLMが応答を生成する前に、正確かつ最新の情報を使用して特定のナレッジベースにアクセスする一般的なフレームワークです。モデルを再トレーニングする必要がないため、LLMの機能をコスト効率の良い方法で特定のドメインに拡張できます。

引用: Snowflake Cortexを使用した簡単かつ安全なRAGからLLMへの推論

リアルワールドのデータはカオス

ハンズオンで提供されたサンプルのドキュメントでは確かにそれっぽく動きました。しかし、実際の現場で使われているドキュメントを読み込ませた時に問題が発生しました。

  • 表記揺れの問題
    • 同じ意味だが表記が違う単語が別の単語として認識され、検索性が大幅に低下する (e.g. 売総、売上総利益)
  • 抽象的な表現の問題
    • 同じ単語で複数の意味を持つようなものを、AIは考慮してくれない (e.g. 効果、成果)
  • 元の文章の品質問題
    • 素で読んでもよくわからないドキュメントは、LLMを通すことでさらによくわからない内容になる
      • このような状況では、ドキュメントの検索機能だけ提供して、素のドキュメントを読んだほうがまだマシ

LLMは銀の弾丸のように見られがちですが、結局のところ元データが悪ければ、元データよりも酷い品質になるということを身をもって体験しました。

データを整備できていないなら、無理にLLMを使うよりも素のデータのほうがマシです。AIを使ったほうが便利だと実感できる世界を作るには、まず人間でも理解しやすいデータを作ることが重要です。

AIが解決できるのは、人間がやってもできるけど、物量の問題で処理しきれない問題を、現実的な時間で処理をすることです。

まず人間がやったとしてもうまくいく状態を作らないと、AIを導入しても結局うまくいかないという、当たり前といえば当たり前の話を、改めて認識しました。

Snowflakeが提供するAI機能の可能性と現実の課題

データの品質の問題で使えないにしても、すぐにAI関連の機能を使える世界観になったのは大きな変化です。

https://x.com/pei0804/status/1798423915792134272

データが既にあるSnowflake上で、ETLなしに機械学習と統合できる。機械学習をかじったことがある人なら、すぐにモデル構築ができるようになったのです。

少し前までは、セットアップが難しすぎて、ある程度エンジニアとしての素養がないと厳しい印象がありましたが、もうそのハードルは過去のものになりつつあります。そのため、我々はある程度、AIを意識してデータと向き合う必要性が出てきていると感じます。

AI時代を見据えたデータエンジニアとしての私の心構え

Snowflake SUMMITを通じて明らかになったのは、AI時代においてもデータ品質の重要性は変わらないということです。むしろ、データの質が競争力の源泉になりつつあると考えています。

AIは万能ではありませんが、適切に使えば大きな価値を生み出す可能性を秘めているのは間違いないので、AIがどういう場面で役立つかは理解しつつ、足元のデータ整備の取り組みを継続していくことが重要だと認識しています。

Snowflakeのようなプラットフォームの進化により、誰もがAIを身近に感じられるようになりつつあります。この変化を好機ととらえ、AIを正しく活用するためのデータ基盤づくりに邁進していくつもりです。そうすることで、自然とAIの流れに乗っかり、ビジネスの成長に貢献できると信じています。

最後に

https://x.com/pei0804/status/1798386370312073604

Snowflake、今後もどんどん進化してくれそうなので、頑張ってついていくぞ。

https://x.com/pei0804/status/1798993910448132275

そして、SUMMIT。最高。

Snowflake Data Heroes

Discussion