✈️

Snowflake Data Cloud Summit 2024 振り返り

2024/06/11に公開

はじめに

2024年6月3日〜6月6日にサンフランシスコで開催された「Data Cloud Summit 2024」に参加してきました。
この記事ではサミットの内容を振り返り、感じたことなどをコメントしていければと思います。

キーワード

今回のサミットにおける、個人的なキーワードは以下の2つです。

  1. AI Data Cloud / AI for Everyone
  2. Strengthen Your Data Foundation

1. AI Data Cloud / AI for Everyone

今回のサミットでは、AIに関連する機能がいくつも発表されました。
ただすべての機能に共通している目的は、
組織内の「すべて」の人がAIを利用でき、自然言語等でデータと対話し活用できるようにする
ということです。

今までSQL, Pythonで利用できていたAI機能の多くが、GUIで誰でも簡単に利用可能となっています。
つまり今までエンジニアに閉じられていたAI利用が、ビジネスユーザーにまで拡大するといえます。

AIを使うためハードルが下がり、今後数年のうちにビジネスにおけるAI利用が当たり前になっていく。
その中で、AIとデータを組み合わせてどのようにビジネスを進化させることができるかを早々に考えていかなければならないと強く感じました。
同時に日々アップデートされるAI関連機能をウォッチし、手段(HOW)を常に理解し続けなければならないと感じました。

2. Strengthen Your Data Foundation

AIに加えて、Horizonを中心としたデータメッシュ実現のための機能群が多く発表されました。

個人的な注目は、Snowflakeが組織内だけでなく、組織外のデータサイロも解消しようとしている点です。
「Iceberg Tables」や「Polaris Catalog」は、組織内の各ドメインが自由なデータプラットフォームを選択しても連携やガバナンス適用を容易とし、「Universal Serach」は組織外マーケットプレイスも含めた全てのデータを容易に検索できるようにしています。
これによりデータが組織内・組織外のどこに存在してもすぐにアクセスし活用できる環境が整いつつあるのだと感じました。

大規模な組織では従来の中央集権的なデータ管理は限界があり、サミットではデータメッシュの考えが当たり前になっているように感じます。
今回の発表もデータメッシュを理解しているかどうかで、印象が大きく変わると思います。

データメッシュとは

データメッシュとは

データメッシュとは、データを組織全体で一元管理する従来のアプローチとは異なり、各部門やチームが自分たちのデータを独立して管理し、利用するためのフレームワークのことです。
これにより、データの所有権と責任を分散させ、各チームが自分たちのデータプロダクトを開発しやすくします。

4つの原則

データメッシュには以下の4つの基本原則があります。
今回のサミットでは、それぞれの考えを実現する機能・仕組みが多く発表されていました。

  1. ドメイン指向のデータ所有
  2. データをプロダクトとして扱う
  3. セルフサービスのデータプラットフォーム
  4. フェデレーテッドガバナンス
1. ドメイン指向のデータ所有

データは各業務ドメイン(例:マーケティング、営業、製造など)が所有し、管理するという考え。
各ドメインは各データの専門家という位置付けです。

2. データをプロダクトとして扱う

データは一つのプロダクトとして扱い、品質や使いやすさを重視する考え。
これには、データのドキュメントやメタデータの管理、APIの提供などが含まれます。

3. セルフサービスのデータプラットフォーム

各ドメインが自分たちでデータを管理しやすくするためのプラットフォームが提供されます。
これにより、データの収集、保存、処理が効率化されます。
つまりドメインごとにデータ基盤製品が異なっても良いということです。

4. フェデレーテッドガバナンス

データの管理とガバナンスは中央集権的ではなく、各ドメインに分散されていますが、全体としての一貫性と基準は保たれます。例えば、データのセキュリティやプライバシー保護のポリシーは全社共通となるという考えです。

注目している機能

ここからは発表された機能のうち、個人的に注目している機能について触れていきます。
一部理解が浅く誤っている箇所があるかもしれません。その場合はご指摘いただけますと幸いです。

AI関連

Document AI

GUIをベースとし、非構造化データから質問形式でデータを抽出できる機能です。
実際の業務では請求書PDFなど、多くの非構造化データが存在しています。そういった今まで取り込みできなかったデータを容易に取り込み、活用するための機能として注目しています。

GUIベースで非構造化ドキュメントをチャンク化、ベクトル化。キーワード検索とベクトル検索を組み合わせたハイブリッド検索をサービスとして実装できる。
今までベクトルデータを保持したり、ハイブリッド検索を自前で実装していた部分がGUIベースになり、誰でも検索チャットボットを実装できる点に魅力を感じました。
よりビジネスに近いユーザーが、ビジネスに直結する仕組みを構築できるようになっていくのではと思います。

Cortex Analyst

構造化データに対し、チャット形式&自然言語で問い合わせできるサービス。
こちらもSQLをかけないビジネスユーザーが容易にデータと対話できるサービスとして注目しています。

Cortex AI Serverless Fine-Tuning

GUIベースで既存モデルのファインチューニングが可能な機能。
大規模モデルの返答を正解データとしチューニングすることで、小規模モデルでも大規模モデルと同等の返答を生成させコスト削減に繋げる事例なども紹介されていた。
今後のビジネスにおいては汎用的なモデルではなく、それぞれの業務に沿ったモデルが必要となってくるはず。
そこをGUIベースで実現できている点に注目しています。

データメッシュ関連

Polaris Catalog

Icebaergテーブルをサポートしているデータ基盤製品であれば、製品に関わらずSnowflakeのガバナンス等の適用が可能となるサービス。
データメッシュの考えを実現するための仕組みであり、AWSやMicrosoft等も考えに賛同し、オープンソース化が予定されています。

Universal Serach

組織内外問わず、すべてのデータプロダクトを検索できるサービス。
相互運用が可能となり様々なデータが利用できるようになる中で、容易にデータを検索しアクセスできるこのサービスは、シンプルだがとても重要だと感じました。

Internal Marketplace

組織内版マーケットプレイス。
データを各ドメインが管理しデータプロダクトとして提供していくための、提供基盤が整った印象です。

AI Object Description

LLMを活用したオブジェクトの自動説明生成機能。
Universal Serachでの検索精度向上のためにも説明があったほうがよいが、実運用として説明文を作るのも面倒。そこをLLMで自動生成させる仕組みだと理解しました。

おわりに

私はサミット参加は初めてでしたが、各機能発表以前に、Snowflakeが目指している「AI Data Cloud」の思想を直接肌で感じられた点が一番の収穫だったと考えています。
AI for Everyone、すべてのビジネスユーザーがAIを利用できるために、Snowflakeは基盤を整備し機能を拡充しているのだと思います。
私自身はデータエンジニアですが、ビジネス観点を意識しこの変革がビジネスにどう影響していくのかを継続して注視していきたいと思います。
最後になりますが、サミット参加に伴い関わっていただいた社内外の皆様、本当にありがとうございました!

Discussion