📘

AIエージェントが真価を発揮するデータ基盤へ -メダリオンアーキテクチャ 2.0 と "プラチナレイヤー" を考える

に公開

はじめに:データ基盤、AIエージェントにとって「輝いて」ますか?

生成AIとAIエージェントの登場は、ビジネスの景色を一変させました。誰もが、自社のデータを使って革新的なAIアプリケーションを構築したいと考えています。しかし、ここで一つの大きな壁に直面します。

「我々のデータ基盤は、本当に生成AI・AIエージェント時代に対応できているのだろうか?」

これまで可視化・分析のために最適化されてきたデータ基盤は、残念ながら生成AIにとって必ずしも「最適な」データではありません。データがただそこにあるだけでは、生成AI時代の競争優位性は築けません。データが自ら価値を語り、アクションを促す、真に “輝く” 状態でなければならないのです。

本記事では、AIエージェント時代のデータ基盤のあり方と、「メダリオンアーキテクチャ」をAIエージェント時代に合わせて2.0へと進化させる要素は何か?について考察します。そして、その次世代アーキテクチャをGoogle Cloudのサービス群でいかにして実現するか、具体的な構成を描き出します。

第1章:おさらい:メダリオンアーキテクチャ

ご存知の通り、従来のメダリオンアーキテクチャは、レイクハウスのデータを3つの層で段階的に磨き上げるアプローチです。

  • 🥉 ブロンズレイヤー (原石): あらゆるソースからの生データをそのまま蓄積。
  • 🥈 シルバーレイヤー (銀): データをクレンジング・正規化し、信頼できる形に。
  • 🥇 ゴールドレイヤー (金): 特定の分析やBIレポートのために集計・最適化。

このアーキテクチャは、人間がSQLを書き、BIツールで可視化・分析しながら、データ品質とガバナンスを担保します。Google Cloud上で実現する場合、例として Cloud StorageBigLake をブロンズ、BigQuery をシルバー/ゴールドとして構築し、要件に応じて PubSub, Dataflow, Dataform, Dataproc, Composer, Vertex AI などと組み合わせてアーキテクチャを構成することが一般的です。

このGoldレイヤーのデータマートは、まさにビジネスにとっての「データに基づいた意思決定を行うための源泉」であり、その輝きで過去のビジネス動向を照らし出してきました。

第2章:AIエージェント時代のデータ基盤の壁

しかし、生成AIやAIエージェントという新しい Use case が登場したとき、この「3つのレイヤー」だけで十分でしょうか? この3つのレイヤーはカバーされない、AIエージェントにとって不可欠な要素があります。具体的には、以下の大きな壁が存在します。

  1. 意味の壁: sales_amt という列名が「税抜きの売上合計」を意味する、といったビジネスコンテキスト(意味)を、LLMは理解できません
  2. リレーションの壁: 「このデータが変化しているのはこのデータが影響している」などのデータ同士の相関関係をエージェントは理解できません
  3. 非構造化の壁: 契約書(PDF)、議事録(Docs)、設計書といった、価値ある非構造化データがBronzeレイヤーに眠ったまま、ゴールドレイヤーまで届いていません
  4. ガバナンスの壁 : AIエージェントが自律的にデータへアクセスし、組み合わせ、推論する中で、意図せず機密情報を漏洩させたり、誤った情報を生成したりするリスクがあります。従来の「誰がどのデータにアクセスできるか」という静的な権限管理だけでは、エージェントの動的なデータ利用に対応できず、監査やコンプライアンスの観点からも大きな課題となります。また、正しいデータに基づいて動くためには、データ品質やリネージなどの機能の重要性も高まります
  5. リアルタイムの壁 : AIエージェントは「今、この瞬間」の状況に基づいて最適なアクションを実行することが求められます。しかし、従来のバッチ処理で更新されるGoldレイヤーのデータでは鮮度が足りません。顧客の直近の行動や、工場のセンサーから送られてくる最新のデータを即座に捉え、エージェントの意思決定に反映させる仕組みが欠けています

結果として、従来のデータ基盤はAIエージェントにとって「ぼんやりと暗く、読みにくい、理解しにくい、動きにくい」存在となり、そのポテンシャルを十分に引き出せないのです。

第3章:メダリオンアーキテクチャ2.0 の「プラチナレイヤー」を考える

この壁を打ち破るために、AIエージェントがデータから価値を創造し、自律的にアクションを起こすための高付加価値なインテリジェンス層、『プラチナレイヤー』が重要ではないでしょうか。

プラチナレイヤーは、物理的なデータ層とAIエージェントの間の橋渡しとなり、AIがより高度なインサイトを引き出し、自律的なアクションを支援するための機能層として位置付けられます。また、AIエージェントがより多様なデータに対してリアルタイムなアクションが打てるように従来の3レイヤーを拡張する役割も担います。AIがデータを「見てわかる」だけでなく、「コンテキストを理解し、対話し、原因やインサイトを把握し、アクションを起こせる」状態にしたものです。このレイヤーは主に以下の要素で構成されます。

プラチナレイヤー

  1. セマンティックレイヤー (Semantic Layer): 「売上」「利益」「顧客数」といったビジネス指標とその計算方法、データ間の関係性を定義した「意味の辞書」。これにより、AIは人間のビジネス言語を理解できます
  2. データの相関関係 (Knowledge Graph) : データ同士の「関係性」をグラフ構造で表現したものです。例えば、「顧客Aが製品Bを購入し、その前にキャンペーンCを見た」という一連の出来事を線で結びます。これにより、AIは表面的な数値だけでなく、事象の背景にある因果関係や文脈を深く探求できるようになります。
  3. ガバナンス (Governance) : AIエージェントの自律的なデータ利用を、安全かつ透明性の高い形で実現するためのガードレールです。単にアクセスを許可/拒否するだけでなく、「どのAIが、何の目的で、どのデータにアクセスし、どのような結果を得たか」を追跡・監査できる仕組みを提供します。また、データの品質情報や来歴(リネージ)をAI自身が理解できるようにすることで、AIがより信頼性の高いデータソースを優先して利用するといった、自律的で賢いデータガバナンスを実現します
  4. マルチモーダルデータ対応 (Multi-modal) : これまでのBronze/Silver/Goldレイヤーで整理された構造化データに加え、契約書(PDF)、議事録(Docs)、画像、音声、動画などの非構造化・半構造化データも、AIが活用できるインテリジェンス層の一部として取り扱い、構造化データと統合して分析できる能力です。これにより、AIは多角的な視点から状況を認識し、より深い洞察を得ることができます
  5. リアルタイム対応 (Real-time) : 顧客の行動、IoTセンサー、ログデータといったストリーミングデータをリアルタイムで取り込み、AIエージェントが即座に理解・利用できる特徴量(Feature)に変換する能力です。これにより、AIエージェントは過去のデータだけでなく、「今起きていること」を即座に検知し、機を逃さずに最適な判断とアクションを実行できるようになります。単なるデータのストリーミングではなく、リアルタイムなインサイトを即時アクションに繋げるための司令塔の役割を担います

このプラチナレイヤーこそが、生成AI時代にメダリオンアーキテクチャに真の “輝き” を与え、AIエージェントの真価を発揮するデータ基盤の鍵であると考えています。

第4章:Google Cloudで実装するメダリオンアーキテクチャ 2.0

Google Cloud では、このプラチナレイヤーを実現すべく、現在提供中の先進的な機能に加え、未来のデータ基盤を形作る革新的な機能も積極的に開発を進めています。一部は既にプレビュー版としてご利用いただけます。Google Cloud で実現するメダリオンアーキテクチャ2.0 についてみてみましょう。

◾️ブロンズ / シルバー / ゴールド レイヤー:

  • 従来通り、Cloud Storage, BigLake, BigQuery, などを中心に構成し、要件に応じて PubSub, Dataflow, Dataform, Dataproc, Composer, Vertex AI などと組み合わせてアーキテクチャを構成します

◾️プラチナレイヤー

BigQuery, Dataplex, Looker を中心とした Google Cloud の最新ソリューションを活用することで、このレイヤーをカバーすることができます

  1. セマンティックレイヤー (Semantic Layer)
  • LookML (Looker のモデリング言語) : ビジネス指標を一元的に定義します。この定義はAPI経由で生成AIアプリケーションから利用できます。
  • Dataplex Data Insights (Automated metadata curation)[Public Preview] : データプロファイルの結果を元に、テーブルやカラムの説明を Gemini が自動補填してくれます。人間がゼロから作成するのではなく、Gemini の力でメタデータをエンリッチメントします。
  1. データの相関関係 (Knowledge Graph)
  • BigQuery Knowledge Engine [Roadmap] : エンティティとエンティティの関係性をグラフ構造で表現します。これにより、データ間の隠れたつながりや複雑な関係性を視覚的に把握できます。
  • BigQuery Graph Analysis [Private Preview] : 従来のテーブル形式のデータでは表現が難しい、データポイント間の複雑な関係性(例:顧客と購入履歴、金融取引におけるユーザーと口座の関係) を、グラフ (ノードとエッジ) として直感的に表現できます。グラフクエリ言語 (GQL) を使用して、データ内のパターンを効率的に見つけ出すことができます。例えば、小売のレコメンデーション、金融の不正取引防止、ソーシャルメディアのインフルエンサー特定などの use case に活用できます。
  • BigQuery Contribution Analysis : ある指標の変動に対して、どの要素がどれだけ影響を与えたかを分析します。売上増減の要因分析など、直接的な因果関係の把握に強力です。
  1. ガバナンス
  • Dataplex Universal Catalog : BigQuery, Cloud Storage, Pub/Subなど、Google Cloud内外に散在するデータアセットのメタデータを自動的に収集し、一元的なカタログを構築します。これにより、AIエージェントが利用可能なデータを横断的に発見・理解することが可能になります。
  • Data Lineage : データがどこから来て、どのような変換を経て、どこで使われているかという来歴を自動で追跡・可視化します。AIが生成したインサイトの根拠を特定したり、上流のデータ変更がAIの挙動に与える影響を把握したりするのに不可欠です
  • Data Profiling : データの統計情報(NULL値の割合、ユニーク数、最大/最小値など)を自動でスキャン・可視化します。AIがデータの特性や分布を事前に理解し、より適切な分析モデルを選択する手助けをします
  • Data Quality : 事前に定義したルールに基づき、データの品質を継続的にモニタリングします。品質の低いデータをAIが学習・利用してしまうリスクを防ぎ、AIの判断の信頼性を担保します。また、Data Profiling の結果を踏まえてルールのレコメンドも可能です
  1. マルチモーダルデータ対応 (Multi-modal)
  • BigQuery Multimodal Tables [Public Preview] : 構造化データと、画像や文書などの非構造化データへの参照(Object Table)を同じテーブル内で扱えるようにする機能です。これによりSQLだけで多様なデータを統合分析できます。AI.GENERATE_TABLE などの AI/ML 機能とシームレスに連動することが可能です
  • BigQuery Auto Discovery (GCS) : Cloud Storage上の非構造化データ(画像、音声、PDF等)を自動で検出し、メタデータを付与してBigQueryからアクセス可能なオブジェクトテーブルとしてカタログ化します。
  1. リアルタイム対応
  • BigQuery Pubsub Subscription : Pub/Subトピックに流れるストリーミングデータを、中間的なパイプライン(例: Dataflow)を必要とせず、直接BigQueryテーブルに書き込む機能です。これにより、リアルタイムデータの取り込みを極めて低遅延かつシンプルに実現します
  • BigQuery Stream Sharing with Pub/Sub : BigQueryの共有機能を使ってPub/Subトピックを共有することで、複数の組織内外にストリーミングデータライブラリをキュレーションし、配布できます。BigQueryの共有エクスチェンジとリストを使用してリアルタイムのストリーミングデータを共有することで、大規模なPub/Subトピックを論理的に分類・グループ化し、アクセス権限を大規模に付与できます
  • BigQuery Continuous Queries : BigQuery で受信データをリアルタイムで分析できます。継続的クエリによって生成された出力行を BigQuery テーブルに挿入することも、Pub/Sub または Bigtable にエクスポートすることもできます。

このプラチナレイヤーの実装により、AIエージェントがコンテキストを理解し、より高い精度で自社データを理解して価値を発揮することができます。Google Cloud では、Data Agent をより細分化し、データエンジニアやデータサイエンティストなど、データワーカーに向けたロールとして以下を定義しています。

第5章:メダリオンアーキテクチャ2.0がもたらす未来 - 進化する Data Agents

プラチナレイヤーを持つメダリオンアーキテクチャ2.0 は、ビジネスにどのような変革をもたらすでしょうか?

Google Cloud では、Data Agents をより細かく分解し、データエンジニア・データサイエンティスト・ビジネスユーザなどロールに応じたエージェント機能を定義しています。

  1. Data Engineering Agent
  2. Data Science Agent
  3. Data Governance Agent
  4. Conversational Analytics Agent

例えば、Data Engineering Agent [Private Preview] は、データエンジニアを支援するエージェントとして、自然言語から自律的にデータパイプラインを生成することができます。人材が枯渇するデータエンジニアに対しての生産性向上や、データ民主化の加速、つまりビジネスユーザでも自然言語で簡単なデータパイプラインを構築し、データから価値を引き出すことができます。詳細はこちらのデモをご覧ください。

https://www.youtube.com/watch?v=SqjGq275d0M

これらのエージェントは、プラチナレイヤーの成熟度にしたがって、よりレベルの高いタスクを自律的に実行できるようになります。単純な指示されたことへの回答 (可視化) だけではなく、その原因や影響に関する深い洞察、レコメンドなどの “一歩踏み込んだ” アクションが打てるようになります。

まとめ

メダリオンアーキテクチャは生成AIの登場によって 「2.0」へと進化する時を迎えました。その核心は、AIエージェントの自律的なアクションを支援する "プラチナレイヤー" にあります。

Google Cloudが提供する強力な Data Analytics ソリューションを活用すれば、この次世代の“輝く”データ基盤の構築は、もはや夢物語ではありません。自社のデータ基盤をAIエージェント時代に適合させ、データの真の価値を解き放ちましょう。

あとがき

G-gen様より関連ブログ メダリオンアーキテクチャ2.0とGoogle CloudのAIエージェント活用 が出ております!今回ご紹介したプラチナレイヤーの考察を、既存レイヤーの強化と組み合わせた形で再定義されておりますので、ぜひご覧ください プラチナレイヤーに関しては様々な捉え方があるかと思いますが、本記事と合わせて「AIエージェント時代のメダリオンアーキテクチャ」に必要なポイントのご参考となれば幸いです

Google Cloud Japan

Discussion