re:Invent 2025: SageMaker CatalogによるデータとAIガバナンスの新機能とNatWest事例
はじめに
海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!
re:Invent 2025 の書き起こし記事については、こちらの Spreadsheet に情報をまとめています。合わせてご確認ください
📖 re:Invent 2025: AWS re:Invent 2025 - Explore what’s new in data and AI governance with SageMaker Catalog (ANT308)
この動画では、Amazon SageMakerのプロダクトヘッドShikha Vermaが、AIイニシアティブの成功にはデータとガバナンスが不可欠であることを強調し、Amazon SageMaker Unified StudioとAmazon SageMaker Catalogを紹介しています。メタデータドリブンなアプローチ、AI対応データ、オープンバイデザインという3つの重要な特徴が説明され、column-level metadata forms、自動用語集用語の提案、Snowflake・DatabricksとのIceberg互換API連携などの新機能が発表されました。Leonardoによる包括的なデモでは、データエンジニア、データスチュワード、データアナリスト、データサイエンティストの4つのペルソナが同一プラットフォーム上で協働する様子が実演されました。NatWestのchief data and analytics officer Karenは、300年の歴史を持つ銀行がAWS・Accentureとの3者パートナーシップを通じて、データ変革を5~6年から3~4年に短縮し、AI-powered bankを目指す実例を共有しました。
※ こちらは既存の講演の内容を最大限維持しつつ自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますのでご留意下さい。
本編
AIイニシアティブの成功に不可欠なデータとガバナンス
私の名前は Shikha Verma です。Amazon SageMaker のプロダクトヘッドをしています。この部屋に見覚えのある顔がいくつか見えますね。来ていただきありがとうございます。私の同僚2人も一緒にいます。Leonardo は principal specialist で、とてもクールなデモを見せてくれます。そして Karen は NatWest の chief data and analytics officer で、私たちのお客様です。皆さんにステージに来ていただけて嬉しいです。ありがとうございます。彼らはすぐに参加します。では始めましょう。今日は盛りだくさんのアジェンダを用意しています。
まず1つ質問をしたいと思います。 ここにいる皆さんの中で、過去12ヶ月間に新しい AI イニシアティブに取り組んでいる人は何人いますか?手を挙げてください。多くの人がいますね。素晴らしい。予想通りです。 そして、これらの AI イニシアティブで成功していると考えていて、自分の会社に新しい価値をもたらしている人は何人いますか?何人かいますね。まあ、だからこそ私たちはここにいるんです。だからこそ、このアジェンダでこのグループを一堂に集めたかったんです。なぜなら、ご存知の通り、Gartner は2027年までに、データとデータガバナンスが整っていなければ、組織の60%が予想される価値を実現できなくなると言っているからです。 この声明に同意しますか?はい。だからこそ皆さんはここにいるんです。素晴らしい。
つまり、データは AI の基盤であることがわかっています。 氷山の一角は AI のもの、私たちが皆やりたいクールなものですが、その下には、真の価値を得るために最初に整える必要がある膨大な作業があります。当然のことながら、ストレージレイヤーでデータを正しく管理し、それをすべて処理し、それをすべてカタログ化し、適切なメタデータを追加して、それを発見して使用できるようにする必要があります。などなど。では、AWS で皆さんが私たちに伝えてくれたことに戻りましょう。皆さんが何をしたいのか。
手を挙げて意見をください。これはサイレントセッションなので、私の声は聞こえないと思いますが、手を挙げて意見をください。 顧客の声—私は業界に25年いますが、顧客から何度も何度も聞いてきたのは、AI イニシアティブを実現するために本当に3つのことが必要だということです。1つ目は、構造化データと非構造化データのすべてを置く単一の場所が必要だということです。あらゆる種類のデータ、皆さんのデータ、皆さんのモデル、皆さんのダッシュボード、そして皆さんが作成しているエージェントでさえ、誰もが発見して使用できる場所に置かれるべきです。次に、メタデータをこれらのカタログ化するすべてのものに追加される主要なコンテキストにしたいということです。これにより、人間だけでなく、簡単に発見できるようになります。AI は誰かに電話をかけません。私たちのエージェントは別の人間に電話をかけてコンテキストを取得することはありません。だから、そのコンテキストをデータに組み込む必要があります。そしてもちろん、これらすべてが、すべてのデータセットにわたって一貫したガバナンスと一緒に成り立っています。どのように管理しますか?これらすべてのデータセットに対して、どのようにアクセス権限を付与しますか?誰がこれらのデータセットに対してアクセス権限を付与できますか?それはどのように使用されていますか?他の人と共有できますか、できませんか?これらすべてをこれに一貫して適用する必要があります。これは理にかなっていますか?もう一度手を挙げてもらいます。多くの人がいますね。完璧です。
少し戻ってみましょう。 私たちの多くは、かなり前からデータ分野にいると思いますが、実際にはどのように始まるのでしょうか。構造化データと非構造化データソースが入ってきます。 私たちはそれをすべて処理します。私たちは data warehouse をやっていました。その後 data lake をやりました。その後、それをすべて lakehouse に一緒に持ってきました。そして今は、データをそのままにしておいて、データがどこにあろうと、適切なコンテキストで管理するだけという感じです。今日の時代にこれを行うには何が必要ですか? 中心となるのはメタデータ、つまりデータについてのデータです。これにより、コンテキストと意味が得られるので、正しい方法でそれを使用できます。これは今日の時代に不可欠です。 なぜなら、前に話したように、AI エージェントは他の AI エージェントを呼ぶかもしれませんが、そうはしません。エージェントが可能な限り自動化を持つようにしたいので、そうする時間がありません。
地図やナビゲーションシステムが必要なように、その進化に伴って、AI にはメタデータが必要になります。メタデータはクールです。メタデータは今後10年のキーワードになるかもしれません。データが人間にとってもAIにとっても使用可能になるように、メタデータにもっと多くの投資をする必要があります。 AWS が提供するこの分野のソリューションについてお話しします。 Amazon SageMaker について聞いたことがある人はどのくらいいますか?まあ、だからこのセッションにいるわけですね。
Amazon SageMaker Unified StudioとCatalogの登場
昨年立ち上げた新しいソリューションを作成しました。Amazon SageMaker Unified Studio と Amazon SageMaker Catalog です。これにより、あらゆる種類のアセットをカタログ化するための基盤が得られます。SageMaker Catalog の中央には、データ、モデル、作成している生成AI エージェント、ダッシュボード、そしてこれらすべてをカタログ化できます。これらすべてのものに対して、一元化されたメタデータリポジトリがあり、すべてのデータとアセットがどこから来ているのかを示すエンドツーエンドのリネージがあります。
組み込みツールを使用してアセットにコンテキストを追加できます。当社のチーフデモオフィサーである Leonardo が、まさにそれのデモを見せてくれます。彼は、自分で作成する必要なく、メタデータを自動的に組み込む方法を実演します。なぜなら、これらすべてのアセットにコンテキストを追加するのは膨大な作業だからです。もちろん、データ品質は重要です。皆さんがそれに注意を払っていることを願っています。なぜなら、悪いデータを使えば、悪い結果が得られるからです。エージェントが幻覚を起こすことで、非常に悪いデータでも多くの興味深い洞察と大きな信頼を生み出すことができます。そんなことは起こってほしくないので、データ品質は今、最も重要です。
一元化された検出と共有の方法は、常に推奨しているものです。このセッションから覚えておいてほしいことが3つあります。 SageMaker Catalog は何を提供するのか?1番目は、メタデータドリブンなアプローチをすべての検出に提供します。データはそのままにしておくことができますが、メタデータが集約されるので、それがデータを検索する方法になります。次に、AI対応データがあります。このエコシステムに AI が関わる方法は2つあります。1つは、AI を使用してデータを準備することです。2つ目は、より多くの AI に向けてデータを準備する必要があることです。それは互いにフィードバックするループであり、デモでその両方を見せます。
今日は、ショーアンドテルで進めます。私が資料を説明して、Leonardo に引き継ぎます。彼がエンドツーエンドのデモを見せてくれます。その後、Karen が実際の顧客ユースケースでまとめるのを手伝ってくれます。皆さんの多くが Karen が対処して解決した問題と同じ問題に直面しているかもしれません。セッション後に必要であれば、彼女とも関わってください。最後になりますが、オープンバイデザインがあります。私たちが認めなければならないことの1つは、AWS システムだけでなく、AWS が提供するデータベース以外にも多くのシステムがあるということです。ここで AWS 以外のものを使用している人はどのくらいいますか?はい、私もです。本当に必要なのは、Databricks や Snowflake などから Iceberg 互換 API を通じてデータを取り込むオプションを提供するソリューションを採用することです。また、Open Lineage のようなものもあり、システムを通じて行く可能性のあるデータアセットの全体にわたってリネージをキャプチャします。今日はこれら3つすべてを見せます。
メタデータ機能の大幅な拡張:列レベルメタデータと自動生成
それでは、SageMaker でこれらのカテゴリーで何が新しくなったのかをさっと見せてみましょう。去年のローンチ以来、私たちは懸命に取り組んできました。サービス全体にわたって 200 以上のリリースが行われています。Amazon SageMaker がありますが、ストレージレイヤーのレベルでは、S3 にメタデータ機能を追加しました。処理レイヤーのレベルでは、AWS Glue と Lake Formation で機能を追加しており、スタック全体が SageMaker に統合されます。ここにはたくさんのものがありますが、必ずしも指摘する必要はありませんが、この分野に非常に多くの投資をしていることを示したかったのです。メタデータが今後 10 年の黄金の子どもであるため、私たちはそれを認識し、この分野に多くの投資をしています。
去年以来、多くのお客様、ここにいる何人かの皆さん、本当にありがとうございます。NatWest の Karen もここにいます。群衆の中に Hema の Tomaso がいるのが見えます。NatWest の他の人たちもここにいます。皆さん、ありがとうございます。誰か他にここでロゴを見ている人はいますか?もし皆さんがここにいてロゴを見かけたら、手を挙げてください。来年のスライドに入れさせていただきます。
ここで新しいのは、数週間前にローンチした column-level metadata forms です。これが提供するのは、メタデータがテーブル、データベース、またはアセットレベルにとどまらないということです。列レベルで、データに追加のコンテキストを追加できます。この特定の列はこの種の分析に使用できる、またはこの列は PII なので、PII 以外の目的には使用しないと言うことができます。
列レベルで管理できます。私はこれについて非常に興奮しており、私たちの最大のお客様の何人かは、より細かいレベルでデータを管理できるようにこの機能が利用可能になるのを待っていました。Leo がライブデモでこれを見せてくれます。同じメタデータのテーマで、去年は自動メタデータ生成をローンチしました。Leo がデモで見せてくれます。テーブルを選んで「説明を生成してください」と言うと、見えるカラムのコンテンツに基づいて説明を生成します。それをどのように使用できるかについての推奨事項を提供します。今年は自動用語集用語の提案を追加しました。用語集用語を使用している人もいます。これらの用語集用語をすべて作成してから、それらが入ってくるすべてのものと関連付けられるようにするのは、多くの大変な作業です。
この機能を使用すれば、用語集用語が生成されているか、標準的な用語集用語のセットがあれば、新しいデータアセットが入ってくるたびに、列レベルでも、情報を相関させることができ、ここのスクリーンショットのように、用語集用語を生成できることを示し、相関させて、これらの用語集用語をこのアセットに適用したいかどうかを示すことができます。ボタンをクリックするだけで完了です。これにより、プロセス全体が簡素化され、本当に高速化されます。メタデータルールと用語集を適用することもできます。これらのものを思いついただけではなく、誰も使用しません。ビジネスチームがデータをアップロードするために私たちのルールを使用していません。これを通じて適用できます。なぜなら、集中型システムを持つことの利点は、プロデューサーとコンシューマーが自由に遊ぶことができるが、その後、会社に必要なコントロールを取得するのに役立つ技術を中間に構築できるからです。必要に応じてそれらを緩和できます。
コントロールを重視しない企業であれば、ルールを緩和することができます。しかし、ますます多くのエンタープライズ企業がデータに対して非常に意識を高めるようになっています。これは今日の新しいトレンドです。生成されるすべてのメタデータと使用されるすべてのアセットを考えると、私たちはこれを S3 レイヤーに戻しています。 ほとんどの皆さんが S3 を使用しています。私たちが行っていることの 1 つは、スタックの上に作成するすべての追加メタデータについて、ストレージレイヤーまで押し下げたいということです。そうすることで、エージェントがスタックの上部で相互作用していても、ソースで相互作用していても、正しいメタデータが引き出されて使用されるようになります。これは本当に皆さんにとっても私たちにとっても多くのことを簡素化します。実は私たちは自分たち自身のためにこの機能を内部で使用しています。データアセットを SageMaker に戻しているからです。この機能を自分たちでも使いたいのです。
オープンなエコシステムとポリグロット・ノートブックの実現
この機能がもたらすもう 1 つの利点は、誰がこれらのアセットを使用しているのか、そして誰が何個のアセットを使用しているのかを確認できるということです。この特定の機能からすべてのそれが得られます。S3 まで下げると、再利用可能なアセットとして共有できます。スタック全体まで持ってくることもできますし、それが属する場所で使用することもできます。 AWS エコシステムについて多く話してきました。私たちの顧客からよく聞くのは、彼らの生活は本当に多様だということです。彼らはすでにシステムに多くのサードパーティプレイヤーを持っていて、彼らはあなたが彼らと一緒に働いてほしいと言っています。これらの名前のいくつかは皆さんにとって馴染みのあるものです。すべての投資が無駄になったと思わないでください。Collibra、Alation、または他のカタログを使用している場合、私たちはそれらと一緒に構築した同期ソリューションを持っています。
AWS 以外のカタログから AWS カタログ(SageMaker Catalog など)にメタデータを同期できるようになったことを皆さんと共有できて、本当に興奮しています。これは、データスチュワードとガバナンスチームがこれらのカタログのいずれかで行った大変な作業を SageMaker に同期でき、SageMaker から開発者の発見と分析に使用できることを意味します。これも実際に見ていただきます。また、外部の Iceberg カタログへのカタログフェデレーションも導入しています。
ほぼすべての皆さんがここで Snowflake または Databricks を使用しています。Snowflake または Databricks がすでに皆さんの企業にあり、共通点が Iceberg である限り、すべてのそのデータを引き出して AWS 分析エンジンで使用できます。そのデータとメタデータを SageMaker Catalog に持ってくることができ、その後 Athena、SageMaker、または私たちのいずれかのエンジンを使用してそのデータを処理して使用できます。このデータは、すべての AWS データと同じ方法で SageMaker Catalog に表示されるようになり、すべての生成 AI 機能を使用してこのすべてのデータに対して自動ビジネス説明を生成できます。その力を想像してみてください。これは顧客のために行った最もエキサイティングなことの 1 つです。なぜなら、それは本当に皆さんのためにエンタイア エコシステムを開くからです。そして、皆さんは本当にそれをまとめることができます。
では、すべてのそのデータを使用に供します。どのようにしてそれをまとめて、実際に使用しますか? これまで、AWS と AWS 以外のデータをまとめることについて話してきました。すべてが 1 つの中央カタログで利用可能です。SageMaker のこの新機能は、既存のデータセットのワンクリックオンボーディングです。IAM に精通していて、ポリシーがどのように設定されているかを知っている人は何人いますか?すべての AWS 顧客がそれに精通しています。これが皆さんにできることは、データセット用に IAM で既にアクセス許可が設定されている場合、1 回のクリックで SageMaker に持ってくることができるということです。そして、それが皆さんに与える力は、この新しいノートブック、私たちが今立ち上げたばかりのこのファンシーな新しいノートブックを使用する力です。
これはポリグロット・ノートブックで、サーバーレス、プロビジョニング不要です。1つのセルで Python を使用でき、別のセルで SQL を使用でき、セル同士を相互に関連付けて、データセットを使用し、ビジュアライゼーションを使用できます。本当にクールです。ノートブックには AI エージェントも組み込まれています。シンプルなプロンプトで、コードベース全体を生成できます。 新しいパイプラインを作成し、スケジュール設定してくれて、もちろんステップバイステップの思考プロセスについて素晴らしい説明も提供してくれます。Cursor や Windsurf のような IDE を環境で使用している人はいますか?ぜひこれを試してみてください。プロンプトを使うだけで、深い分析ができました。スプレッドシートを何枚か入力しただけで、正直なところ生のスプレッドシートのままで、データ品質ルールすら適用していないのに、これがあれにどう相関しているかを示す美しい分析結果をくれました。ドレスの販売と私が好きなタイプのもの、そしてどこかからアップロードした販売データを使用していたのですが、本当にクールな分析結果を、ほとんど手間をかけずに提供してくれます。
Leonardoによる包括的デモ:データパイプライン作成からメタデータ管理まで
では、デモの準備はいいですか? よし、Leo、皆さんのための chief demo officer です。Chika、ありがとうございました。皆さん、こんにちは。Chika の発表をありがとうございます。では、これらの機能をすべて実際に見てみましょう。これらの機能をすべて紹介する包括的なデモを用意しています。2分ください。デモモードに切り替えて、始めましょう。完璧です。画面が見えていますか?いいですね、完璧です。
では、ユースケースから始めます。このユースケースでは、4つの異なるペルソナがあります。Leo がいます。彼は営業部門で働いています。彼はデータエンジニアです。彼が私たちのためにデータセットを作成します。次に Samantha がいます。彼女も営業部門で働いていますが、データスチュワードです。彼女がビジネスコンテキストを含めてそのデータアセットを文書化するのを手伝います。次に Sarah がいます。Sarah は別の部門、この場合はマーケティング部門で働いています。彼女がデータを操作します。SQL を実行したり、ダッシュボードを作成したりします。そして Oliver がいます。彼は Sarah とマーケティングチームで一緒に働いています。彼はデータサイエンティストです。
Amazon SageMaker ノートブックを使用して予測モデルを作成します。より詳しく説明すると、Sarah と Samantha は同じデータの上で相互作用しますが、個人的には互いに知りません。しかし、彼らは同じデータの上で革新し、協力していきます。
最初のユースケースを見てみましょう。 前述したように、Leo と一緒に作業します。SageMaker Unified Studio を使用してデータパイプラインを作成する方法を素早くお見せします。 ホームページにいます。ビルドセッションに移動して、visual ETL flows を選択します。では、すぐに1つ作成しましょう。ここで利用可能なすべてのものが見えます: ソース、トランスフォーメーション、そして ETL ジョブを作成するための宛先ターゲットです。しかし今日は怠け者です。午後4時なので、生成 AI を使用してパイプラインを生成します。ここに使用するプロンプトを貼り付けます。 ここで説明全体が見えます:このテーブルをこれと結合して、この集計を行うなど。これを送信すると、それだけで データパイプラインを作成できます。
次に、これを保存します。生成AIを使って生成したからといって、好きなように変更できないわけではありません。ここではパラメータを変更してジョブをカスタマイズしています。保存します、保存した後は、もちろん実行する必要があります。では実行をクリックしましょう。ETL ジョブが正常に実行されたという確認メッセージが表示されます。では結果を見てみましょう。これは先ほど見たように、異なるテーブルの集約です。ここが Data Explorer で、作成された新しいテーブルが見えます。sales performance by buyer です。Data Explorer からは、列、スキーマ、そしてデータのサンプルを確認できるので、すべてが正しいかどうかをダブルチェックできます。
これで新しいデータセットができました。次は別のペルソナ、Samantha に移ります。前に述べたように、彼女はデータ・スチュワードで、このアセットにドキュメントとビジネス・メタデータを追加する方法を紹介します。SageMaker Unified Studio のホームページに戻ります。今回は Samantha として戻ります。データ部分、つまり前に紹介した Data Explorer に行きますが、今回はデータソースを選択します。なぜかというと、Leo が作成したアセットから技術メタデータを収集するからです。デモ用にこのデータソースは既に作成しています。実行するだけです。わずか 3 秒で完了し、完了したらそのソースからメタデータを収集したことになります。
では、メタデータを追加しましょう。アセットセクション、インベントリ部分に行って、作成したばかりのアセットを探します。sales performance by buyer です。これでアセットのホームページに移動します。ここでは列レベル、アセットレベルなど、様々なレベルでメタデータを追加できます。ここで気づいていただきたいのは、アセットの異なるセクションにこの星のアイコンがあることです。これは生成AI を使って説明を生成できることを意味しています。紹介しますが、まずそのアイコンがある理由を知っていただきたかったのです。
最初にすることは説明を生成することです。技術メタデータに基づいて、生成AI を使用してアセットの説明を生成します。それを拒否することも、編集することも、受け入れることもできます。この場合はすべて受け入れます。リズムを追加することもできます。Markdown をサポートしているので、すぐにフォーマットが見えます。こうすることで、コンシューマーにとってより視覚的にすることができます。
では、用語集の用語セクションに移ります。従来の用語追加オプションが見えます。しかし、今は生成AI を使用した用語生成機能があります。これは価値があります。なぜなら、SageMaker Catalog Studio で既に定義されている用語集の用語に基づいて、それらの用語をアセットに自動的に関連付けるからです。
非常に重要なのは、データに PII 情報が含まれているかどうかを検出する機能も備えているということです。そしてそれに基づいて、そのアセットに PII に関連するグロッサリー用語を追加します。ここで提案を見ることができます。それが灰色表示されている理由です。spark オプションまたは start オプションをクリックすると、推奨事項を受け入れるか拒否するかができます。これを受け入れると、3 番目の推奨事項が PII であることが分かります。つまり、アセットに PII データが含まれていることを特定し、自動的にグロッサリー用語を追加しました。また、私たちが常にサポートしてきた方法で、手動で用語を追加することもできます 。ただ、生成 AI による推奨と手動割り当てのハイブリッドが実現できるようになったということをお知らせしたいです 。
メタデータフォームセクションに移りましょう。ここではソースから取得されるすべてのテクニカルメタデータが表示されます。この場合、AWS Glue からデータが来ているので、Glue の情報を表示していますが、データが Redshift から来ている場合は、そこからメタデータを取得します 。また、カスタムメタデータを追加するオプションもあります。これは非常に重要です。なぜなら、このアセットに独自の特性を追加するときだからです 。このデモでは、このアセットが認証された日付、ビジネスオーナー、分類 、SLA といった簡単な例を追加しました。このフォームは好きなようにカスタマイズできますし、必要に応じてアセットに複数のメタデータフォームを追加することもできます。
これでアセットレベルのメタデータは完成しましたが、まだあります。スキーマレベルですべてをドキュメント化する方法をお見せします 。既に説明とカラム名、そしてグロッサリー用語の提案を生成しています 。すべてを受け入れます。灰色表示されたアイテムのような通常のものなしにすべてを見せたいからです。ですから、ここですべての推奨事項を見ることができます 。ここで注意する必要があるもう 1 つのことは、各カラムにグロッサリー用語を自動的に関連付けることです。この場合、例えば 2 番目のカラムである first name を見ると、PII データが含まれていることを特定し、また name に関連していることも分かります。繰り返しになりますが、これを編集して変更することができます。その方法をお見せします 。
view and edit をクリックすると、カラムレベルで独自のメタデータセクションが表示されます。これは素晴らしい機能です。なぜなら、これはあなたたちにインスピレーションを受けて作られたものだからです。実際、この機能の作成にインスピレーションを与えた人がここの観客の中にいます。ですから、今これを見ているのは素晴らしいことです。メタデータと説明セクションを追加しました。提案されたグロッサリー用語も見ることができます 。必要に応じてカラムレベルでさらにグロッサリー用語を追加することもできます 。また、下に移動してカラムレベルでメタデータフォームを追加することもできます。覚えていますか、以前はアセットレベルでメタデータフォームを使用してメタデータを追加していました。今はカラムレベルで行っています。つまり、カラムはカタログの一部として第一級市民になっています 。このカラムの所有権と目的に関する情報を追加して、保存をクリックします。完璧です。これでアセットもよくドキュメント化され、カラムもよくドキュメント化されました 。
もちろん、これをカラムごとに行うと、かなりのオーバーヘッドになる可能性があります。プログラムでこれを行うための API もサポートしています 。では、アセットフィルターに移りましょう。ここは SageMaker Catalog Studio 内でセキュリティを実装できる場所です。ここでフィルターを作成して、サブスクリプションリクエストを承認するときに適用することができます。そうすることで、特定のリクエスターがアクセスできるデータをフィルタリングできます。この場合、ご覧のように、カラム と行をサポートしており、state でフィルタリングしようとしています 。
Florida に等しく設定します。つまり、サブスクリプションリクエストを承認してこのフィルターを適用すると、コンシューマーは Florida に関連するデータのみを見ることができるようになります。もちろん、列フィルターと行フィルターの組み合わせを使用することもできます。
では、 data quality に移りましょう。ここでは 3 つのセクションがあります。最初のセクションはアセットの総合スコアです。中央の部分は ルールごとにどのルールがパスしたか、どのルールが失敗したかを表示します。そして最後のセクションは、一定期間にわたって品質スコアがどのように変化したかを示すヒストグラムです。
では、私のお気に入りの部分に行きましょう。今、data lineage があります。これはかなりクールです。なぜなら、デモの最初に実行したパイプラインを覚えていますか、 パイプラインを実行するだけで、このリネージダイアグラムが自動的に生成されるからです。 ご覧のように、ダイアグラムを拡張することができ、消費しているアセットのソースを見ることができます。それだけでなく、そのデータアセットを誰が消費しているかも見ることができます。つまり、それがどのように作成されたかだけでなく、このアセットを誰が消費しているかも見ることができるわけです。私たちの lineage 機能は open lineage に基づいているので、オープンスタンダードに基づいていることを覚えておいてください。
データコンシューマーの視点:検索、サブスクリプション、ダッシュボード作成
完璧です。ここに、data producer としてアセットを公開するために必要なすべてのものがあります。 publish asset をクリックします。このボタンをクリックすると、このアセットは会社の他のメンバーが利用でき、見ることができるようになります。 完璧です。公開され、よくドキュメント化されました。では、consumer ペルソナ、この場合は marketing data analyst の Sarah に切り替えて、 彼女がどのようにデータカタログを探索するかを見てみましょう。2 つの異なる方法を紹介します。最初のものは従来の方法で、search engine を使用する方法です。
assets で参照します。ここでカタログ内のすべてのアセットを見ることができます。ここで glossary terms でフィルターできることがわかります。覚えていますか、 作成したアセットに PII タグを追加しました。つまり、PII でフィルターすると、PII を含むすべてのアセットが表示されます。では、より革新的なアセット検索方法に行きましょう。Amazon Q を使用できます。自然言語を使用するだけで、カタログに対して質問をすることができます。この場合、 PII データを含むアセットのリストをください、以上です。 すべてのアセットのリストが表示されます。また、アセットの横に、ご覧のように、そのアセットが検索に適切なものであることを示すために使用した基準を表示します。このアセットを特定するために使用したコンテキストについて、より詳しい情報が得られます。
では、ここで覚えておいてください。私たちはすべてコンシューマーの視点から見ています。 これを見てください。素晴らしいですね。アセットレベルとスキーマレベルで十分に文書化されていて、データ品質スコアとデータ系統図、すべてが揃っています。 ですから、ここにあるすべてのメタデータに基づいて、コンシューマーとして情報に基づいた決定を下すことができます。サブスクライブをクリックしようと思います。 ここで見ることができるように、リクエスターとサブスクライバーとして、情報を入力する必要があります。ご存知かもしれませんが、このフォームはカスタマイズできますし、ユースケースに基づいて、ここで何でも質問することができます。リクエストをクリックします。これが アセットへのアクセスをリクエストするために必要なすべてです。
では、データスチュワードの Samantha に戻りましょう。彼女はサブスクリプションリクエストをレビューして承認する権限を持っています。 ホームページに戻ります。マイデータタブに移動します。 サブスクリプションリクエストセクションに移動できます。そこに自分のサブスクリプションリクエストが見えます。詳細を確認できます。ここで見ることができるように、すべての情報は marketing から来ています。Sarah でした。そして Sarah がここに入力したユースケースです。ここで、フルアクセスまたはフィルター付きアクセスを選択するオプションがあります。
もちろん、フィルター付きアクセスを実装するつもりです。ここで、一緒に作成したフィルターが見えます。 そして、ここに承認する理由を入力します。承認をクリックします。そうすると、今からすぐに、Sarah は実際のデータにアクセスするオプションを持つようになります。 それを素早くお見せしましょう。Sarah に戻ります。では、データで遊んでみましょう。 ここで、SageMaker Studio からの通知が来ました。
Sarah は UI から直接、Samantha がリクエストを承認したという通知を受け取りました。Samantha が追加したすべての情報を確認できます。 では、データを消費しましょう。データエクスプローラーに直接移動します。 データをプレビューをクリックします。これで SQL エクスペリエンスに移動します。簡単なディスカバリークエリを実行しようと思います。すべてのデータがそこに見えます。 ただし、まだお話ししていない問題があります。Sarah は SQL クエリの実行方法を知りません。データアナリストの職を得ましたが、そのスキルはありません。問題ありません。Sarah は生成 AI を使用して、実行する必要があるクエリを生成できます。そのために、SQL エクスペリエンスの一部として持っている Q agent に移動して、データの上で質問をします。
彼女は「収益の上位 5 都市を教えてください」と尋ねます。その質問をするだけで、彼女はそのクエリを実行することができました。それだけではなく、会話を続けることができます。 これらの結果に基づいて、彼女は「これらの都市でより人気のあるイベントのタイプは何ですか」と尋ねます。システムは前のクエリのコンテキストを保持し、ここで見ることができるように、クエリを実行するだけで、 彼女が探していた結果を得ることができます。Sarah は SQL クエリの実行方法を知らずにデータと相互作用しています。
Sarah は、これが自分が必要とするデータであることを確認しました。これからこのデータを使って BI ダッシュボードを作成し、いくつかのビジュアルを表示しようとしています。では、asset に戻って、アクション ボタンを選択し、QuickSight で開くをクリックします。このいいところは、asset に関連するすべてのものが既に関連付けられた状態で QuickSight インスタンスが開くということです。また、Sarah はダッシュボードの作成方法も知らないので、生成 AI を使ってそれを作成しようとしています。ここに build オプションがあります。彼女はアシスタントに、トップユーザーを収益またはスペンドで表示するビジュアルを求めています。
彼女はこのビジュアルが気に入り、ダッシュボードに追加します。 完璧です。ここで見ることができます。これから 2 番目のビジュアルを追加しようとしています。 異なる質問ですが関連しており、彼女は探していたビジュアルを得ました。 これもダッシュボードに追加しようとしています。少し整理してみます。ここを閉じて、このデフォルト オプションを削除すれば、公開する準備ができます。publish オプションをクリックして、asset の名前を入力する必要があります。 publish ボタンをクリックすると、カタログ内に新しい asset が作成されます。QuickSight ダッシュボードをカタログに登録することができます。
それがどのように見えるか、すぐにお見せします。SageMaker Unified Studio に戻りましょう。ここにいます。 data に移動してから、assets に移動します。この場合、QuickSight に関連する asset を探します。 ご覧のように、Revenue という新しい asset があり、type を見ると QuickSight dashboard と表示されています。メタデータとビジネス メタデータを使用してその asset を拡張することもできます。ダッシュボードに README セクションを追加しており、また ダッシュボードに glossary terms を追加しています。メタデータ フォームも追加することができます。このデモの一部としては行いませんが、Glue table を文書化するのと同じ方法でダッシュボードを文書化できることをお知らせします。
データサイエンティストOliverによる予測モデルの構築
では、この場合 asset であるダッシュボードを公開しようとしています。ご覧のように、Sarah は単なるコンシューマーではなく、プロデューサーになりました。Samantha から消費したデータを使用して、彼女は asset、この場合 QuickSight ダッシュボードを作成し、カタログの一部として公開することができました。 彼女はデータ プロデューサーになったのです。では、最後のペルソナである私の友人 Oliver に移りましょう。彼はデータ サイエンティストで、Oliver が新しいノートブック エクスペリエンスを使用して予測モデルを作成する方法をお見せします。
Oliver も Sarah と同じく marketing 部門で働いていることを思い出してください。ここで見ることができるのは、Adrias コンソールへのアクセスがあるということです。 これはこれらのノートブックで提供している異なるエクスペリエンスです。ユーザーが IDE を使用して SageMaker in Studio で作業できるハイブリッド アプローチを持つことができ、より技術的なユーザーは IAM roles と users を使用してエクスペリエンスに直接アクセスすることができます。
では、これがどのように機能するかをお見せします。SageMaker をクリックします。私のロール、つまり Oliver を識別して、それに基づいてカスタマイズされたエクスペリエンスを提供します。これは先ほど述べた新しいエクスペリエンスです。ホームページには、利用可能なすべてのオプションがあります 。データパイプライン、機械学習、その他すべてが含まれています。今のところはデータの部分に焦点を当てましょう 。Oliver が Sarah と同じレベルのアクセス権を持っていることがわかります 。なぜでしょうか?彼らは同じプロジェクトと同じビジネスラインで働いているため、同じレベルのアクセス権を持っているのです。異なるエクスペリエンスを使用していますが、ここで Sarah がアクセスできたのと同じデータアセットを見ることができます 。ただし、この場合、Oliver はノートブックを使用してデータを操作します。
もう 1 つ言及すべきことは、Oliver は予測モデルの作成方法を知らないということです 。そのため、彼はノートブックエクスペリエンスの一部として提供されている AI システムを使用します。ここで Oliver は売上に関する予測モデルの作成をリクエストしています。これは非常に興味深いことです。なぜなら、エージェントがリクエストの分析を開始し、回答を異なるステージに分割するからです 。回答を提供することはできますが、ステップバイステップで行います。私がこれについて好きなことは、Oliver がエージェントと対話して、すべてのステップを実行するということです。Oliver が「はい、ステップ 1 を実装しましょう」と言うと、エージェントがすべてのセルに入力し、もちろん私の許可を得た上でコードを生成して実行する様子が見えます。
ここで、エージェントがデータを探索した後、予測モデルに必要な情報を取得するためにいくつかの集約を行う必要があることを特定したことを示すビジュアルが見えます 。現在、集約を実行しています 。このステップを承認する必要があります。それでは、セルに入力を開始して 、集約を実行しましょう。もちろん、結果を確認して、ステップを続行するか何かを変更するかを決定できます。この場合、デモなので、すべてが簡潔です 。ステップ 2 は素晴らしく機能しました。では、ステップ 3 を実行しましょう。しかし、繰り返しになりますが、私がこれについて好きなことは、次のステップを実行する前に、すべてのステップを検証する必要があるということです。
現在、予測分析を実行しています 。Oliver はコードの行を実行する必要がありませんでした 。その後、最後のステップは推奨事項とビジュアライゼーションの実行です。この場合 、ビジュアライゼーションよりも推奨事項に焦点を当てています。ステップを承認してスクロールダウンすると 、データに基づいた予測モデルのすべての推奨事項が表示されます。ご覧のように、私がしなければならなかったことは、正しいプロンプトを追加すること だけで、その後、エージェントと対話してこれらすべての推奨事項を取得しました。これは長いデモでしたが 、ご覧のように、異なるペルソナをカバーしました。
ご覧のように 、先ほど述べたように、4 つの異なるペルソナがあり、すべてが同じプラットフォーム上で対話しています。彼らは互いに知る必要はありませんが、同じデータの上で協力し、イノベーションを起こすことができます。では Karen、前に出てきてください。Karen は、これがすべて現実で可能であることをお見せします。
NatWest Groupの事例:300年の歴史を持つ銀行のデータ変革
皆さん、ありがとうございます。本日の午後、皆さんとご一緒できて大変嬉しく思います。また、Sarah と Oliver が彼らの職業において明らかに技能が不足していることについて、皆さんも私と同じ懸念を共有していただければと思います。NatWest についてご存じない方のために、まず私たちのストーリーと歩みについてお話しさせていただきたいと思います。私たちは英国の主要な高街銀行の一つであり、私は誇りを持ってその一部をリードしている使命に取り組んでいます。
私たちは今、300 年間存在してきました。このことを皆さんと共有するのは、2027 年に私たちの 300 周年を祝うからです。AWS という私たちの戦略的ホスティングパートナーと協力する際、相対的な年齢の違いについていつも楽しい思いをしています。しかし、300 年の歴史を持つ銀行として、今日存在し続けるためには、革新の強い文化と顧客の金融ニーズを満たし、サービスを提供する新しい方法を常に模索することなしには、決してあり得ません。
現在、私たちの野心は顧客とともに持続可能なパートナーとして成功することであり、可能性を進歩に変える銀行になりたいと考えています。私は銀行家として、実は NatWest Group で 28 年間を過ごしてきました。今日、かつてないほど、銀行業は動的で、エキサイティングで、可能性に満ちていると言えます。だからこそ、可能性を進歩に変えるという私たちの目的が、今の私たちの状況と顧客の状況に本当に響いているのです。
私たちは顧客について保有しているデータを活用して、彼らの希望を理解し、彼らが何を必要としているのかを知りたいと考えています。私たちは非常に動的で変化する世界で事業を展開しているため、私たちのデータと責任ある AI は、顧客が最も必要とする時に彼らをサポートするために重要です。私たちのコア統計情報をいくつかまとめてみました。私たちは英国で 2,000 万人以上の顧客を持ち、毎月ほぼ 7 億 5,000 万件の金融取引を処理しています。
顧客にサービスを提供するためには、データを資産として活用しなければなりません。そして、将来的には AI が顧客のいる場所でより良く対応するために進化する方法であることを私たちは知っています。Chief Data and Analytics Officer として、私は NatWest のデータ変革をリードしています。本日の午後、私たちがセッションを進めてきた中で、本当に心に残ったことがいくつかあります。その一つは、今がこの仕事をするのに完璧なタイミングだと感じることです。
Leo が今デモンストレーションした機能は、作り話ではなく、実際のものです。私たちは Chief Information Officer の Scott Marker と一緒に、チーム全体で、データチーム全体で一日を過ごし、Leo が今皆さんにデモンストレーションしたものとほぼ同じことを、私たちのデータを使い、私たち自身のマーケットプレイスで独自のアセットを作成して実演することができました。ですから、顧客として、私は本当にこれが実現可能なものだということをここで皆さんにお伝えしたいのです。
より広範なデータ変革についてお話しできるなら、私たちはクラウドで高品質でよくキュレーションされたデータを提供することを目指しています。私たちが主導している大きな転換の一つは、非常に小規模で限定的なデータ専門家チームから、データを必要とするすべての職種とすべてのチームがアクセスできるようにすることへの移行です。私たちは AI の導入において非常に強い実績を持っていることを誇りに思っており、最近 Evident AI のリーグテーブルで世界 16 位にランクインしました。これは私たちのような規模の銀行にとっては大変な成果です。そして私たちは AI と勤勉に取り組んでおり、その機能をスケールで活用できるようにし、また今日使用しているよりもはるかに高い速度で generative AI と agentic AI に対応できるようにしています。
私たちは変革の旅の途中にあり、より単純で、いくつかのレガシーデータプラットフォームを削除した最新のデータアーキテクチャに移行する必要があります。私たちは顧客に generative AI と agentic AI ソリューションを提供できるようにするために、本当に迅速にそれを行う必要があります。私たちは組織の戦略をサポートし、ビジネスを成長させ、私たちのエステートを簡素化してより大きな機敏性を得られるようにし、強力なガバナンスを持つようにします。
強力なガバナンスを持つことは、私たちがコントロールを提供する方法の絶対的な中心です。英国とヨーロッパでは、顧客データに対する適切なレベルの品質とコントロールを達成するのに役立つ厳格な規制があります。米国ではほとんどが金融サービスとヘルスケアがそれについて気にしていることを理解していますが、ヨーロッパと英国では本当に強力な規制があります。今日見たいくつかのデモは、その規制基準を達成するのに役立ちます。
私たちがそれを進める方法は、少し独特でもあります。私たちは今年 7 月に、NatWest Group、AWS(私たちの戦略的ホスティングパートナー)、そして Accenture にわたる独特な 3 者パートナーシップを作成し、立ち上げました。これはすべて私たちの旅をより速く進めるためのもので、これら 3 つの企業の最高のものをもたらし、最新のデータアーキテクチャへより迅速に移行しています。私たちの成果—私たちが generative AI と agentic AI をスケールで提供できるようになったときに、私たちが成功したことを知ります。それがどのように感じられるかというと、私たちはパーソナライズされ、関連性があり、商業および機関投資家の顧客や組織全体の顧客と対応するときに調整できるようになります。
データ変換を別のやり方でやったら、もっと早くできるんじゃないか、確実に成果を届けられるんじゃないか、そしてもっと安全にできるんじゃないか、という問いかけがありました。私たちは本当にそれを実現する道を歩んでいると信じています。完成までの期間を5~6年から3~4年に短縮することができるんです。つまり、これが私たちの実際の顧客ミッションになるわけです。 私たちは組織全体を digital spine と呼ぶものに移行しようとしています。これが、300年の歴史を持つ銀行をモダンで機敏な、クラウドネイティブ企業と競争できる存在に変える方法なんです。
私たちは radical technology と組織の徹底的な簡素化を活用してそこに到達します。コアシステムに変更を加えることを考えると、私たちは膨大なオーバーヘッドを抱えています。簡素化を通じて、変更のコストを削減し、成長し変化する顧客ニーズに対応するスピードを上げることができるようになります。私たちは AI-powered bank として知られたいと考えており、それを実現することにコミットしています。NatWest が私たちのパートナーシップにもたらすものは、顧客に対するこの執拗なフォーカスです。顧客は何を必要としているのか、何を期待しているのか、そしてどうやって届けられるのか、ということです。
これらすべてが、私たちの顧客、株主、そして私たちが事業を展開している英国の社会に対して、持続可能なリターンをもたらすべきものです。本当に説得力のあるミッションですね。 300年の歴史を持つ組織として、本当に重要なデータチームが少数ある中で、ご覧の通り私は大量のデータを持っていますが、それを見つけるのが難しいんです。整理されていないし、データの洞察を得たり、本当に良いデータドリブンな意思決定をサポートするのが難しいことが多いのは、目の前に見えているこの混乱のせいです。
これの最良の例の一つは、今日でも時々、必要なデータを見つけるのに、検索するより誰かに電話をかける方が一番早いということです。だからこそ、SageMaker Unified Studio の一部である glossary が必要なんです。Shia がこれを本当に上手くやったと思うのは、私たちが metadata が agentic AI ソリューションがデータを見つけてアクセスする方法になる世界に向けて準備を整えていると言ったことです。SageMaker Unified Studio を通じて構築している制御を使ってですね。 人間には地図が必要ですが、AI にはメタデータが必要です。
カタログによる組織全体のデータアクセスと3つの重要なポイント
NatWest Group がモダンなデータアーキテクチャへの道のりの中で活用しようとしている、コアとなる技術的能力の多くに触れてきました。それをスキップして、現実的には、私はどのように catalog を使っているのか、そして今日どのように使っているのかについて話しましょう。私が強調したい重要なポイントは、ほぼ3000人の信頼できるデータプロフェッショナルのチームをリードできることを本当に誇りに思っているということです。エンジニア、アナリスト、データサイエンティスト、誰であれ、彼らが必要なものを見つけるのをサポートできるんです。
より迅速に、そしてより顧客志向になるために、私の会社の72,000人の従業員全員が、顧客に関して保有しているデータへのアクセスを統合または増加させる必要があります。その成果を達成する唯一の方法は、SageMaker Unified Studio の一部として、カタログを通じてデータと API を発見可能にすることです。
また、これが再利用を促進する唯一の方法でもあります。再利用により、私はより迅速になり、提供できる製品とサービスの一貫性が向上します。データを移動することなく、データを共有でき、すべての異なるチームにデータの重複コピーを保存することなく共有できます。そして最も重要なことに、私にとって最も重要な資産である顧客データを安全に保つことができます。なぜなら、SageMaker Unified Studio 内のカタログを通じて、本当に細かいレベルまで、誰がアクセスできるかを制御できるからです。
それでは、Shia と Leo にステージに戻ってきてもらい、トップ3つの重要なポイントをお伝えします。ありがとうございます、Karen。皆さん、楽しんでいただけましたか?何か新しいことを学びましたか?では、これで締めくくります。私たちはここにいますので、ご質問があれば、お気軽にお声がけください。では、トップ3つの重要なポイントをご紹介します。
1番目は、今日はメタデータについて多く話しました。メタデータがメインストリームに追加され、ガバナンスがメインストリームに追加されるようにアーキテクチャを拡張してください。そうすることで、AI との取り組みを増幅させることができます。では、2番目のポイント、Leo?
そうですね、ご覧いただいたように、SageMaker Unified Studio は、どのような種類の人材を持っていても、同じデータの上でイノベーションを起こすために使用できる中央の場所です。SageMaker Unified Studio を中央の場所として使用することで、先ほど述べた NatWest のように、すべてがうまく機能するための魔法の公式となります。そして私のポイントは、小さく始めて段階的に構築することです。私たちは AWS との革新の旅の一部であることを誇りに思っており、DataZone から始まり SageMaker Unified Studio へと移行しました。そしてその過程で、私たちはその設計を形作るのに役立つ強い顧客の声となってきました。しかし、企業として、AWS と Accenture のパートナーのサポートを受けながら、迅速に進捗を遂行することは非常に重要です。小さく始めて段階的に構築することをお勧めしますが、この変化を続けるために組織のサポートを得るために、初期および継続的な価値を提供してください。
わかりました、ありがとうございます。皆さん、フィードバックを忘れずに残してください。ぜひフィードバックをお願いします。また、このセッションで新しい試みをしてみたので、皆さんのご意見をお聞かせください。説明はほとんどせず、デモンストレーションをたくさん行い、顧客の事例も含めて学べるようにしました。これが役に立ったと思われましたら、ぜひアンケートに記入していただければ、今後もこのような形式で進めていきたいと思います。もちろん、残りの日程を通じて SageMaker のセッションがたくさんあります。全部で30個くらいあると思いますので、興味のある分野に深く掘り下げることができます。ぜひ声をかけてください。私たちはここにいます。皆さん、ありがとうございました。ありがとうございます。
※ こちらの記事は Amazon Bedrock を利用し、元動画の情報をできる限り維持しつつ自動で作成しています。



































































































































Discussion