📖

re:Invent 2024: AWS Storage Gatewayで実現するS3へのハイブリッドデータワークフロー

2024/01/01に公開

はじめに

海外の様々な講演を日本語記事に書き起こすことで、隠れた良質な情報をもっと身近なものに。そんなコンセプトで進める本企画で今回取り上げるプレゼンテーションはこちら!

📖 AWS re:Invent 2024 - Build hybrid data workflows to Amazon S3 with AWS Storage Gateway (STG215)

この動画では、AWS Storage Gatewayを活用したハイブリッドクラウド環境でのデータワークフローについて解説しています。オンプレミスとクラウドの架け橋となるAWS Storage Gatewayの3つのタイプ(S3 File Gateway、Tape Gateway、Volume Gateway)の特徴と、イベント駆動型アーキテクチャの構築方法を詳しく説明しています。Apollo Tyresの事例では、AWS Storage Gatewayの導入によりバックアップコストを90%削減し、Amazon EMRやSageMakerを活用した分析・機械学習の実現に成功しました。また、ヘルスケア企業Exact Sciencesでは、ゲノムシーケンサーのデータをS3に効率的に取り込み、EventBridgeやLambdaを組み合わせた独自のデータ管理システムを構築した実例も紹介されています。
https://www.youtube.com/watch?v=v777RHHckOg
※ 動画から自動生成した記事になります。誤字脱字や誤った内容が記載される可能性がありますので、正確な情報は動画本編をご覧ください。
※ 画像をクリックすると、動画中の該当シーンに遷移します。

re:Invent 2024関連の書き起こし記事については、こちらのSpreadsheet に情報をまとめています。合わせてご確認ください!

本編

AWS Storage Gatewayの概要とプレゼンテーションの導入

Thumbnail 0

皆様、ようこそ。お客様から、ハイブリッドクラウド環境での作業における課題についてお聞きしています。オンプレミスのアプリケーションやデータベースが複雑化する一方で、クラウドのスケーラビリティやリソースを活用したいというニーズがあります。ファイルにはローカルでアクセスしたいものの、クラウドの管理機能や計算能力も活用したいと考えています。また、オンプレミスのシステムには長年かけて構築してきたセキュリティとコンプライアンスの仕組みがありますが、クラウドの管理、監視、分析エンジンも利用したいと考えています。AWS Storage Gatewayは、オンプレミスとクラウドの架け橋となります。実際、リージョン外のデータセンターに実装・展開できる数少ないサービスの1つであり、そのため多くのお客様がクラウドへの移行の第一歩としてこのサービスを導入しています。

私はAWSのシニアGTMスペシャリストのTugba Gokselです。本日は、シニアソリューションアーキテクトのEd LauraとCy Hopkinsをお迎えしています。まず私からAWS Storage Gatewayのユースケースについてご説明し、その後Edが詳細な解説と、ハイブリッドデータワークフローを構築する際に活用できる主要な機能についてお話しします。そして最後に、CyがAWS Storage Gatewayを使用したイベント駆動型ハイブリッドアーキテクチャの構築についてデモンストレーションを行います。

ハイブリッドクラウドストレージソリューションとしてのAWS Storage Gateway

Thumbnail 110

Thumbnail 140

お客様がハイブリッドクラウドモデルを選択する理由は様々で、パフォーマンス、セキュリティ、コンプライアンスなどが挙げられます。そのため、多くの企業が、クラウドに存在するデータにオンプレミスアプリケーションからすぐにアクセスできるハイブリッドクラウドストレージソリューションを選択しています。 データの保存場所を決定した後、次の論理的なステップは、そのデータをAWSに取り込み、アクセス方法を決定することです。そのために、私たちは複数のオプションをご用意しています。

オンラインデータ転送には、AWS DataSyncがあります。これは、オンプレミスや他のクラウドからAWSにデータを高速、シンプル、かつ安全に取り込むためのサービスです。また、DataSyncを使用して様々なAWSストレージサービス間でデータを移動することもできます。災害復旧のためにデータの二次コピーを作成・複製するためにDataSyncを使用されているお客様もいますし、アクセス頻度の低いコールドデータのアーカイブにも利用できます。外部転送には、AWS Transfer Familyがあります。これは、SFTPなどの特定のプロトコルを使用してファイルを転送する管理サービスで、外部の第三者組織やビジネスユニット間でデータを簡単かつ安全に移動できます。一部のお客様は、データの一部をオンプレミスに、一部をクラウドに保持するハイブリッドアクセスを選択します。そのためのソリューションがAWS Storage Gatewayで、これについては後ほど詳しくお話しします。データをAWSに取り込んだ後は、Data Lakeを構築し、Machine Learningを活用して分析を実行し、さらにデータを処理することができます。

Thumbnail 240

Thumbnail 260

Storage Gatewayを使用することで、お客様はオンプレミスに存在し続けるハイブリッドワークロードに対して、AWSのすべてのコンピューティング、ストレージ、分析、MLサービスを活用することができます。 Storage Gatewayは包括的な用語で、3つのゲータイプがあります。S3 File Gatewayは最も一般的に使用されているゲートウェイタイプです。これはネイティブのSMBやNFSファイルをAmazon S3オブジェクトに変換し、主にデータベースのバックアップやアーカイブ、データワークフローの保存先として機能します。ここでいうデータワークフローとは、オンプレミスの複数のソースからデータをS3に移動してData Lakeを構築することを指します。物理テープを使用していて、それらを仮想化したい場合は、Tape Gatewayが選択肢となります。そして最後に、私たちには

Volume Gatewayは、最も古いGatewayタイプで、データのアーカイブリポジトリとして機能し、ビデオファイルなどの頻繁にアクセスされないデータをアーカイブすることで、オンプレミスのストレージコストを削減することができます。

Thumbnail 330

Amazon S3 File Gatewayの具体的なユースケースについて詳しく見ていきましょう。S3 File Gatewayを使用してNFSやSMBプロトコルでオンプレミスのデータをAmazon S3にアップロードすると、お客様はData LakeやDataプロセッシングのワークフローを構築することができます。ファイルとオブジェクトの1対1のマッピングにより、Amazon SageMakerやAmazon Athenaなどの AWS ネイティブサービスを活用して分析やデータの追加処理を行うことができます。次に、S3 File Gatewayを使用して、Oracle、SAP、Microsoftデータベースのバックアップを保存することができます。また、より低コストのストレージ層にライフサイクル移行できる機能により、データの短期・長期保持を費用対効果の高い方法で実現できます。最後に、S3 File Gatewayを使用してビデオファイルなどのコールドデータをアーカイブし、ストレージコストを削減することができます。

Thumbnail 410

AWS Storage Gatewayは、既存のアプリケーションを変更することなく、標準プロトコルを介してクラウドに簡単かつ迅速にアクセスする方法をお客様に提供します。ローカルストレージに最大64テラバイトのキャッシュを提供し、Amazon S3との双方向のデータ転送に最適化されています。例えば、1時間のビデオから15秒のクリップだけにアクセスしたい場合、その15秒分だけをダウンロードすることができます。これにより、ネットワークトラフィックを最小限に抑え、エグレスコストを削減することができます。必要なセキュリティとコンプライアンスもすべて備えており、FedRAMP準拠で安全性が確保されています。また、月額125ドルを上限とする従量課金制の費用対効果の高い価格モデルを採用しています。コストの大部分はAmazon S3のストレージから発生しますが、より低コストの層に移行できるため柔軟性があります。最後に、管理、モニタリング、ワークロードのための他のAWSサービスとも統合されています。

Thumbnail 490

Thumbnail 500

あらゆる業種にわたって数十万のお客様がいらっしゃいます。 ここで、最近のお客様の成功事例をご紹介したいと思います。Apollo Tyresは、世界中の一般消費者および産業用顧客にサービスを提供する多国籍タイヤ製造会社で、インドに5つ、ヨーロッパに2つ、計7つの拠点を持っています。このお客様は、ストレージの即時拡張が必要でしたが、スケーラビリティの制限やサプライチェーンの障害に直面しており、分散化されたオンプレミスインフラストラクチャで運用していました。

Thumbnail 540

Thumbnail 560

Thumbnail 580

ハイブリッドストレージサービスとしてAmazon S3 File Gatewayを導入し、S3 File Gatewayを使用して160テラバイトのデータを移行して、迅速にスケールアウトしました。S3 File Gatewayを1日で導入し、他の工場にもグローバルに展開しました。 結果は素晴らしいものでした。バックアップコストを最大90%削減し、これにより革新を促進し、製造プロセスを近代化することができました。 また、お客様はインタラクティブな分析や機械学習のためにAmazon EMRなどのクラウドコンピューティングサービスを活用しました。さらに、Amazon SageMakerを活用して、機械学習モデルの構築、トレーニング、デプロイを行いました。Apollo Tyresのこの成功事例は、AWSがお客様のイベントドリブンなハイブリッドアーキテクチャの構築をどのように支援したかを示す素晴らしい例となっています。

AWS Storage Gatewayの技術的詳細とデータワークフローの実現

それでは、詳細な説明に移りたいと思います。Ed、お願いします。ありがとうございます、Tuba。私はEd Lauraと申します。Storage Gatewayサービスチームのシニアプロダクトソリューションアーキテクトを務めています。もしGatewayを導入されていて、サービスチームと話をされたことがある方は、私と話をされた可能性が高いと思います。これから、Gatewayの仕組みと、重要な機能を使ってどのようにデータワークフローを実現できるのかについて、詳しく説明していきたいと思います。

Thumbnail 650

Tubaも述べたように、AWS Storage Gatewayは、リージョン外のデータセンターや仮想環境内に実装されるように設計された数少ないサービスの1つです。 Gatewayは、アプリケーションサーバーの隣に仮想マシンとしてデプロイされます。ハードウェアアプライアンスも提供していますが、一般的にはVMware、Hyper-V、またはLinux KVMを使用します。Gatewayの仮想マシンをダウンロードする際、CPUと16GBのRAMという最小要件がありますが、これはスケーラブルです。これは小規模な導入と考えていますが、通常は24〜32 CPUまで、そしてRAMは64ギガバイトまでスケールアップすることを推奨しています。

Thumbnail 740

Gatewayには少なくとも2つのディスクが必要です。1つは、オペレーティングシステムを含む80ギガバイトのルートディスクです。S3バケット内のオブジェクトをファイルシステムとして表現できるように、メタデータを保存・永続化しています。もう1つは、データ転送料金の削減とパフォーマンス、低レイテンシーを実現するための、少なくとも1つのデータキャッシュディスクです。これは150ギガバイトから64テラバイトまでスケールできます。ベストプラクティスとして、同じ基盤ストレージ上であっても、追加のストライピング効果が得られるため、複数のキャッシュディスクを設定することをお勧めします。 Gatewayはローカルネットワーク上に配置され、NFSやSMBなどの一般的なプロトコルを使用してクライアントマシンと接続します。低レイテンシーのキャッシュディスクには、通常SSDを推奨していますが、可能であればNVMeも選択肢となります。

Thumbnail 750

Thumbnail 780

先ほど説明したように、クラウドとの間のデータ転送を最適化しています。放送関連のお客様のメディアリポジトリを保存する際に便利な14秒のビデオクリップについて言及がありましたが、必要なデータのみを取得できるため、高速でコスト効率の良い運用が可能です。すべてのデータは、転送中も保存時も安全に保護されています。 Gatewayの重要な差別化要因の1つは、ファイルを個別のオブジェクトとして保存することです。これにより、S3上で直接データワークフローや他のタイプの処理を実行できます。実際、他のアプリケーションやサービスが、ファイルプロトコルを必要とせずに同じデータセットにアクセスすることも可能です。

Thumbnail 820

Thumbnail 830

Thumbnail 840

では、書き込み処理の流れについて説明しましょう。 オンプレミス環境には、SMBクライアントとGatewayがあります。Gatewayにファイルを書き込むと、ローカルのキャッシュディスクに保存され、クライアントはファイルが書き込まれたという確認応答を受け取ります。 その間、Gatewayは第三のプロセスとして、そのデータをS3にアップロードします。 小さなファイルの場合、このプロセスはほぼリアルタイムで、ほぼ瞬時に行われますが、大きなファイルの場合は、帯域幅やその他の要因によって異なります。

Thumbnail 880

それでは、イベント駆動型のデータワークフローを実現する方法についてお話ししましょう。「データワークフロー」という言葉をよく使っていますが、その意味を明確にしていきたいと思います。ここでは、ヘルスケアおよびライフサイエンス分野における別の顧客事例をご紹介します。推奨するユースケースには一定の制限があります。データベースのバックアップ、つまりSQL ServerやOracleのデータベースダンプをS3 File Gatewayに書き込むこと、アーカイブ、そして既存のオンプレミスストレージシステムなどです。通常、データの60%から80%は低頻度アクセスのコールドデータです。そのようなデータを特定し、低頻度アクセス用にアーカイブしたい場合は、最適なユースケースとなります。

これらのデータワークフローでは、後ほどご説明する他の処理を行うために、主にS3にデータを取り込む必要があります。エンドユーザーが直接ゲートウェイにアクセスするような一般的なファイル共有には、ゲートウェイの使用をお勧めしていません。Amazon S3をバックエンドとする場合、名前の変更操作などに制限があります。例えば、100万個のアイテムを含むトップレベルのフォルダの名前を変更する場合、ファイルシステムでは瞬時に完了する操作が、S3バケットでは100万回の操作が必要になってしまいます。現在では、FSxシリーズのサービスが提供されているため、一般的なファイル共有には、まずFSxがニーズを満たせるかどうかを検討することをお勧めします。

Thumbnail 980

Thumbnail 990

Thumbnail 1000

この顧客であるExact Sciencesは、ヘルスケアライフサイエンス分野の企業です。科学者たちが働く研究施設には、大型のゲノムシーケンサーや様々な機器、顕微鏡があります。S3 File Gatewayを導入してオンプレミスのストレージシステムを置き換えることは一般的な方法で、これにより遠隔地にある研究施設の物理的なフットプリントを削減しながら、できるだけ早くデータをS3に取り込むことができます。データがS3に格納されると、この顧客は、S3内の複数のサービスを活用した独自のデータ管理システムを構築しています。この実現方法についての詳細は、ブログで詳しく解説されていますので、ご興味のある方はぜひご覧ください。

Thumbnail 1040

すべてのデータがS3に到着すると、イベント駆動型のワークフローがトリガーされます。このデータがS3に正常に到着したことを確認する方法については、後ほどご説明します。データの処理には、AWS LambdaやEC2インスタンスによる計算、バッチ処理など、さまざまな方法を使用します。データが処理されると、通常はその結果がS3バケットに書き戻されます。多くの場合、顧客は別のサイトに結果を分析する別のチームの科学者がいます。2つ目のゲートウェイを立ち上げ、同じS3バケットを指定することで、S3に格納されたばかりのデータを読み取ることができます。キャッシュリフレッシュという機能があり、自動化やAPIを通じて利用可能で、ファイル共有を作成する際にS3バケットに既に存在するコンテンツをゲートウェイが認識できるようになっています。

Thumbnail 1080

Thumbnail 1130

Exact Sciencesや他の顧客が利用している重要な機能の1つが、ファイルアップロード通知の種類です。S3に書き込まれる個々のファイルごとにEventBridgeに通知を送信する個別ファイルアップロード通知と、Working File Set通知の2種類があります。ライフサイエンスの顧客にとって重要なのは個々のファイルではなく、機器から書き込まれるデータセット全体です。これらの機器は1回の実行で数万から数百万のファイルを書き込みます。物理的なDNA鎖を扱っているため、このデータは再作成できません。そのため、データセット全体がS3に確実に到着することが極めて重要です。すべてのデータがS3に到着したことを確認できれば、処理や計算を進めて結果を得ることができます。

イベント駆動型アーキテクチャの実装デモンストレーション

Thumbnail 1150

Thumbnail 1160

Thumbnail 1170

個別のファイルアップロード通知については、オンプレミス環境において、SMBクライアントがローカルキャッシュにファイルを書き込み、その確認応答を受け取ります。データがS3に保存されると、 Amazon EventBridgeにイベントを送信し、各ファイルがAmazon S3にアップロードされた時点でイベントが配信されます。これにより、特定のファイルに基づいて処理ワークフローをトリガーすることができます。この設定はファイル共有で行うことができ、各ゲートウェイには最大50個のファイル共有を設定できます。これらはAWS Management Consoleを通じて設定可能です。

Thumbnail 1190

Thumbnail 1200

作業ファイルセット通知については、同じSMBクライアントが一連のファイルを書き込みます。メディアファイルなどがある場合、大容量のファイルはS3に即座にはアップロードされないことを私たちは理解しています。

Thumbnail 1210

Thumbnail 1220

ローカルデータキャッシュに書き込まれるため、処理は非常に速く行われ、すべてのデータがローカルキャッシュに書き込まれたという確認応答がすぐに返されます。キャッシュバッファは徐々に満たされていき、そのデータをS3にオフロードしてアップロードする必要が出てきます。すべてのデータがローカルキャッシュに書き込まれたことが分かったら、APIを使用する必要があります。クライアントはそのデータを書き込んだことを認識しており、ワークフローによって、処理が完全に書き込まれたことを確認する方法は異なります。

Thumbnail 1250

Thumbnail 1260

Thumbnail 1270

Storage Gatewayサービスに対してこのAPIアップロード通知をトリガーする必要があります。その後、すべてのデータがS3に保存されると、ゲートウェイサービスはAmazon EventBridgeにイベントを送信し、それらのファイルがすべてS3に正常にアップロードされたことを通知します。これによりイベント駆動型アーキテクチャを構築することができます。これにより、データセット全体が確実に存在することを確認した上で、そのデータを処理することができます。これはNotifyWhenUploadedというAPIを通じてリクエストされ、APIドキュメントで詳細を確認することができます。

Thumbnail 1280

Thumbnail 1290

Thumbnail 1300

Thumbnail 1310

S3 File Gatewayを使用してこれらのデータワークフローを構築しようとするお客様のために、私たちには活用できる多くのサービスがあります。特にイベント駆動型アーキテクチャについては、Amazon EventBridge、キューイングサービスのAWS SQS、ワークフロー構築のためのAWS Step Functions、そして通知のためのAmazon SNSがあります。コンピューティングサービスとしては、Amazon EC2、AWS Lambda、AWS Batchなどを活用できます。また、分析サービスも利用可能です。これには、可視化のためのAmazon QuickSight、クエリ実行のためのAmazon Athena、Amazon Redshift、そしてこれらを連携させるためのAWS Glueが含まれます。

Thumbnail 1330

最新のGenerative AIサービスでは、お客様がAmazon SageMaker を活用して機械学習モデルの構築とトレーニングを行っているのを目にします。Amazon Qは、そのデータから洞察を得るための完全マネージド型サービスとして機能します。実は明日、ワークショップセッションを予定しており、そこではAmazon Qを使用して非構造化データをChatbot機能で解析する方法や、Foundation Modelsのためのamazon Bedrockについて説明する予定です。

Thumbnail 1390

このアーキテクチャでは、Active Directoryと、 リモートアクセスに使用するWindowsホストがあります。EC2上にS3 File Gatewayがセットアップされ、Storage Gatewayサービスに登録されています。また、File Gateway上にS3バケットをバックエンドとするSMB共有が設定されており、WindowsリモートホストのEドライブがこのSMB共有にマップされています。さらに、Lambda関数やEventBridge通知、Step Functions、その他の類似コンポーネントが、イベント駆動型アーキテクチャの一部として組み込まれています。最終的な流れとしては、Eドライブにファイルをアップロードすると、S3バケットに到達した時点で特定の属性に基づいて分類され、分類が完了すると、Amazon Chimeグループにダイレクトメッセージで通知が届くという仕組みになっています。

Thumbnail 1450

Thumbnail 1460

Thumbnail 1470

Thumbnail 1490

こちらがAWSコンソールのEC2コンソールに表示されているStorage Gatewayです。EC2上で動作していますが、Storage Gatewayはオンプレミス環境にも設置可能です。 こちらがS3バケットをバックエンドとする共有です。この共有はActive Directoryで認証されており、 こちらがS3バケットで、documents、images、logs、videosというプレフィックスが設定されています。これらのフォルダに、ファイルの拡張子タイプとS3オブジェクトレベルのメタデータに基づいてファイルが分類されていきます。 ここでコンソールから5つのファイルをバケットにアップロードしますが、これらは比較用として機能します。Storage Gatewayからのファイルとは異なるメタデータを持っていますが、拡張子は同じものを使用しています。

Thumbnail 1510

Thumbnail 1520

Thumbnail 1530

これらのファイルの1つについて、 アップロードしたばかりのメタデータを確認してみましょう。content type: image/PNGという単一のキーと値のペアがあり、これが唯一存在するメタデータです。

Thumbnail 1540

Thumbnail 1560

Windowsリモートホストを見ると、Storage Gateway共有にマップされているEドライブがあります。4つのフォルダは見えますが、先ほどアップロードした5つのファイルはまだ表示されていません。これは、アップロードがS3側で行われたため、キャッシュの更新が必要だからです。これについてはデモの最後で対応します。また、ここにはdatasetフォルダがあり、PDF、画像ファイル、動画ファイル、ログファイルが含まれています。これらが分類対象のファイルです。特に注目すべきファイルは、upload_event.txtというダミーファイルで、これは最後にアップロードされます。このファイルがS3に到達すると、イベント駆動型ワークフローがトリガーされます。

AWS Storage GatewayとAI/MLサービスの統合によるデータ駆動型イノベーション

Thumbnail 1590

Thumbnail 1600

ここでデータセットフォルダからEドライブにすべてをコピーするRobocopyスクリプトを作成しました。 このスクリプトは、まずupload_event.txtファイル以外のすべてのファイルをコピーし、それが完了してからupload_event.txtファイルを最後にコピーしてワークフローを開始します。 S3 File Gatewayの重要な設定の一つが、ファイルアップロードイベント通知の設定です。アップロードされるすべてのファイルがEventBridgeにイベントを送信し、これによってupload_event.txtファイルがS3にランディングした際のイベントをキャプチャすることができます。

Thumbnail 1620

Thumbnail 1630

Thumbnail 1650

Thumbnail 1680

そのEventBridgeルールを見てみましょう。 ここでは、特定のupload_event.txtファイルを検出するファイルアップロードイベントルールを作成しました。 このファイルは、特定のGatewayとShareから、私たちのShareをバックアップしている特定のバケットにアップロードされます。このイベントが一致すると、ターゲットとしてLambda関数が実行されます。 このLambda関数を簡単に見てみると、基本的にStorage Gateway APIにリクエストを送信して、Storage Gatewayのキャッシュがクリアされた時にイベントを作成するように要求します。このファイルセットアップロード機能はAPIを通じてのみリクエストでき、このイベントを作成したい場合は毎回リクエストする必要があります。そのため、これが私たちのワークフローの一部となっています。

Thumbnail 1700

Thumbnail 1710

Thumbnail 1720

アーキテクチャ図で、EventBridgeルールとLambda関数がStorage Gatewayサービスにリクエストを送信している様子が確認できます。これから何が起こるかを理解していただいたところで、Robocopyスクリプトを実行してファイルのコピーを開始しましょう。ここでS3バケットを見ると、すでに79個のオブジェクトが確認できます。小さなファイルはキャッシュを通じてS3に非常に速くアップロードされ、今では半ギガバイトある動画ファイルも表示され始めています。これらの大きなファイルは、バックアップされる間しばらくキャッシュに留まります。Windows側からは、すべてのファイルがEドライブにあるように見えますが、まだS3に完全にアップロードされていない状態です。すべてのファイルがS3に正常にアップロードされるまでワークフローを開始できないため、通知が必要になるのです。

Thumbnail 1760

Thumbnail 1770

Thumbnail 1790

Thumbnail 1800

upload_eventファイルがコピーされたところで、今度は別のEventBridgeルールが、特定のGatewayとShareからのキャッシュイベント、つまりWorking File Setイベントを監視しています。完全なアップロードが完了した時に使用する、非常に具体的なDetail Typeが設定されています。このルールのターゲットは、Step Functionsのステートマシンになります。それを見てみましょう。

Thumbnail 1820

Thumbnail 1830

Thumbnail 1840

この単純な関数を見てみましょう。これはS3バケット内のオブジェクトの並び替えを処理するLambda関数で、完了するとSNSに通知を送信します。この並び替えLambda関数を簡単に見てみましょう。拡張子を目的のプレフィックスにマッピングし、次回の実行のためにupload_event.txtファイルを削除します。その後、拡張子以外の並び替え条件を設定します。ここには2つのキーバリューペアがあります:ユーザーエージェント「aws-storage-gateway」と、イベントからStep Functionに渡されるStorage Gateway IDを含むユーザーエージェントIDです。

Thumbnail 1860

Thumbnail 1870

Thumbnail 1880

Thumbnail 1890

Thumbnail 1900

キャッシュのクリアを待っている間に、State Machineが起動します。リフレッシュしてみましょう。State Machineが実行中で、Step Functionが開始されます。はい、Lambdaが実行されています。S3バケットを確認すると、ファイルの仕分けが始まっているのが分かります。ファイル数が79から34に減りました。ファイルの仕分けが進んでいます。ここまでの進捗状況です。Working File Setを監視するEventBridgeルールを追加し、それがStep Functionを起動して、現在ファイルを仕分けるLambdaを実行しています。

Thumbnail 1910

Thumbnail 1930

Thumbnail 1940

もう一度リフレッシュしてみましょう。残りのファイルは12個になり、あとログファイルが数個残っています。これで完了です。アップロードしたPNGファイルについては、必要なメタデータがないため、仕分けの対象外となっていることが分かります。Storage Gatewayからアップロードされたファイルを見てみると、かなりの量のメタデータが付与されています。先ほど指摘した「aws-storage-gateway」というUser Agentと、Storage Gateway IDを含むUser Agent ID、これらがファイルを仕分ける基準となっています。

Thumbnail 1950

Thumbnail 1960

Thumbnail 1980

Eドライブに戻ってみましょう。ドライブをリフレッシュすると、すべてのファイルがまだそのままの状態で、何も仕分けられていません。すべての処理はS3側で行われたので、キャッシュをリフレッシュする必要があります。ここでは手動で実行しますが、共有フォルダーに移動してキャッシュをリフレッシュします。これはワークフローの一部として、最終ステップで自動的にキャッシュをリフレッシュするように設定することもできます。戻ってリフレッシュすると、すべてが同期されました。

Thumbnail 2000

仕分けを行うLambdaが完了し、通知が送信されました。Chimeグループに通知が届いているはずです。こちらが送信されたジョブ通知のチャットグループです。このStorage Gatewayのこのバケットで、この時間に仕分けが完了したという新しいメッセージが表示されています。ちなみに、ChatbotはChimeだけでなく、TeamsやSlack、その他のHTTPS対応サービスとも連携できます。これが最終的なアーキテクチャです:Eドライブにファイルをアップロードし、Storage Gatewayバケットに到達すると、ワークフローが開始され、最終的にファイルが仕分けられ、完了通知が送信されます。

Thumbnail 2060

Thumbnail 2070

Thumbnail 2090

Storage Gatewayの新しい活用方法として、AWS AI/MLやAnalyticsサービスを活用したデータ駆動型のイノベーションを目指すお客様が増えています。これらのAnalyticsサービスの多くは長年提供されてきましたが、SageMakerやAmazon Bedrock、Amazon Qなどの機械学習サービスは比較的新しいものです。私たちは常に新しいサービスを追加し、改善を重ねています。Amazon Athenaは非常に人気があり、可視化にはQuickSightが、先ほど言及したように、あるお客様はAmazon EMRを活用する予定だそうです。実際のところ、生成AIでビジネス価値を引き出しているわけです。AIは汎用的なものとして設計されており、それを特定のタスクに合わせて微調整することができます。

これにより、データとの新しい革新的で魅力的なインタラクション方法を生み出すことができます。既存のデータ、例えばオンプレミスにあるリポジトリを活用し、解析して価値を引き出すことができます。私個人としては、通話のメモなどを入力して、これまでは要約が困難だった長いPDFなどの非構造化データからチャットボットがインサイトを得られるようになります。組織全体で生産性の向上が見込め、さまざまなインサイトや明確な回答を提供できます。もちろん、ハルシネーション(幻覚)のような課題も考慮する必要があり、そこでFine-tuningが重要な役割を果たしますが、これらを実現するためのツールは全て揃っています。

Thumbnail 2180

新しいコンテンツ、アイデア、会話、画像、動画など、さまざまなクリエイティブなことができるようになります。非常に大きなリポジトリがあり、お客様固有のデータが差別化要因となります。 すでにAmazon S3でデータレイクを構築している場合は、その一歩先を行っています。これらのサービスを活用し、現在データが存在する同じS3バケットを指定するだけで、ビジネス目標により特化した成果が得られます。

Thumbnail 2200

Thumbnail 2230

先ほど説明したように、オンプレミス、NASファイル、オブジェクト環境など、 さまざまなデータソースからデータを取得する方法があります。 他のクラウドについても対応するツールを用意しています。re:Inventではマルチクラウドに関するセッションがあり、AWS DataSyncを使用して他のクラウドプロバイダーや外部のビジネスパートナー、事業部門との間でデータをやり取りする方法や、SFTPのためのAWS Transfer Familyの活用方法について説明します。

Thumbnail 2240

Thumbnail 2260

Thumbnail 2270

AWS Storage Gateway、AWS DataSync、AWS Transfer Familyは、AWSとの間でデータ移動を可能にする当社のエッジデータサービスの一部です。 そのデータがAWSに取り込まれると、AIなどの用途では主にAmazon S3とAmazon FSx for Lustreが活用されます。Amazon FSx for NetApp ONTAPも同様に一般的になってきています。 最も一般的なのはAmazon S3で、Amazon SageMaker、Amazon Bedrock、Amazon Qなど、私たちのネイティブサービスはすべて、 これらのデータソースと直接統合され、非常にシンプルに利用できます。そして、カスタムデータを使用してRetrieval Augmented Generation(RAG)、Fine-tuning、モデルの継続的な事前学習を行うことができます。

AWS Storage Gatewayの活用と関連セッションの紹介

Thumbnail 2290

最後に重要なポイントを手短にまとめましょう。オンプレミスで生成されたファイルは、Amazon S3 File GatewayのNFSまたはSMBファイル共有を使用してクラウドにアップロードでき、オンプレミスからS3にデータをアクセス・保存できます。通常、単一のゲートウェイで1日約20テラバイトのアップロードが可能です。もちろん、ネットワーク環境やゲートウェイに割り当てるリソース、ファイルサイズや数など、さまざまな要因によって変動します。

イベントドリブンのデータアーキテクチャを構築することで、プロセスを自動化し、結果を得るまでの時間を大幅に短縮することができます。ヘルスケアライフサイエンス業界では、できるだけ早く結果を得ることがビジネス価値となります。S3 File Gatewayを活用することで、可能な限り早くデータをS3に転送し、プロセスを開始して迅速に結果を得ることができます。結果を得るまでの時間を短縮し、さらにAnalyticsサービス、Compute、AI、MLサービスなど、クラウドに用意された強力なサービスを活用してビジネス価値を創出することができます。

Thumbnail 2370

Thumbnail 2390

AWS Storage Gatewayを使い始めることができます。 私がいつも言うように、当社の公開プロダクトページには価値のある情報が豊富に掲載されています。特に私たちのページには、多くのリンクやブログがあり、データベースバックアップ、アーカイブ、データワークフローという3つのユースケースが明確に説明されています。それぞれについて、ブログコンテンツで具体例も紹介されています。 さて、楽しい一週間の始まりです。この月曜の午後にご参加いただき、ありがとうございます。さらに詳しく知りたい方のために、いくつかのセッションをご用意しています。

マルチクラウドデータ移動のセッションについては、MGMでAWS DataSyncのセッションが行われます。先ほど言及したSTG318は、AWS DataSync、AWS Storage Gateway、AWS Transfer Familyを実際に使用する、エキサイティングなハンズオンセッションです。様々なソースからAmazon S3バケットにデータをインポートする方法をご案内します。このワークショップでは、旅行代理店のユースケースについて、Amazon Qを使用して洞察を得る方法もご紹介します。

STG350ではAWS DataSyncを使用したペタバイト規模の移行について説明し、STG204はDataSyncに焦点を当てた別のセッションです。そしてSTG352では、私と同じくAWS Storage GatewayとDataSyncのスペシャリストである同僚のSantos AIと一緒に、チョークトークのホワイトボードセッションを行います。これらのセッションは非常にインタラクティブで楽しいものなので、ぜひお勧めします。ホワイトボードを使用するため、様々な方向に議論を展開できます。DataSyncとStorage Gatewayを使用してできるだけ早くデータをクラウドに取り込み、AIやMLのイベントドリブンアーキテクチャを活用する方法について、スケールを意識しながら構築する方法を議論します。

Thumbnail 2490

AWSストレージの学習は、ラーニングプランやランプアップガイドを通じて継続することができます。皆様のご参加に感謝申し上げます。今年のre:Inventへようこそ。Ed、Laura、Cy Hopkins、Tuba Gosculとコネクトを取りたい方は、お気軽にどうぞ。また、この後も質問がある方のために会場に残っていますので、お声がけください。ご参加ありがとうございました。


※ こちらの記事は Amazon Bedrock を利用することで全て自動で作成しています。
※ 生成AI記事によるインターネット汚染の懸念を踏まえ、本記事ではセッション動画を情報量をほぼ変化させずに文字と画像に変換することで、できるだけオリジナルコンテンツそのものの価値を維持しつつ、多言語でのAccessibilityやGooglabilityを高められればと考えています。

Discussion