AWS Summit 2025

 Amazon S3 によるデータレイク構築と最適化https://summitjapan.awslivestream.com/aws-04/live/
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-04_Storage_AWS-Summit-JP-2025.pdf
汎用バケットのスケーリングの仕組み
Prefix毎にリクエストがスケール
3,500(PUT/COPY/POST/DELETE)
5,500(GET/HEAD)

トラフィックが新しいPrefixに移動すると内部的なスケールを開始する。スケーリングが実行されている間は、アプリケーションがエラーレスポンスを受ける可能性がある。
YYYY/MM/DD/hh などで分けると00分にスケールが発生する。

ランダム性を持った値を上位に持ってくることで、S3は常に複数のPrefixにリクエストが分散されるので、スケールによるエラーの影響を減らすことができる。
session-id/YYYY/MM/DD/hh


クエリの最適化
Iceberg（オープンテーブルフォーマット）を使用することで、ユーザー側がクエリを作成する際にパーティションを指定しなくても、自動でパーティションを考慮したアクセスが実行される
オープンテーブルフォーマットは、データモデルに新しい層を追加する。既存のデータ層を置き換えるものではなく、CSVやParquetの上のレイヤーで動く
データの効率的なアクセスの手助けを行う


Icebergをフルマネージドで管理するS3がS3Tables
表形式に特化した設計



 アクション
 S3 Tablesを試す

dehio3

 クラウドストレージのコスト最適化戦略 - AWS ストレージの賢い活用法https://summitjapan.awslivestream.com/aws-05/live/

https://pages.awscloud.com/rs/112-TZM-766/images/AWS-05_Storage_AWS-Summit-JP-2025.pdf
S3オブジェクトの移行コストはオブジェクト数に依存する。オブジェクト数に応じて、ストレージクラス移行にともなうコストを回収する期間は変わる
S3Lensを活用する
アクセス頻度を分析し、自分でライフサイクルを作成することも検討する

dehio3

 AI アプリケーションのためのデータエンジニアリング戦略 - Amazon Bedrock で実現する構造化データ活用https://summitjapan.awslivestream.com/aws-46/live/
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-46_AI_AWS-Summit-JP-2025.pdf
テーブルデータなどの構造化データへのアクセスには、セマンティック検索以上の情報が必要
自然言語からSQLへの変換（NL2SQL; Natural Language to SQL）は構造化データのためのRAG
NL2SQLがうまく動くには
スキーマ構造を与える必要がある。
データの中身を知る必要がある。
SQLの文法を理解する必要がある。

構造化データを取得する機能が「Amazon Bedrock Knowledge Bases」
あらかじめ構造化データに関するメタデータを保持


クエリ設定オプションでSQL改善のための独自のルールを追加可能


 アクション
 Amazon Bedrock Knowledge Basesで、S3 Exportした構造化データへのアクセスを試す

dehio3

 生成 AI のためのデータ活用実践ガイドhttps://summitjapan.awslivestream.com/aws-08/live/
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-08_AI_AWS-Summit-JP-2025.pdf
拡張プロンプトに含める情報
システムプロンプト
プロンプトテンプレートリポジトリ

状況コンテキスト
AmazonAurora

セマンティックコンテキスト
OpenSearch Serverless


RAGの手法
Naiive RAG
Advanced RAG
Mudular RAG