Open5

AWS Summit 2025

dehio3dehio3

Amazon S3 によるデータレイク構築と最適化

https://summitjapan.awslivestream.com/aws-04/live/

https://pages.awscloud.com/rs/112-TZM-766/images/AWS-04_Storage_AWS-Summit-JP-2025.pdf

  • 汎用バケットのスケーリングの仕組み
    • Prefix毎にリクエストがスケール
      • 3,500(PUT/COPY/POST/DELETE)
      • 5,500(GET/HEAD)
    • トラフィックが新しいPrefixに移動すると内部的なスケールを開始する。スケーリングが実行されている間は、アプリケーションがエラーレスポンスを受ける可能性がある。
      • YYYY/MM/DD/hh などで分けると00分にスケールが発生する。
    • ランダム性を持った値を上位に持ってくることで、S3は常に複数のPrefixにリクエストが分散されるので、スケールによるエラーの影響を減らすことができる。
      • session-id/YYYY/MM/DD/hh
  • クエリの最適化
    • Iceberg(オープンテーブルフォーマット)を使用することで、ユーザー側がクエリを作成する際にパーティションを指定しなくても、自動でパーティションを考慮したアクセスが実行される
    • オープンテーブルフォーマットは、データモデルに新しい層を追加する。既存のデータ層を置き換えるものではなく、CSVやParquetの上のレイヤーで動く
    • データの効率的なアクセスの手助けを行う
    • Icebergをフルマネージドで管理するS3がS3Tables
      • 表形式に特化した設計

アクション

  • S3 Tablesを試す
dehio3dehio3

クラウドストレージのコスト最適化戦略 - AWS ストレージの賢い活用法

https://summitjapan.awslivestream.com/aws-05/live/
https://pages.awscloud.com/rs/112-TZM-766/images/AWS-05_Storage_AWS-Summit-JP-2025.pdf

  • S3オブジェクトの移行コストはオブジェクト数に依存する。オブジェクト数に応じて、ストレージクラス移行にともなうコストを回収する期間は変わる
  • S3Lensを活用する
    • アクセス頻度を分析し、自分でライフサイクルを作成することも検討する
dehio3dehio3

AI アプリケーションのためのデータエンジニアリング戦略 - Amazon Bedrock で実現する構造化データ活用

https://summitjapan.awslivestream.com/aws-46/live/

https://pages.awscloud.com/rs/112-TZM-766/images/AWS-46_AI_AWS-Summit-JP-2025.pdf

  • テーブルデータなどの構造化データへのアクセスには、セマンティック検索以上の情報が必要
  • 自然言語からSQLへの変換(NL2SQL; Natural Language to SQL)は構造化データのためのRAG
  • NL2SQLがうまく動くには
    • スキーマ構造を与える必要がある。
    • データの中身を知る必要がある。
    • SQLの文法を理解する必要がある。
  • 構造化データを取得する機能が「Amazon Bedrock Knowledge Bases」
    • あらかじめ構造化データに関するメタデータを保持
    • クエリ設定オプションでSQL改善のための独自のルールを追加可能

アクション

  • Amazon Bedrock Knowledge Basesで、S3 Exportした構造化データへのアクセスを試す