週刊AWSキャッチアップ(re:Invent 2024特別号 part 1 (2024/12/2週))
週刊AWSのメモです。
今週分は公式からも解説が出ており、こちらをご確認いただければと思います。
AWS Black Belt Online Seminar 2024 年 AWS re:Invent 速報 #AWSDevLiveShow #AWSBlackBelt - YouTube
AWS Black Belt Online Seminar 2024 年 AWS re:Invent 速報
週刊AWS – re:Invent 2024特別号 part 1 (2024/12/2週) | Amazon Web Services ブログ
業務の都合上一部記事がアップロードできていませんが、12/14までに完成版をアップロードします。
Introducing AWS Glue 5.0
- AWS Glue 5.0が提供開始されました
- re:inventで新しくリリースされたSageMaker Unified Studio/SageMaker Lakehouseへのサポート
- AWS公式ブログのポストによると、新機能は主に6つ。
- AWS Lake Formationを利用したテーブル、行、列レベルでのアクセス制御への対応
- Amazon S3 Access Grantsへの対応
- S3 Access Grantsとは、EntraIDなどのIdPを利用してS3のデータに対するアクセス管理を行える機能
- DataZoneでのデータリネージ機能のサポート
- フレームワークのアップデート
- Spark 3.5.2、Python 3.11、Scala 2.12.18、Java 17に対応
- 対応するOpen Table Formats (OTF)のアップデート
- Hudi 0.15.0、Iceberg 1.6.1、Delta Lake 3.2.1に対応
- requirements.txtでのpythonの追加ライブラリインストールに対応
- Introducing AWS Glue 5.0 for Apache Spark | AWS Big Data Blog
- AWS GlueはサーバーレスのETL(抽出、変換、ロード)を行うサービス
関連ブログ
Introducing AWS Glue 5.0 for Apache Spark | AWS Big Data Blog
Use open table format libraries on AWS Glue 5.0 for Apache Spark | AWS Big Data Blog
Enforce fine-grained access control on data lake tables using AWS Glue 5.0 integrated with AWS Lake Formation | AWS Big Data Blog
AWS Glue Data catalog now automates generating statistics for new tables
- AWS Glue Data Catalogにてテーブルに対する統計情報が自動生成できるようになりました
- 元々Data Catalogの機能としてGlueテーブルの統計情報を生成、クエリパフォーマンス/コスト削減に役立てられる機能がリリースされていました (2023年頃)
- 以前はテーブルの統計を継続的に利用するにあたって、テーブル設定を継続的に監視及び更新する必要がありました
- 今回のアップデートでLake Formation コンソールでテーブル統計情報を有効にし、AWS Glue Data Catalog のカタログ設定を行うと、新しいテーブルの統計情報が自動で生成されるようになっています
- 新しいテーブルが作成されたり、既存のテーブルが更新されると、すべての列の行のサンプルを使って統計情報が生成され、定期的に更新されます
関連ブログ
Introducing AWS Glue Data Catalog automation for table statistics collection for improved query performance on Amazon Redshift and Amazon Athena | AWS Big Data Blog
Enhance query performance using AWS Glue Data Catalog column-level statistics | AWS Big Data Blog
Accelerate query performance with Apache Iceberg statistics on the AWS Glue Data Catalog | AWS Big Data Blog
Amazon OpenSearch Service zero-ETL integration with Amazon Security Lake
- OpenSearch ServiceとSecurity Lakeのzero-ETL統合をサポートしました
- 今回のアップデートでOpenSearch Serviceからセキュリティデータを直接クエリできるようになりました
- AWSの公式ブログ曰く、下記の利点があると記載されています(真偽は上手く確認できず)
- Security Lakeのログを直接クエリ/分析することで、データ重複を最小限に抑えデータの移動コストが削減できる
- カスタムデータパイプラインの管理に必要な運用コストを削減できる
- Amazon OpenSearch Service でインデックス付きビューやダッシュボードなどを有効化させることでオプションでクエリパフォーマンスを改善できる
関連ブログ
セキュリティ分析を簡素化するための Amazon OpenSearch Service と Amazon Security Lake の統合のご紹介 | Amazon Web Services ブログ
Amazon OpenSearch ServiceとAmazon Security LakeがゼロETL統合したので使ってみた - サーバーワークスエンジニアブログ
AWS Clean Rooms now supports multiple clouds and data sources
- AWS Clean Roomsの新しいソースとしてSnowflakeとAmazon Athenaのサポートを発表しました
- ソースデータを公開することなく、Snowflakeに保存されているデータセットやAthenaに保存されているデータセットを連携できるようになります
- AWS Clean RoomsはAWSアカウント間でデータを安全に共有する仕組み(データクリーンルーム)を構築するサービスです
関連ブログ
AWS Clean Rooms が複数のクラウドとデータソースをサポートするようになりました | Amazon Web Services ブログ
Amazon SageMaker Lakehouse and Amazon Redshift support for zero-ETL integrations from eight applications
- Amazon SageMaker LakehouseとAmazon Redshiftにて、Salesforce、SAP、ServiceNow、Zendeskなどの8つのアプリケーションからのzero-ETL統合をサポートしました
- zero-ETL統合によりカスタマー側でETLパイプラインを作ることなくデータの抽出ができるようになります
- SageMaker Lakehouseは次世代SageMakerの機能の一部で、S3/RedShiftのデータレイク全体を統合し、Apache IcebergのAPIを使用してデータに横断的にアクセスできる機能です
関連ブログ
新しい Amazon SageMaker Lakehouse で分析と AI/ML を簡素化 | Amazon Web Services ブログ
Amazon SageMaker Lakehouse と Amazon Redshift はアプリケーションからのゼロ ETL 統合をサポート | Amazon Web Services ブログ
Announcing Amazon Elastic VMware Service (Preview)
- Amazon Elastic VMware Service (Amazon EVS) のプレビューを発表しました
- Amazon EVSはAWS上で提供されるセルフマネージドでVMware Cloud Foundation(VCF)がデプロイできるサービスです
- VMware Cloud on AWSとの違いは、顧客(エンドユーザーorパートナー)が自ら管理者権限を取得し、操作する点が違います
- 現地でセッションとChalkTalkの両方に参加していたのですが、Chalktalkの質問であらかた疑問点が解消されていた印象があります
- Amazon EVSはAWS上で提供されるセルフマネージドでVMware Cloud Foundation(VCF)がデプロイできるサービスです
関連ブログ
[小ネタ] Amazon Elastic VMware Serviceのサービスページが公開されていたのでプレビューに申し込んでみた #AWSreInvent | DevelopersIO
[レポート] Amazon Elastic VMware ServiceにDeep Diveしてきました #MAM237 #AWSreInvent | DevelopersIO
ついに登場!Amazon Elastic VMware Service(プレビュー)【概要編】 #AWS - Qiita
Announcing Amazon EC2 I8g instances
- Amazon Elastic Compute Cloud (Amazon EC2) のストレージ最適化インスタンスI8g の一般提供が開始されました
- 第3世代のAWS Nitro SSDを使用する初のインスタンスタイプ
- 最大22.5TBのローカルNVME SSDストレージを提供
- TBあたりのリアルタイムストレージパフォーマンスが最大65%向上、レイテンシーの変動が60%低下
- Graviton4 プロセッサをベース
- I4g と比較して最大60%優れたコンピューティングパフォーマンスと2倍のキャッシュを提供
- 第3世代のAWS Nitro SSDを使用する初のインスタンスタイプ
関連ブログ
Amazon EC2 introduces Allowed AMIs to enhance AMI governance
- AWS アカウント内における Amazon Machine Image (AMI) の検出と使用を制御する「Allowed AMIs」設定が追加されました
- JSON形式で許可するAMIの基準を決めることで、その範囲内でのAMIのみに利用をとどめることができます
- 上記基準から外れてしまった時のアクションとして、Enable/Audit-modeの2つがあります。前者では許可されていないAMIによるインスタンス起動を制限し、後者では制限はないものの検出はできるようになっています
- ドキュメントにはベストプラクティスとして導入の流れが記載されています
- Enable audit mode
- Set Allowed AMIs criteria
- Check for impact on expected business processes
- Enable Allowed AMIs
- Monitor instance launches
関連ブログ
Control the discovery and use of AMIs in Amazon EC2 with Allowed AMIs - Amazon Elastic Compute Cloud
[アップデート] Amazon EC2 で AMI ガバナンスを強化するために 許可された AMI が導入されました #AWSreInvent | DevelopersIO
Announcing Amazon EKS Auto Mode
関連ブログ
新しい Amazon EKS Auto Mode で Kubernetes クラスター管理を効率化 | Amazon Web Services ブログ
Discussion