📝

AWS DEA 勉強メモ

2025/01/24に公開

2025.02.10 合格

AWS Certified Data Engineer - Associate 認定 | AWS 認定
DEA を受験予定なので勉強メモを残していきます。
自分自身の振り返り用ですがどなたかの参考になれば幸いです。

SQS の maxReceiveCount

Using dead-letter queues in Amazon SQS - Amazon Simple Queue Service

The maxReceiveCount is the number of times a consumer can receive a message from a source queue before it is moved to a dead-letter queue.

SQS の PurgeQueue

PurgeQueue - Amazon Simple Queue Service

Deletes available messages in a queue (including in-flight messages) specified by the QueueURL parameter.

SQS の SetQueueAttributes

SetQueueAttributes - Amazon Simple Queue Service

Sets the value of one or more queue attributes, like a policy.

Lambda の IteratorAge メトリクス

Lambda 関数のメトリクスのタイプ - AWS Lambda

IteratorAge — DynamoDB、Kinesis、および Amazon DocumentDB イベントソースにおける、イベントの最後のレコードの経過時間 (ミリ秒単位)。このメトリクスは、ストリームがレコードを受信してから、イベント ソース マッピングがイベントを関数に送信するまでの時間を測定します。

Kinesis Data Streams のシャード数と Lambda の関係

AWS Lambda は Kinesis および DynamoDB イベントソースの並列化係数をサポートします

デフォルトでは、Lambda は一度に 1 つのシャードからデータレコードの 1 つのバッチで関数を呼び出します。単一のイベントソースマッピングの場合、同時 Lambda 呼び出しの最大数は、Kinesis または DynamoDB シャードの数に等しくなります。

Lambda の 並列化係数

AWS Lambda は Kinesis および DynamoDB イベントソースの並列化係数をサポートします

これで、Lambda が 1 (デフォルト) から 10 までの並列化係数を介してシャードからポーリングする同時バッチの数を指定できます。たとえば、並列化係数を 2 に設定すると、100 件の Kinesis データシャードを処理するために最大 200 件の Lambda の同時呼び出しを行うことができます。これは、データ量が揮発性で IteratorAge が高い場合に処理スループットを拡大するのに役立ちます。

Kinesis Data Streams のオンデマンドモード

Choose the data stream capacity mode - Amazon Kinesis Data Streams

Data streams in the on-demand mode require no capacity planning and automatically scale to handle gigabytes of write and read throughput per minute.

Kinesis Data Streams のプロビジョニングモード

Choose the data stream capacity mode - Amazon Kinesis Data Streams

The provisioned mode is suited for predictable traffic with capacity requirements that are easy to forecast. You can use the provisioned mode if you want fine-grained control over how data is distributed across shards.

Kinesis Data Streams の拡張ファンアウト

Develop enhanced fan-out consumers with the AWS SDK for Java - Amazon Kinesis Data Streams

Enhanced fan-out is an Amazon Kinesis Data Streams feature that enables consumers to receive records from a data stream with dedicated throughput of up to 2 MB of data per second per shard.

EKS のストレージ

Storage - Amazon EKS

AWS Controllers for Kubernetes (ACK)

Overview - ACK

AWS Controllers for Kubernetes (ACK) lets you define and use AWS service resources directly from Kubernetes.

Glue Data Catalog でのアクセス制御

AWS Glue Data Catalog のデータベースとテーブルへのアクセスを構成する - Amazon Athena

Amazon Athena で AWS Glue Data Catalog を使用している場合は、Athena で使用されるデータベースとテーブルの Data Catalog オブジェクトのリソースレベルのポリシーを定義できます。

EMR での RDS の使用

Using an external MySQL database or Amazon Aurora - Amazon EMR

To use an external MySQL database or Amazon Aurora as your Hive metastore, you override the default configuration values for the metastore in Hive to specify the external database location, either on an Amazon RDS MySQL instance or an Amazon Aurora PostgreSQLinstance.

Lake Formation でのアクセス制御

Data filtering and cell-level security in Lake Formation - AWS Lake Formation

Lake Formation uses data filtering to achieve column-level security, row-level security, and cell-level security.

Redshift でのデータ共有

Data sharing in Amazon Redshift - Amazon Redshift

With Amazon Redshift, you can securely share data across Amazon Redshift clusters or with other AWS services. Data sharing lets you share live data, without having to create a copy or move it.

Redshift Serverless の料金

料金 - Amazon Redshift | AWS

お支払いいただくのは、データウェアハウスがアクティブなときに消費したコンピューティングキャパシティに対してのみです。

S3 ストレージクラス

ストレージクラス - Amazon S3 |AWS

  • S3 Intelligent-Tiering
    • アクセスパターンが不明または変化するデータに対して自動的にコストを削減
  • S3 Standard
    • アクセス頻度の高いデータ向け
  • S3 Express One Zone
    • 最もアクセス頻度の高いデータ向け
  • S3 Standard-Infrequent Access, S3 One Zone-Infrequent Access
    • アクセス頻度の低いデータ向け
  • S3 Glacier Instant Retrieval
    • 即時アクセスを必要とするアーカイブデータ向け
  • S3 Glacier Flexible Retrieval
    • 即時アクセスを必要としないアクセス頻度の低い長期データ用
  • S3 Glacier Deep Archive
    • 最も低コストなストレージで数時間で取り出し可能な長期アーカイブやデジタル保存用

Athena は Glacier にクエリ可能

復元された Amazon S3 Glacier オブジェクトをクエリする - Amazon Athena

Athena を使用して、S3 Glacier Flexible Retrieval (以前の Glacier) および S3 Glacier Deep Archive Amazon S3 ストレージクラスから復元されたオブジェクトをクエリできます。

Redshift は Glacier にクエリ不可能

Supported S3 Storage Classes for Redshift Spectrum | AWS re:Post

You can use the Amazon S3 Glacier Instant Retrieval storage class, which is queryable by Amazon Athena but not Amazon Redshift.

Glue の DPU

DPU の容量計画のモニタリング - AWS Glue

AWS Glue でジョブメトリクスを使用すると、AWS Glue ジョブをスケールアウトするために使用できるデータ処理単位 (DPU) の数を予測できます。

Kinesis Data Streams の ProvisionedThroughputExceededException

Amazon Kinesis Data Streamsのスループットエラーのトラブルシューティング | AWS re:Post

ReadProvisionedThroughputExceeded エラーは、Kinesis データストリームが一定期間にわたって GetRecords 呼び出しを制限した場合に発生します。

Glue DataBrew での PII 処理

Identifying and handling personally identifiable information (PII) - AWS Glue DataBrew

DataBrew provides data masking mechanisms to obfuscate PII data during data preparation process.

IAM データベース認証が可能な DB エンジン

IAM database authentication for MariaDB, MySQL, and PostgreSQL - Amazon Relational Database Service

IAM database authentication works with MariaDB, MySQL, and PostgreSQL.

Redshift のマテリアライズドビュー

Amazon Redshift でのマテリアライズドビュー - Amazon Redshift

マテリアライズドビューは、予期可能で繰り返し実行されるクエリの速度を上げるために特に役立ちます。

マテリアライズドビューの更新

Amazon Redshift でのマテリアライズドビュー - Amazon Redshift

マテリアライズドビューのデータを更新するには、REFRESH MATERIALIZED VIEW ステートメントを使用して、マテリアライズドビューを手動で更新できます。

SageMaker ML Lineage Tracking

Amazon SageMaker ML Lineage Tracking - Amazon SageMaker AI

Amazon SageMaker ML Lineage Tracking creates and stores information about the steps of a machine learning (ML) workflow from data preparation to model deployment. With the tracking information, you can reproduce the workflow steps, track model and dataset lineage, and establish model governance and audit standards.

Data Firehose でのデータ変換

Transform source data in Amazon Data Firehose - Amazon Data Firehose

Amazon Data Firehose can invoke your Lambda function to transform incoming source data and deliver the transformed data to destinations. You can enable Amazon Data Firehose data transformation when you create your Firehose stream.

Glue で非サポートのデータソースからのデータ抽出

Extract multidimensional data from Microsoft SQL Server Analysis Services using AWS Glue | AWS Big Data Blog

In this post, we demonstrated how to extract multidimensional data from an OLAP cube running on SQL Server Analysis Services. The architecture presented relies on the SQL Server OPENQUERY capability to create SQL views that in turn run MDX queries on the OLAP cube. Finally, we reviewed how to use AWS Glue to catalog the source SQL view, extract the multidimensional data as a flat table, and store it in Amazon S3.

S3 イベント通知は SQS FIFO キュー非サポート

Amazon S3 Event Notifications - Amazon Simple Storage Service

Amazon Simple Queue Service FIFO (First-In-First-Out) queues aren't supported as an Amazon S3 event notification destination.

DynamoDB の条件付き書き込み

DynamoDB での項目と属性の操作 - Amazon DynamoDB

デフォルトでは、DynamoDB 書き込みオペレーション (PutItem、UpdateItem、DeleteItem) は無条件です。つまり、これらの各オペレーションでは、指定されたプライマリキーを持つ既存の項目が上書きされます。
DynamoDB はオプションでこれらのオペレーションの条件付き書き込みをサポートしています。

Athena は ZIP ファイル非サポート

Athena で圧縮を使用する - Amazon Athena

ZIP ファイル形式はサポートされていません。

S3 ストレージクラス分析の範囲

Amazon S3 分析 – ストレージクラス分析 - Amazon Simple Storage Service

ストレージクラス分析では、標準~標準 IA クラスのレコメンデーションのみが提供されます。

MSCK REPAIR TABLE

MSCK REPAIR TABLE - Amazon Athena

Hive 互換パーティションを追加した後でカタログ内のメタデータを更新するには、MSCK REPAIR TABLE コマンドを使用します。

Apache Hive スタイルのパーティション

データのパーティション化 - Amazon Athena

Athena では Apache Hive スタイルのパーティションを使用できます。このパーティションのデータパスには、等号で連結されたキーと値のペア (例えば country=us/... または year=2021/month=01/day=26/...) が含まれています。

Athena のクロスリージョンクエリ

Query across regions - Amazon Athena

Athena supports the ability to query Amazon S3 data in an AWS Region that is different from the Region in which you are using Athena.

Redshift query editor v2 でのスケジュールクエリ

Creating a query schedule with query editor v2 - Amazon Redshift

You can create a schedule to run a SQL statement with Amazon Redshift query editor v2.

Redshift WLM

Workload management - Amazon Redshift

With Amazon Redshift, you can manage and prioritize concurrent queries and user workloads to optimize performance and resource utilization. Workload management (WLM) allows you to define queues, user groups, and other constructs to control the resources allocated to different types of queries or users.

Redshift 同時実行スケーリング

Concurrency scaling - Amazon Redshift

You can manage which queries are sent to the concurrency-scaling cluster by configuring WLM queues.

Snowball から S3 Glacier へのデータ移動

Uploading an Archive in Amazon S3 Glacier - Amazon S3 Glacier

To upload existing data to Amazon S3 Glacier (S3 Glacier), you might consider using one of the AWS Snowball device types to import data into Amazon S3, and then move it to the S3 Glacier storage class for archival using lifecycle rules.

Data Exchange

What is AWS Data Exchange? - AWS Data Exchange User Guide

AWS Data Exchange is a service that helps AWS customers easily share and manage data entitlements from other organizations at scale.

Kinesis Data Streams でのレコード重複

Handle duplicate records - Amazon Kinesis Data Streams

There are two primary reasons why records may be delivered more than one time to your Amazon Kinesis Data Streams application: producer retries and consumer retries.

SSE-S3 はメタデータを暗号化しない

Amazon S3 マネージドキーによるサーバー側の暗号化 (SSE-S3) - Amazon Simple Storage Service

サーバー側の暗号化では、オブジェクトのメタデータではなく、オブジェクトデータのみが暗号化されます。

Athena のワークグループ

ワークグループを使用してクエリのアクセスとコストを制御する - Amazon Athena

Athena ワークグループを使用して、ワークロードの分離、チームアクセスの制御、設定の強制、クエリメトリクスの追跡、コストの制御を行えます。

EMR の YARNMemoryAvailablePercentage

Monitoring Amazon EMR metrics with CloudWatch - Amazon EMR

The percentage of remaining memory available to YARN

DynamoDB のパーティショニング数の計算

Presentation Title Here
以下のうち大きい方が採用される。

  • スループットベース
    • RCU for reads/3000 RCU + WCU for writes/1000 WCU
  • ストレージ容量ベース
    • Table Size in GB/10 GB

S3 で有効なライフサイクル移行

Amazon S3 ライフサイクルを使用したオブジェクトの移行 - Amazon Simple Storage Service

EFS のストレージライフサイクル

EFS ファイルシステムのストレージライフサイクルの管理 - Amazon Elastic File System]

ライフサイクルポリシーは、EFS 低頻度アクセス (IA) ストレージクラスや EFS アーカイブストレージクラスとの間でファイルを移行するタイミングをライフサイクル管理に指示します。

Athena のフェデレーティッドクエリ

Amazon Athena フェデレーティッドクエリを使用する - Amazon Athena

Amazon S3 以外のソースにデータがある場合は、Athena のフェデレーティッドクエリを使用してインプレースでデータをクエリしたり、複数のデータソースからデータを抽出して Amazon S3 に保存するパイプラインを構築したりすることができます。

EMR の HDFS に S3 を使用することはできない

HDFS の代わりに Amazon S3 を使用するように Amazon EMR を設定する | AWS re:Post

Hadoop ストレージレイヤーに HDFS の代わりに Amazon S3 を使用するように Amazon EMR を設定することはできません。

Data Firehose への追加のソース設定

Configure source settings for Amazon Kinesis Data Streams - Amazon Data Firehose

When you configure a Kinesis data stream as the source of a Firehose stream, the Amazon Data Firehose PutRecord and PutRecordBatch operations are disabled. To add data to your Firehose stream in this case, use the Kinesis Data Streams PutRecord and PutRecords operations.

DynamoDB の GSI によるテーブルへの書き込みの調整

DynamoDB のグローバルセカンダリインデックスの使用 - Amazon DynamoDB

テーブルへの書き込みに成功するように、テーブルとそのすべてのグローバルセカンダリインデックスに対するプロビジョニングされたスループット設定は、書き込みに対応できるだけの十分な書き込みキャパシティーを備えている必要があります。十分でない場合、書き込みが調整されます。

Glue がスキーマを類似とみなす条件

AWS Glue クローラーがスキーマを検出する方法を知る | AWS re:Post

  • パーティションのしきい値が 0.7 (70%) よりも高くなっている。
  • 異なるスキーマ (このコンテキストでは「クラスター」とも呼ばれます) の最大数は 5 を超えません。

Glue DataBrew の NEST_TO_ARRAY

NEST_TO_ARRAY - AWS Glue DataBrew

Converts user-selected columns into array values.

S3 Intelligent-Tiering のアーカイブインスタントアクセス階層

S3 Intelligent-Tiering の仕組み - Amazon Simple Storage Service

オブジェクトが 90 日間連続してアクセスされない場合、オブジェクトはアーカイブインスタントアクセス階層に移行します。アーカイブインスタントアクセス階層は、低レイテンシーと高スループットのパフォーマンスを提供します。

Snowball Edge のクラスタリング

Using Amazon S3 compatible storage on Snowball Edge with a cluster of Snow devices - AWS Snowball Edge Developer Guide

A cluster is a collection of three or more Snowball Edge devices used as a single logical unit for local storage and compute purposes.

Kinesis データストリームからのデータの読み取りと処理

よくある質問 - Aamzon Kinesis Data Streams | AWS

複数のコンシューマーは、他のコンシューマーと読み取りスループットについて競合することなく、同じストリームからデータを並行して読み取ることができます。

DMS でのアカウント/リージョン間移行でのレプリケーションインスタンス

Migrate an Amazon RDS for Oracle database to another AWS account and AWS Region using AWS DMS for ongoing replication - AWS Prescriptive Guidance

Create a replication instance in the VPC of the target AWS Region.

DMS による RDS for SQL Server から S3 へのデータ移行

Export Amazon RDS for SQL Server tables to an S3 bucket by using AWS DMS - AWS Prescriptive Guidance

Amazon Relational Database Service (Amazon RDS) for SQL Server doesn’t support loading data onto other DB engine linked servers on the Amazon Web Services (AWS) Cloud. Instead, you can use AWS Database Migration Service (AWS DMS) to export Amazon RDS for SQL Server tables to an Amazon Simple Storage Service (Amazon S3) bucket, where the data is available to other DB engines.

Redshift の暗号化されたスナップショットのリージョン間コピー

Amazon Redshift データベース暗号化 - Amazon Redshift

別の AWS リージョンへの Amazon Redshift スナップショットのコピーを有効にし、ソースクラスターとそのスナップショットが AWS KMS からのルートキーを使用して暗号化される場合、Amazon Redshift がターゲットの AWS リージョンで ルートキーを使用するように、権限を設定する必要があります。

Athena のクエリ結果再利用

Athena でクエリ結果を再利用する - Amazon Athena

Athena でクエリを再実行する場合、オプションで最後に保存されたクエリ結果を再利用することを選択できます。

Kinesis Data Firehose でファイル分割される原因

Amazon Kinesis が多過ぎる S3 ファイルを生成する場合のトラブルシューティング | AWS re:Post

  • 圧縮が有効になっている
  • Kinesis Data Firehose 配信ストリームがスケールしている。
  • Amazon Kinesis Data Streams がデータソースとしてリストされている。

Redshift の列レベルのアクセスコントロール

Amazon Redshift のための列レベルのアクセスコントロールの発表

Amazon Redshift が Redshift 内のデータに対する列レベルでのアクセスコントロールをサポートするようになりました。お客様は、列レベルの GRANT および REVOKE ステートメントを使用して、セキュリティおよびコンプライアンス面でのニーズを満たすために役立てることができます。

Glue Studio での PII 処理

機密データを検出して処理する - AWS Glue

Detect PII transform は、定義したエンティティ、または AWS によって事前定義されたエンティティを検出、マスク、削除する機能を提供します。

QuickSight Enterprise editions での暗号化

Different editions of Amazon QuickSight - Amazon QuickSight

Enterprise edition additionally offers encryption at rest and Microsoft Active Directory integration.

Athena の CTAS クエリ

クエリ結果からテーブルを作成する (CTAS) - Amazon Athena

CREATE TABLE AS SELECT (CTAS) クエリは、別のクエリからの SELECT ステートメントの結果から、Athena で新しいテーブルを作成します。

Athena でのパーティション化

パーティション化とは - Amazon Athena

パーティションキーに適しているのは、クエリで常にまたは頻繁に使用され、カーディナリティが低いプロパティです。

Athena でのバケット化

バケット化とは - Amazon Athena

データバケットでは、プロパティと同じ値を含むレコードが同じバケットに入ります。レコードはバケット間で可能な限り均等に分散されるため、各バケットにはほぼ同じ量のデータが含まれます。

SQL で大文字小文字を区別しない正規表現

パターンマッチ

~* 正規表現に一致、大文字小文字の区別なし 'thomas' ~* '.Thomas.'

EMRFS

EMR File System (EMRFS) - Amazon EMR

The EMR File System (EMRFS) is an implementation of HDFS that all Amazon EMR clusters use for reading and writing regular files from Amazon EMR directly to Amazon S3. EMRFS provides the convenience of storing persistent data in Amazon S3 for use with Hadoop while also providing features like data encryption.

HDFS

Working with storage and file systems with Amazon EMR - Amazon EMR

HDFS is used by the master and core nodes. One advantage is that it's fast; a disadvantage is that it's ephemeral storage which is reclaimed when the cluster ends. It's best used for caching the results produced by intermediate job-flow steps.

EMR クラスターは単一 AZ に存在する

Availability Zone flexibility for an Amazon EMR cluster - Amazon EMR

We recommend that you configure all Availability Zones for use in your virtual private cloud (VPC) and that you select them for your EMR cluster. Clusters must exist in only one Availability Zone, but with Amazon EMR instance fleets, you can select multiple subnets for different Availability Zones.

オブジェクトサイズが 100 MB 以上ならマルチパートアップロード

マルチパートアップロードを使用したオブジェクトのアップロードとコピー - Amazon Simple Storage Service

通常、オブジェクトサイズが 100 MB 以上の場合は、単一のオペレーションでオブジェクトをアップロードする代わりに、マルチパートアップロードを使用することを考慮してください。

S3 Glacier Deep Archive

安全なアーカイブストレージ – Amazon S3 Glacier ストレージクラス – AWS

S3 Glacier Deep Archive は S3 Glacier Flexible Retrieval よりも最大 75% 安価で、標準取り出し階層で 12 時間以内にデータを取り出します。S3 バッチオペレーションを使用して標準取り出しを開始した場合、通常 9 時間以内に開始されます。また、48 時間以内にデータを取り出す大容量取り出しを選択することでも取り出しコストを削減できます。

Glue ジョブのブックマーク

ジョブのブックマークを使用した処理済みデータの追跡 - AWS Glue

AWS Glue ではジョブの実行による状態情報を保持することで、ETL ジョブの以前の実行中にすでに処理されたデータを追跡します。

Glue ジョブのブックマークでのデータ再処理の原因

ジョブブックマークが有効なときに、AWS Glue がデータを再処理する場合のトラブルシューティング | AWS re:Post

  • ジョブブックマークが有効な同時実行ジョブが複数あり、最大同時実行数が 1 に設定されていない。
  • job.init () オブジェクトが欠けているか、AWS Glue ETL スクリプトの開始時に呼び出されていない。
  • job.commit () オブジェクトが欠けているか、スクリプトの最後で呼び出されていない。
  • transformation_ctx パラメータが欠けているか、各 ETL オペレータインスタンスで一意ではない。
  • テーブルのプライマリキーが順番になっていない (JDBC 接続のみ)。
  • ソースデータが、最後のジョブ実行後に変更されている。
  • ジョブは Spark DataFrame を使用しているが、AWS Glue ジョブのブックマーク機能が Spark DataFrame ではサポートされていない。

KMS SSE-C

お客様が指定したキーによるサーバー側の暗号化 (SSE−C) の使用 - Amazon Simple Storage Service

お客様が用意したキーでのサーバー側の暗号化 (SSE−C) を使用すると、独自の暗号化キーを使用して暗号化されたデータを保存できます。

DynamoDB オンデマンドキャパシティモード

DynamoDB オンデマンドキャパシティモード - Amazon DynamoDB

Amazon DynamoDB オンデマンドは、キャパシティプランニングを行わずに、最も要求の厳しいワークロードに合わせて自動的にスケールする、真のサーバーレスデータベースエクスペリエンスを提供します。

EXPLAIN ANALYZE

Athena での EXPLAIN および EXPLAIN ANALYZE の使用 - Amazon Athena

EXPLAIN ANALYZE では、CPU 使用率、入力された行数、出力された行数など、指定したクエリの実行時に関する統計情報も出力します。

MSK の最大レコードサイズ

Amazon MSK quota - Amazon Managed Streaming for Apache Kafka

MSK Replicator Record Size - A maximum of 10MB record size

Data Firehose の最大レコードサイズ

Amazon Data Firehose Quota - Amazon Data Firehose

The maximum size of a record sent to Amazon Data Firehose, before base64-encoding, is 1,000 KiB.

Kinesis Data Streams の最大レコードサイズ

Quotas and limits - Amazon Kinesis Data Streams

The maximum size of the data payload of a record before base64-encoding is up to 1 MB.

SQS の最大メッセージサイズ

Amazon SQS message quotas - Amazon Simple Queue Service

The minimum message size is 1 byte (1 character). The maximum is 262,144 bytes (256 KiB).

STL_ALERT_EVENT_LOG

STL_ALERT_EVENT_LOG - Amazon Redshift

Records an alert when the query optimizer identifies conditions that might indicate performance issues. Use the STL_ALERT_EVENT_LOG view to identify opportunities to improve query performance.

SVV_TRANSACTIONS

SVV_TRANSACTIONS - Amazon Redshift

現在データベーステーブルのロックを保持するトランザクションについて情報を記録します。

Provisioned IOPS SSD

Amazon EBS Provisioned IOPS SSD volumes - Amazon EBS

Provisioned IOPS SSD (io1) volumes are designed to meet the needs of I/O-intensive workloads, particularly database workloads, that are sensitive to storage performance and consistency.

Redshift のストリーミング取り込み

マテリアライズドビューへのストリーミング取り込み - Amazon Redshift

ストリーミング取り込みでは、Amazon Kinesis Data Streams や Amazon Managed Streaming for Apache Kafka から、Amazon Redshift でプロビジョニングされたビューや Amazon Redshift Serverless データベースへの、低レイテンシーかつ高速のデータインジェストを行います。

ALL 分散

分散スタイル - Amazon Redshift

テーブル全体のコピーがすべてのノードに分散されます

S3 Select で一度にクエリできるのは 1 つのオブジェクトのみ

Amazon S3 Select で所定のデータをクエリする - Amazon Simple Storage Service

Amazon S3 Select で一度にクエリできるのは、1 つのオブジェクトのみです。

API Gateway と Kinesis の連携

チュートリアル: REST API を Amazon Kinesis のプロキシとして作成する - Amazon API Gateway

API Gateway の API を Kinesis と統合するには、API Gateway と Kinesis の両方のサービスが利用できるリージョンを選択する必要があります。

Athena での CREATE TABLE の結果が 0 になる原因

レコードが 0 件の Athena クエリを解決する | AWS re:Post

SQS FIFO キューの 1 秒あたりのメッセージ数上限

High throughput for FIFO queues in Amazon SQS - Amazon Simple Queue Service

Each partition supports up to 3,000 messages per second with batching, or up to 300 messages per second for send, receive, and delete operations in supported regions.

DMS では空のテーブルは移行されない

Troubleshooting migration tasks in AWS Database Migration Service - AWS Database Migration Service

Check if the object you want to migrate is a table.

S3 の強力な整合性

Amazon S3 アップデート – 強力な書き込み後の読み取り整合性 | Amazon Web Services ブログ

本日から、S3 の GET、PUT、LIST 操作のすべて、およびオブジェクトタグ、ACL、またはメタデータを変更する操作に強力な整合性が適用されます。

S3 Object Lambda

S3 Object Lambda を使用したオブジェクトの変換 - Amazon Simple Storage Service

Amazon S3 Object Lambda を使用すると、Amazon S3 GET、LIST、HEAD リクエストに独自のコードを追加して、データがアプリケーションに返されるときにそのデータを変更および処理できます。

S3 マルチパートアップロードを使用できるオブジェクトサイズ

オブジェクトのアップロード - Amazon Simple Storage Service

マルチパートアップロードは 5 MB~5 TB のオブジェクトで使用できます。

KCL でのスケーリングとリシャーディング

Use resharding, scaling, and parallel processing to change the number of shards - Amazon Kinesis Data Streams

Next, if you scale the application to use another instance, you have two instances processing one stream that has four shards. When the KCL worker starts up on the second instance, it load-balances with the first instance, so that each instance now processes two shards.

S3 ライフサイクルルールの優先順位

S3 ライフサイクル設定の例 - Amazon Simple Storage Service

  • 完全な削除は、移行より優先されます。
  • 移行は、削除マーカーの作成より優先されます。
  • オブジェクトが S3 Glacier Flexible Retrieval と S3 Standard-IA (または S3 One Zone-IA) 移行の両方の対象になる場合、Amazon S3 は S3 Glacier Flexible Retrieval 移行を選択します。

EFS のパフォーマンスモード

Amazon EFS パフォーマンス - Amazon Elastic File System

最大 I/O モードは前世代のパフォーマンスタイプで、汎用モードよりも高いレイテンシーに耐えられる高度に並列化されたワークロード向けに設計されています。

S3 のプレフィックスごとのリクエストレート

設計パターンのベストプラクティス: Amazon S3 のパフォーマンスの最適化 - Amazon Simple Storage Service

例えば、アプリケーションは、パーティショニングされた Amazon S3 プレフィックスごとに毎秒 3,500 回以上の PUT/COPY/POST/DELETE リクエストまたは 5,500 回以上の GET/HEAD リクエストを達成できます。

Glue のワーカータイプ

ジョブ - AWS Glue

ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。

SSE-S3 では一意のキーで暗号化される

サーバー側の暗号化によるデータの保護 - Amazon Simple Storage Service

一意のキーで各オブジェクトを暗号化します。

Glue の FindMatches

AWS Lake Formation FindMatches によるレコードのマッチング - AWS Glue

FindMatches 変換を使用すると、レコードに共通の一意の識別子がなく、正確に一致するフィールドがない場合でも、データセット内の重複レコードまたは一致するレコードを識別できます。

Redshift で単一の COPY コマンドによる複数ファイルのロード

単一の COPY コマンドを使用した複数のファイルからのロード - Amazon Redshift

Amazon Redshift は、複数の圧縮データファイルからの並列的なデータロードを、自動的に実行します。

DynamoDB の ConsistentRead

DynamoDB の読み取り整合性 - Amazon DynamoDB

読み取りオペレーション (GetItem、Query、Scan など) には、オプションの ConsistentRead パラメータがあります。

Athena でのデータ使用量制限

クエリごとおよびワークグループごとのデータ使用量の制御を設定する - Amazon Athena

Athena では、クエリごとの制限とワークグループごとの制限の 2 つのタイプのコスト制御を設定できます。

Athena の UNLOAD

UNLOAD - Amazon Athena

UNLOAD ステートメントは、SELECT クエリの結果を非 CSV 形式で出力したいが、関連付けられたテーブルを必要としない場合に便利です。

Parquet と ORC

列指向ストレージ形式を使用する - Amazon Athena

ORC は Hive データを効率的に保存する方法を提供します。ORC ファイルは Parquet ファイルよりも小さいことが多く、ORC インデックスを使用するとクエリを高速化できます。さらに、ORC は構造体、マップ、リストなどの複雑な型をサポートしています。

EBS の変更

Modify an Amazon EBS volume using Elastic Volumes operations - Amazon EBS

you can do so without detaching the volume or restarting the instance.

S3 Select でのスキャン範囲指定

Amazon S3 Select で所定のデータをクエリする - Amazon Simple Storage Service

Amazon S3 Select を利用すると、クエリするバイト範囲を指定して、オブジェクトのサブセットをスキャンできます。

Athena での Apache Spark の利用

Amazon Athena で Apache Spark を開始する - Amazon Athena

Amazon Athena で Apache Spark の使用を開始するには、最初に Spark が有効になっているワークグループを作成する必要があります。

Glue の Flex 実行

AWS Glue が Flex の実行オプションのサポートを開始

Flex はジョブをすぐに開始する必要のないワークロードに最適です。Flex を使ったジョブの開始時間と実行時間はさまざまです。

KCL のリーステーブル

KCL concepts - Amazon Kinesis Data Streams

Lease table – is a unique Amazon DynamoDB table used to track all leases for the KCL consumer application. Each KCL consumer application creates its own lease table.

KCL のチェックポイント

KCL concepts - Amazon Kinesis Data Streams

Checkpoints are stored in the DynamoDB lease table as part of the metadata of the lease.

Discussion