😎

[SAA-C03対策講座]おさえておきたいSAAに出てくるITサービス・オプション名称(ストレージ/データ転送/DB/分析)

2024/09/27に公開

はじめに

AWS Certified Solutions Architect – Associate(以後、SAA)の範囲で出題されるITサービスについて、ざっくり網羅的に説明する試みです。

当記事では、数あるSAA出題範囲のなかから、ストレージ/データ転送/DB/分析に絞って、解説をしていきます。

ストレージ/データ転送/DB/分析以外のサービスについては、末尾の関連記事を参考にしてください。

※この記事では、概要レベルでの簡易的な解説になりますので、各項目については個別に理解を深めてください。

ストレージ(オブジェクトストレージ)

Amazon Simple Storage Service (Amazon S3)

サービス概要

Amazon S3は、AWSが提供するオブジェクトストレージサービスです。スケーラビリティ、データ可用性、セキュリティ、パフォーマンスに優れており、あらゆる規模のデータを保存・取得できます。ウェブサイトのコンテンツ、モバイルアプリケーションのデータ、企業のバックアップ、IoTデバイスからのデータなど、多岐にわたるユースケースに対応します。

関連キーワード

Amazon S3 Glacier Deep Archive

Amazon S3 Glacier Deep Archiveは、長期保存かつアクセス頻度の低いアーカイブデータの保存に最適化されたストレージクラスです。非常に低コストでデータを保存できますが、データへのアクセスには数時間かかる場合があります。

Amazon S3 の署名済み URL

Amazon S3の署名済みURLは、一時的なアクセス権限を付与したURLです。このURLを使用することで、AWSの認証情報を持たないユーザーでも、特定のオブジェクトへのアクセス(ダウンロードまたはアップロード)を許可できます。

一緒に利用されるサービス

Amazon S3は、様々なAWSサービスと連携して利用されます。代表的な例をいくつか紹介します。

Amazon CloudFront: CloudFrontは、コンテンツ配信ネットワーク(CDN)サービスです。S3に保存された静的コンテンツ(画像、動画、ウェブサイトファイルなど)をエッジロケーションにキャッシュし、エンドユーザーへの配信を高速化します。
AWS Lambda: Lambdaは、サーバーレスコンピューティングサービスです。S3にファイルがアップロードされたイベントをトリガーに、Lambda関数を起動し、画像処理やデータ変換などの処理を実行できます。
Amazon Athena: Athenaは、S3に保存されたデータをSQLクエリで分析できるサーバーレスクエリサービスです。S3に保存された大量のデータを、複雑なETL処理なしに分析できます。

Amazon S3 ストレージクラス (2024年9月時点)

ストレージ名 使用用途 料金
Amazon S3 Standard 頻繁にアクセスされるデータの保存
Amazon S3 Intelligent-Tiering アクセス頻度が不明または変動するデータの保存 中程度
Amazon S3 Standard-Infrequent Access (S3 Standard-IA) アクセス頻度が低いデータの保存
Amazon S3 One Zone-Infrequent Access (S3 One Zone-IA) アクセス頻度が低く、単一AZへの保存で問題ないデータの保存 S3 Standard-IA より低
Amazon S3 Glacier Instant Retrieval 長期保存かつすぐにアクセスが必要なデータの保存 S3 Standard-IA より低
Amazon S3 Glacier Flexible Retrieval (旧称: S3 Glacier) 長期保存かつ数分から数時間でアクセスできれば良いデータの保存 S3 Glacier Instant Retrieval より低
Amazon S3 Glacier Deep Archive 長期保存かつアクセス頻度が非常に低いデータの保存 最も低

Amazon Elastic File System (Amazon EFS)

サービス概要

Amazon EFSは、AWS上でフルマネージドなNFSファイルシステムを提供するサービスです。従来のオンプレミス環境におけるファイルサーバーと同様に、複数のEC2インスタンスから同時にファイル共有を可能にします。EFSの最大の特徴は、高いスケーラビリティと可用性です。必要に応じて自動的に容量が拡張・縮小し、複数のAZにデータを冗長化することで高い可用性を実現します。また、NFSv4プロトコルをサポートしており、Linuxベースのアプリケーションとの親和性が高いです。

関連キーワード

NFS (Network File System)

ネットワーク経由でファイル共有を行うためのプロトコル。EFSはNFSv4.0、NFSv4.1、NFSv4.2をサポートしています。

スループットモード

EFSのパフォーマンスモードの一つで、ファイルシステム全体のスループットを向上させるモードです。大量のデータを高速に読み書きする必要がある場合に適しています。

最大IOモード

EFSのパフォーマンスモードの一つで、ファイルシステム全体のスループットではなく、個々のファイルやディレクトリへのIOPS(1秒あたりの入出力操作数)を向上させるモードです。多数の小さなファイルへのアクセスが多い場合に適しています。

ライフサイクル管理

EFSのライフサイクル管理機能を使用すると、アクセス頻度に基づいてファイルを自動的に低コストのストレージクラスに移行できます。これにより、ストレージコストを最適化できます。

一緒に利用されるサービス

Amazon EC2: EFSは、複数のEC2インスタンスから同時にファイル共有を可能にします。Webサーバーのコンテンツ共有、開発環境でのコード共有、ビッグデータ分析など、様々なユースケースで利用できます。
AWS Lambda: Lambda関数からEFSにアクセスし、一時的なファイルストレージとして利用できます。
Amazon EKS: EKSで実行されるコンテナからEFSにアクセスし、永続的なストレージとして利用できます。
これらのサービス以外にも、Amazon EFSは、AWS Backup、Amazon CloudWatch、AWS IAMなど、様々なAWSサービスと連携して利用されます。

Amazon FSx for Windows File Server

サービス概要

Amazon FSx for Windows File Server は、AWS 上でフルマネージドな Windows ファイルサーバーを提供するサービスです。Windows ベースのアプリケーションやユーザー向けに、使い慣れた SMB プロトコルを通じて、高可用性かつ高パフォーマンスなファイル共有を実現します。オンプレミス環境のファイルサーバーと同様の機能を提供するため、既存のアプリケーションやワークフローを変更することなく、AWS クラウドのメリットを活用できます。

関連キーワード

SMB (Server Message Block)

Windows 環境で広く利用されるファイル共有プロトコル。Amazon FSx for Windows File Server は SMB 2.0 以降をサポートしています。

データ重複排除と圧縮

ストレージ容量を効率的に利用するための機能。重複したデータを排除し、データを圧縮することで、ストレージコストを削減できます。

Microsoft Active Directory 統合

オンプレミスまたは AWS Managed Microsoft AD と統合することで、既存のユーザー認証・認可基盤を AWS 上のファイルサーバーでも活用できます。

データレプリケーション

異なる AZ (アベイラビリティーゾーン) にデータを複製することで、高可用性を実現します。

バックアップ

AWS Backup を利用して、ファイルサーバーの定期的なバックアップを取得し、災害復旧に備えることができます。

一緒に利用されるサービス

Amazon EC2: Windows ベースのアプリケーションを実行する EC2 インスタンスから、Amazon FSx for Windows File Server にアクセスしてファイル共有できます。
AWS Directory Service: オンプレミス環境の Active Directory を AWS に拡張したり、AWS 上でフルマネージドな Active Directory を構築したりできます。Amazon FSx for Windows File Server と統合することで、ユーザー認証・認可をスムーズに行えます。
AWS Storage Gateway: オンプレミス環境と AWS クラウドストレージ間のファイル転送を容易にするサービスです。Amazon FSx for Windows File Server と組み合わせることで、オンプレミス環境のファイルサーバーを AWS に移行したり、ハイブリッドクラウド環境を構築したりできます。

ストレージ(ブロックストレージ)

Amazon Elastic Block Store (Amazon EBS)

サービス概要

Amazon EBSは、AWSクラウド上で永続的なブロックレベルのストレージを提供するサービスです。EC2インスタンスにアタッチすることで、データベース、ファイルシステム、アプリケーションなど、様々な用途で利用できます。EBSは、高可用性、高耐久性、そして高いパフォーマンスを備えており、必要に応じてボリュームサイズを簡単に変更したり、スナップショットを取得してバックアップを作成したりすることも可能です。

関連キーワード

ボリューム

EBSの基本単位で、EC2インスタンスにアタッチして利用します。

ボリュームタイプ

EBSには、汎用SSD (gp3, gp2)、プロビジョンド IOPS SSD (io2, io1)、スループット最適化HDD (st1)、コールドHDD (sc1) などの様々なタイプがあります。それぞれパフォーマンス特性やコストが異なり、用途に合わせて選択します。

スナップショット

ボリュームの特定時点のデータをバックアップとして保存できます。災害復旧やデータの複製などに利用できます。

EBS最適化インスタンス

EBSボリュームとの間で専用のスループットを提供するEC2インスタンスです。EBSボリュームのパフォーマンスを最大限に引き出すことができます。

暗号化

EBSボリュームは、保存時および転送時に暗号化できます。セキュリティ要件に合わせて適切な暗号化オプションを選択できます。

一緒に利用されるサービス

Amazon EC2: EBSボリュームは、EC2インスタンスにアタッチして利用します。EC2インスタンスの起動時にEBSボリュームを自動的にアタッチするように設定することも可能です。
Amazon S3: EBSスナップショットは、S3に保存されます。S3のライフサイクルポリシーを活用して、スナップショットの自動削除や低頻度アクセスストレージへの移行などを設定できます。
AWS Backup: EBSボリュームのスナップショットを自動的に作成し、管理できます。AWS Backupを使用することで、EBSボリュームのバックアップをより簡単に管理できます。

ストレージ(バックアップと復元)

AWS Backup

サービス概要

AWS Backupは、様々なAWSサービスのバックアップを一元的に管理、自動化できるフルマネージド型のバックアップサービスです。従来、各サービスごとにバックアップ設定を行う必要がありましたが、AWS Backupを利用することで、ポリシーベースのバックアップ設定、一元的なバックアップ管理、そして容易な復元操作を実現できます。これにより、バックアップ運用にかかる手間を削減し、データ保護の信頼性を向上させることができます。

関連キーワード

バックアップボールト

バックアップデータを保存するための論理的なコンテナです。暗号化やアクセス制御の設定を行うことができます。

バックアッププラン

バックアップ対象のリソース、バックアップ頻度、保持期間などを定義したポリシーです。

バックアップルール

バックアッププランに含まれる個々のバックアップ設定です。特定のリソースタイプやタグに基づいてバックアップ対象を指定できます。

復元ポイント

バックアップから復元可能な時点を表します。

リストア

バックアップデータから元の状態に戻す操作です。

バックアップボールト・バックアッププラン・バックアップルール・復元ポイント・リストア

一緒に利用されるサービス

Amazon EBS (Elastic Block Store): EC2インスタンスにアタッチされるブロックストレージです。EBSボリュームのスナップショットを自動的に作成し、管理できます。
Amazon RDS (Relational Database Service): マネージド型のリレーショナルデータベースサービスです。RDSデータベースのスナップショットを自動的に作成し、管理できます。
Amazon DynamoDB: フルマネージド型のNoSQLデータベースサービスです。DynamoDBテーブルのバックアップを自動的に作成し、管理できます。

データ転送(データ転送デバイス)

AWS Snow ファミリー

サービス概要

AWS Snow ファミリーは、物理的なデバイスを使用して大量のデータをAWSクラウドに安全かつ効率的に転送するためのサービス群です。ネットワーク経由でのデータ転送が難しい、時間やコストがかかりすぎるといった課題を解決します。

AWS Snow ファミリーには、様々なユースケースに対応できるよう、異なる容量や機能を持つ複数のデバイスが用意されています。

AWS Snowファミリーサービス一覧

名称 内容 対応容量 想定使用用途
AWS Snowcone 堅牢な小型データ転送デバイス。エッジコンピューティングも可能。 8TB (使用可能容量) データ収集、エッジコンピューティング、小規模なデータ移行
AWS Snowball Edge Storage Optimized 大容量データ転送に特化したデバイス。 80TB (使用可能容量) 大規模なデータ移行、災害復旧、データセンター移転
AWS Snowball Edge Compute Optimized データ転送に加え、エッジコンピューティング機能を強化したデバイス。 42TB (使用可能容量) 機械学習、画像・動画処理、エッジでのデータ分析
AWS Snowmobile エクサバイト級のデータを転送するためのコンテナ型データセンター。 最大 100PB 大規模データセンターの移行、ペタバイト級のデータ転送

関連キーワード

オフラインデータ転送

ネットワーク環境が不十分な場所や、セキュリティ上の理由からインターネット経由でのデータ転送が難しい場合に、物理デバイスを用いてデータを安全に転送する手法です。

エッジコンピューティング

データが発生する現場に近い場所でデータを処理する技術です。AWS Snow ファミリーの一部デバイスはエッジコンピューティング機能を備えており、クラウドへの転送前にデータの前処理や分析を行うことができます。

データ移行

大規模なデータセンターの移行や、オンプレミス環境からクラウドへのデータ移行など、大量のデータを効率的に転送する際に利用されます。

災害復旧

災害発生時に備えて、重要なデータをオフラインでバックアップしておくことができます。

一緒に利用されるサービス

AWS DataSync: Snow ファミリーデバイスとAWSストレージサービス間のデータ転送を自動化・管理するサービスです。転送タスクのスケジュール設定や監視、データ転送の最適化などを簡単に行えます。
Amazon S3: AWS Snow ファミリーデバイスで収集したデータを保存するためのオブジェクトストレージサービスです。S3 Glacierのような低コストのストレージクラスを利用することで、長期保管のコストを削減できます。
AWS Snowball Edge: 大容量データ転送に加えて、エッジコンピューティング機能を提供するデバイスです。AWS Lambda関数を実行してデータの前処理や分析を行い、必要なデータのみをクラウドに転送できます。

データ転送(データ転送サービス)

AWS DataSync

サービス概要

AWS DataSyncは、オンプレミスストレージとAWSクラウドストレージ間、またはAWSクラウドストレージ間でのデータ転送を簡単、高速、かつ安全に行うためのフルマネージドサービスです。AWS DataSyncを使用することで、大規模なデータ移行、データ保護、ハイブリッドクラウドストレージの構築などを効率的に実現できます。

関連キーワード

エージェント

オンプレミス環境にデプロイするソフトウェアコンポーネント。データソースとの接続、データ転送の実行、転送状況の監視などを担当します。

タスク

データ転送の設定を定義する単位です。転送元、転送先、転送スケジュール、転送オプションなどを指定します。

ロケーション

データ転送の起点または終点となる場所を抽象化した概念です。オンプレミス環境、Amazon S3、Amazon EFS、Amazon FSx for Windows File Serverなどがロケーションとして指定できます。

転送プロトコル

データ転送に使用するプロトコルです。NFS、SMB、S3 APIなどをサポートしています。

データ同期

定期的なデータ転送を行い、オンプレミスとクラウド間、またはクラウド内のストレージ間でデータを同期させることができます。

一緒に利用されるサービス

Amazon S3: AWSのオブジェクトストレージサービス。AWS DataSyncの主要な転送先として利用されます。
Amazon EFS: AWSのフルマネージドなNFSファイルシステム。AWS DataSyncの転送先として利用できます。
Amazon FSx for Windows File Server: AWSのフルマネージドなWindowsファイルサーバー。AWS DataSyncの転送先として利用できます。
オンプレミスストレージ: NAS、SAN、ファイルサーバーなど、様々なオンプレミスストレージをAWS DataSyncの転送元または転送先として利用できます。
AWS Snowball: 大容量のデータを物理的に転送するためのデバイス。AWS DataSyncと組み合わせて、オフラインでのデータ転送を実現できます。

データ転送(ハイブリッドクラウドストレージサービス)

AWS Storage Gateway ファイルゲートウェイ

サービス概要

AWS Storage Gateway ファイルゲートウェイは、オンプレミス環境から、まるでローカルファイルシステムにアクセスするように、AWS クラウドストレージにファイル単位でアクセスできるようにするサービスです。標準的なファイルプロトコル (NFS、SMB) を使用するため、既存のアプリケーションやワークフローを変更することなく、AWS クラウドストレージのメリット(拡張性、耐久性、コスト効率)を活用できます。

関連キーワード

キャッシュ

ファイルゲートウェイは、頻繁にアクセスされるデータをローカルキャッシュに保存することで、低レイテンシなアクセスを実現します。

ライフサイクル管理

Amazon S3 ライフサイクルポリシーを使用して、ファイルデータを自動的に低コストのストレージクラス (S3 Standard-IA、S3 Glacier Instant Retrieval など) に移行できます。

データ同期

オンプレミスファイルシステムとクラウドストレージ間で、定期的なデータ同期を実行できます。

NFS (Network File System)

Unix 系システムで広く利用されるファイル共有プロトコル。ファイルゲートウェイは NFSv3、NFSv4.1 をサポートしています。

SMB (Server Message Block)

Windows 環境で広く利用されるファイル共有プロトコル。ファイルゲートウェイは SMBv2、SMBv3 をサポートしています。

一緒に利用されるサービス

Amazon S3: ファイルゲートウェイは、Amazon S3 をバックエンドストレージとして使用します。S3 の高い耐久性と可用性により、ファイルデータを安全に保管できます。
Amazon FSx for Windows File Server: Windows ファイルサーバーのフルマネージドサービスです。ファイルゲートウェイと連携することで、オンプレミスの Windows ファイルサーバーを AWS クラウドに移行できます。
AWS Directory Service: オンプレミス環境の Active Directory を AWS に拡張したり、AWS 上でフルマネージドな Active Directory を構築したりできます。ファイルゲートウェイと統合することで、既存のユーザー認証・認可基盤を AWS 上のファイル共有でも活用できます。

DB(リレーショナルデータベース)

Amazon Aurora MySQL

サービス概要

Amazon Aurora MySQL は、AWS クラウド上で提供される、MySQL と互換性のある高性能なリレーショナルデータベースサービスです。従来の MySQL の最大 5 倍のスループットを実現し、高い可用性とスケーラビリティを備えています。商用データベースに匹敵するパフォーマンスを、オープンソースデータベースに比べて大幅に低いコストで提供します。

関連キーワード

Aurora リードレプリカ

Aurora リードレプリカは、Aurora クラスターのリードインスタンスの読み取り専用コピーです。リードレプリカを使用することで、リードインスタンスの負荷を軽減し、読み取り処理のパフォーマンスを向上させることができます。また、リードレプリカは、リードインスタンスが利用不可になった場合のフェイルオーバーターゲットとしても機能します。

Amazon Aurora Serverless

Amazon Aurora Serverless は、Aurora のオンデマンド自動スケーリング構成です。アプリケーションのニーズに基づいてデータベースを自動的に起動、シャットダウン、およびスケールアップまたはスケールダウンします。開発者はデータベースインスタンスを管理する必要がなく、ワークロードに応じてデータベース容量が自動的に調整されるため、コスト効率の高いデータベース運用を実現できます。

Amazon Aurora On-Demand PostgreSQL 互換データベース

Amazon Aurora は、MySQL 互換だけでなく、PostgreSQL 互換のデータベースエンジンも提供しています。Amazon Aurora PostgreSQL 互換データベースは、PostgreSQL との互換性を持ちつつ、Aurora の高パフォーマンス、高可用性、スケーラビリティといった利点を享受できます。PostgreSQL を利用しているアプリケーションを、容易に AWS クラウドに移行できます。

一緒に利用されるサービス

Amazon RDS (Relational Database Service): Amazon Aurora は、RDS の一部として提供されるため、RDS の管理コンソールや API を使用して Aurora クラスターを管理できます。
Amazon EC2 (Elastic Compute Cloud): アプリケーションを実行する EC2 インスタンスから、Aurora MySQL データベースに接続してデータの読み書きを行います。
AWS Lambda: イベント駆動型のサーバーレスコンピューティングサービスです。Lambda 関数から Aurora MySQL データベースにアクセスし、データ処理や更新などのタスクを実行できます。

Amazon Redshift

サービス概要

Amazon Redshift は、ペタバイト規模のデータを高速に分析できる、フルマネージドなクラウドデータウェアハウスサービスです。 従来のデータウェアハウスと比較して、非常に高速かつ低コストで、複雑な分析クエリを実行できます。標準SQLをサポートしており、既存のビジネスインテリジェンス(BI)ツールとの連携も容易です。 また、Amazon Redshift は、拡張性が高く、データ量やユーザー数が増加してもパフォーマンスを維持できます。

関連キーワード

MPP (Massively Parallel Processing)

大量のデータを複数のノードに分散して並列処理することで、高速なクエリパフォーマンスを実現するアーキテクチャです。

列指向ストレージ

データを列単位で保存する方式で、分析クエリに必要なデータのみを読み込むため、処理効率が向上します。

Redshift Spectrum

S3 に保存されたデータを、Redshift から直接クエリできる機能です。ETL 処理なしで、S3 のデータを分析できます。

AQUA (Advanced Query Accelerator)

ハードウェアアクセラレーション技術を用いて、特定のクエリの処理を高速化する機能です。

Redshift ML

SQL で機械学習モデルを作成・トレーニングし、予測や分類などのタスクを実行できる機能です。

一緒に利用されるサービス

Amazon S3: データレイクとして利用され、Redshift にロードするデータや、Redshift Spectrum で分析するデータを保存します。
AWS Glue: ETL (Extract, Transform, Load) ツールとして利用され、様々なデータソースから Redshift にデータをロードするための処理を自動化します。
Amazon QuickSight: BI ツールとして利用され、Redshift のデータを可視化し、インタラクティブなダッシュボードを作成できます。

DB(NoSQLデータベース)

Amazon DynamoDB

サービス概要

Amazon DynamoDB は、AWS が提供するフルマネージドな NoSQL データベースサービスです。高速かつ柔軟性に優れており、数ミリ秒のレイテンシーで、任意の規模のデータに対する読み書きを処理できます。スケーラビリティ、パフォーマンス、可用性に優れているため、Web アプリケーション、モバイルアプリ、ゲーム、IoT など、大量のデータアクセスを必要とする様々なアプリケーションに最適です。

関連キーワード

DynamoDB Accelerator (DAX)

DynamoDB Accelerator (DAX) は、DynamoDB の読み取りパフォーマンスを最大 10 倍高速化する、フルマネージド型のインメモリキャッシュです。マイクロ秒単位のレイテンシーで DynamoDB テーブルへの読み取りリクエストを処理し、リアルタイムアプリケーションのパフォーマンスを大幅に向上させることができます。

Amazon DynamoDB Streams

Amazon DynamoDB Streams は、DynamoDB テーブルへのデータ変更イベントをキャプチャし、リアルタイムで処理できるようにするサービスです。Lambda 関数や Kinesis Data Firehose などと連携することで、データの変更をトリガーとした様々な処理を実行できます。例えば、データの変更を監視して通知を送信したり、他のデータストアにデータを複製したり、リアルタイム分析を実行したりできます。

一緒に利用されるサービス

AWS Lambda: イベント駆動型のサーバーレスコンピューティングサービスです。DynamoDB Streams と連携して、データ変更イベントをトリガーに Lambda 関数を実行し、データ処理や通知などのタスクを実行できます。
Amazon Kinesis Data Firehose: リアルタイムストリーミングデータの収集、変換、ロードを行うフルマネージドサービスです。DynamoDB Streams と連携して、DynamoDB のデータを Amazon S3、Amazon Redshift、Amazon Elasticsearch Service などに配信できます。
Amazon Cognito: Web およびモバイルアプリのユーザーサインアップ、サインイン、アクセス制御を管理するサービスです。DynamoDB をユーザーデータストアとして使用し、Cognito と連携することで、セキュアなユーザー管理を実現できます。

DB(インメモリデータベース)

Amazon ElastiCache

サービス概要

Amazon ElastiCacheは、フルマネージド型のインメモリキャッシュサービスです。データベースやAPIなどのバックエンドシステムへのアクセスを高速化し、アプリケーションのパフォーマンスを向上させることができます。一般的なユースケースとしては、データベースクエリの結果や頻繁にアクセスされるデータをキャッシュし、データベースへの負荷を軽減することで、応答時間の短縮やコスト削減を実現します。

関連キーワード

Memcached

シンプルで高性能な分散型インメモリキャッシュシステム。

Redis

高度なデータ構造と機能を備えたインメモリデータストア。永続化やPub/Subなどの機能も利用可能。

キャッシュノード

ElastiCacheクラスターを構成する個々のインスタンス。

クラスター

複数のキャッシュノードで構成される論理的なグループ。高可用性とスケーラビリティを実現します。

レプリケーショングループ

異なるアベイラビリティーゾーン(AZ)にまたがる複数のクラスターで構成されるグループ。データの冗長性と耐障害性を向上させます。

一緒に利用されるサービス

Amazon RDS (Relational Database Service): データベースクエリの結果をキャッシュすることで、RDSへの負荷を軽減し、アプリケーションのパフォーマンスを向上させます。
Amazon DynamoDB: NoSQLデータベースの読み取りパフォーマンスを向上させるために、頻繁にアクセスされるデータをキャッシュします。
API Gateway: APIリクエストの結果をキャッシュすることで、バックエンドシステムへの負荷を軽減し、APIの応答時間を短縮します。

分析(データ分析)

Amazon Athena

サービス概要

Amazon Athenaは、サーバーレスのインタラクティブなクエリサービスで、標準SQLを使用してAmazon S3に保存されたデータを直接分析できます。サーバーの管理やデータウェアハウスへのロードが不要なため、手軽にデータ分析を始められます。

Athenaは、データレイクに蓄積された多種多様なデータ(CSV、JSON、Parquet、ORCなど)を対象に、SQLクエリを実行して分析できます。

関連キーワード

サーバーレス

インフラストラクチャの管理が不要で、クエリを実行した分だけ課金されるため、コスト効率が高いです。

標準SQL

標準SQLをサポートしているため、既存のSQLスキルを活用できます。

データレイク

S3をデータレイクとして活用し、様々なソースからのデータを一元管理できます。

Federated Query

データベースやSaaSアプリケーションなど、S3以外のデータソースに対してもクエリを実行できます。(※一部機能はプレビュー版です)

一緒に利用されるサービス

Amazon S3: データレイクとして利用され、Athenaで分析するデータを保存します。
AWS Glue: ETLツールとして利用され、様々なデータソースからS3にデータを抽出し、変換、ロードします。Athenaで分析しやすい形式にデータを整形することもできます。
Amazon QuickSight: BIツールとして利用され、Athenaで分析した結果を可視化し、ダッシュボードを作成できます。

Amazon EMR (Elastic MapReduce)

サービス概要

Amazon EMRは、HadoopやSparkなどのオープンソースのビッグデータフレームワークをAWS上で簡単に実行・管理できるマネージドサービスです。大量のデータを分散処理し、機械学習、ログ分析、データウェアハウジングなど、様々なビッグデータ処理を実行できます。 EMRは、必要な時に必要なだけクラスターを起動し、処理終了後に自動的に終了させることができるため、コスト効率の高いビッグデータ処理基盤を構築できます。

関連キーワード

Hadoop

大規模データの分散処理を可能にするオープンソースフレームワーク。HDFS(Hadoop Distributed File System)によるデータ保存と、MapReduceによるデータ処理が主要な機能です。

Spark

汎用性の高い分散処理フレームワーク。Hadoopよりも高速なインメモリ処理が特徴で、バッチ処理、ストリーミング処理、機械学習、SQLクエリなど、様々な用途に利用できます。

Hive

Hadoop上でSQLライクなクエリを実行するためのデータウェアハウスインフラストラクチャ。

Presto

リアルタイムでのインタラクティブなクエリ実行を可能にする分散SQLクエリエンジン。

クラスター

EMRで起動されるEC2インスタンスの集合。マスターノードとコアノード、タスクノードで構成されます。

ステップ

クラスター上で実行する処理の単位。HadoopのジョブやSparkのアプリケーションなどを実行できます。

一緒に利用されるサービス

Amazon S3: EMRで処理するデータの保存先としてよく利用されます。EMRはS3から直接データを読み書きできるため、データの移動やコピーが不要になります。
Amazon DynamoDB: NoSQLデータベースで、高速なデータアクセスが必要な場合にEMRと組み合わせて利用されます。
Amazon Redshift: データウェアハウスサービスで、EMRで処理した結果をRedshiftにロードし、BIツールなどで可視化・分析できます。

AWS Glue

サービス概要

AWS Glueは、サーバーレスのETL(Extract, Transform, Load:抽出、変換、ロード)サービスです。様々なデータソースからデータを抽出し、変換、そしてデータウェアハウスやデータレイクにロードするプロセスを自動化します。AWS Glueは、サーバーレスであるため、インフラの管理が不要で、処理したデータ量に応じて課金されます。

関連キーワード

ETL

データ分析や機械学習のために、様々なソースからデータを抽出し、変換、ロードするプロセスです。

クローラー

データソースを自動的に検出し、データ構造をメタデータカタログに保存する機能です。

ジョブ

ETL処理を実行するサーバーレスの処理単位です。Apache SparkまたはPythonシェルを使用してジョブを記述できます。

トリガー

特定のイベント(スケジュール、S3へのデータ追加など)に基づいてジョブを自動的に実行する機能です。

ワークフロー

複数のジョブを連携させて実行する順序を定義できます。

DataBrew

Glueのビジュアルなデータ準備ツール。コーディングなしでデータのクレンジングや変換を行えます。

一緒に利用されるサービス

Amazon S3: データレイクとして利用され、Glueで処理するデータの保存場所や処理結果の出力先として使用されます。
Amazon Redshift: データウェアハウスサービスで、Glueで処理したデータをRedshiftにロードし、BIツールなどで可視化・分析できます。
Amazon Athena: サーバーレスのクエリサービスで、Glueのデータカタログを使用してS3上のデータを直接分析できます。

分析(ストリーミング)

Amazon Kinesis Data Analytics

サービス概要

Amazon Kinesis Data Analyticsは、ストリーミングデータをリアルタイムで処理・分析するためのフルマネージドサービスです。 SQLまたはApache Flinkアプリケーションを使用して、データストリームから洞察を即座に得ることができます。これにより、不正検知、リアルタイムダッシュボードの作成、IoTデバイスからのデータ分析など、様々なユースケースに対応できます。

関連キーワード

ストリーミングデータ

継続的に生成・収集されるデータのこと。例:IoTセンサーデータ、クリックストリームデータ、ログデータ、金融取引データなど。

リアルタイム処理

データが発生した瞬間に処理を行うこと。迅速な意思決定やアクションが必要な場合に有効です。

SQL

関係データベースで広く使用されているクエリ言語。Amazon Kinesis Data Analyticsでは、SQLを使用してストリーミングデータを分析できます。

Apache Flink

オープンソースの分散ストリーミング処理フレームワーク。より複雑な分析や変換処理をJavaまたはScalaで記述できます。

アプリケーション

SQLクエリまたはApache Flinkアプリケーションをまとめたもの。Kinesis Data Analyticsで実行される処理の単位です。

一緒に利用されるサービス

Amazon Kinesis Data Streams: 大規模なストリーミングデータの収集・保存を行うサービス。Kinesis Data Analyticsの主要なデータソースとして利用されます。
Amazon Kinesis Data Firehose: ストリーミングデータをS3、Redshift、Elasticsearch Serviceなどに配信するサービス。Kinesis Data Analyticsで処理した結果を他のサービスに連携させる際に利用できます。
Amazon Lambda: イベント駆動型のサーバーレスコンピューティングサービス。Kinesis Data Analyticsで特定の条件を満たすデータを検出した際に、Lambda関数をトリガーして処理を実行できます。

Discussion