Kinesis Data Stream

1日から365日までで保持期間を指定。

プロビジョンドモード
- プロビジョンドされたシャードごとに時間料金がかかる。
- シャードごとにスループット制限あり（IN: 1MB/s & 1000records, OUT: 2MB/s）
オンデマンドモード
- 過去30日間の使用に応じてオートスケール
- 時間当たりのシャード数 & in/outデータ量で課金
VPCエンドポイントを使ってVPC内からアクセス可能
KMSで暗号化可能
拡張ファンアウト
- 1つのシャードに複数のコンシューマを登録している際、制限がコンシューマごとに割り当てられる。デフォルトでは5つまでコンシューマを登録できるが、上限緩和可能。
- 2MB/sだったものが、10MB/sなどにできるため、処理待ちのレイテンシが小さくなる。一方でコストは上がる。

Kinesis Data Firehose

Redshiftへ送信する場合は、S3に一度データを配信し、RedshiftにCOPYクエリを打つ。なので、RedshiftへのIAM権限も必要。

Yamahitsuji

Glue

ダイナミックフレームについて。

FindMatchesで複数のソースデータに一意のIDがなくとも、重複レコードを検出できる。機械学習を使っている。

データソースはAurora, RDS, DynamoDB Redshift, S3やEC2錠で実行されているデータベースなど。
https://aws.amazon.com/jp/glue/faqs/
VPNやDXで繋がっているオンプレサーバにもJDBCを利用することで、クローラ、ジョブを実行できる。

クローラを実行する際、データ内容を評価するために分類子を利用する。ファイル内容がjson, parquet, xml, csvなどなどを識別する。カスタム分類子を作成する事で、分類内容を増やすことができる。クローラにカスタム分類しを追加すると、最初にカスタム分類子を呼び出す。 certainty=1.0の場合、その分類子を選択する。1.0以外の場合は次の分類子を評価する。どの分類子にもマッチしない場合は最も値の高い分類子を選択する。ただし全てが0.0未満の場合はUNKNOWNとなる。

Yamahitsuji

EMR

EMRのBlack Belt動画

EMRFSはHDFSと同じような使用感でS3ストレージを実行できる。

マスターノードはクラスター全体の管理を行う。ジョブなどもマスターインスタンスが受け付けて、コアノード・タスクノードで処理を行う。クラスターが存在する間は常に稼働していなければならない。また、HA構成として、マルチマスターが可能。
コアノードはEBSを利用してHDFSを構成する。
タスクノードはEMRFSを利用するので、ストレージが不要。スポットインスタンスとの相性が良い。
１つのサブネット内で実行される（単一AZのみ）。

インスタンスグループかインスタンスフリートか

インスタンスグループ

インスタンスグループごとに1つのインスタンス購入オプションおよびインスタンスタイプを指定する。

マスターインスタンスグループ、コアインスタンスグループ、タスクインスタンスグループに分かれる。タスクインスタンスグループのみ、複数グループを持つことができる。

インスタンスフリート

マスター、コア、タスクノードにそれぞれ１つのフリートを設定する。フリートには最大5種のインスタンスタイプおよび購入オプションを設定できる。

ジョブの実行

EMR Step APIか、Hadoopアプリケーションのネイティブなインターフェースからジョブを送信できる。

インスタンスの軌道

インスタンスの起動時にスクリプトを実行可能。内容はインスタンスのタイプ（マスター、コア、タスク）などによって変更できる。
AMIにはカスタムAMIを利用することができる。

アクセス許可

EC2のIAMロールにより、S3へアクセスできる。

Hadoopサービス群

Apache Pig

JDBCをサポートしていない。EMRFS, HDFSのオブジェクトにのみ実行可能？
構造化、半構造化データに対して処理が可能。

EMR Notebooks

Gitリポジトリを関連づけてバージョニング等ができる。

ハンズオン

Yamahitsuji

Lake Formation

【AWS Black Belt Online Seminar】AWS Lake Formation
テーブル = S3に保存されているデータの場所
データベース = テーブルの集合

データカタログ

データカタログ＝データベースとテーブルに対するメタデータ。
Apache Hiveメタストア互換。Glueデータカタログと統合されている。

テーブル情報、テーブルプロパティ、テーブルスキーマ、テーブルパーティションが保存されている。
Glueクローラによって自動推論が可能。

メタデータに対して検索を行うことができる。ただし権限があるデータカタログのみ検索可能。
テーブルプロパティやカラムプロパティに独自のプロパティを設定可能。
利用者がセルフサービスで検索できるので素晴らしい！

ブループリント

データソースからデータレイクにデータを取り込むテンプレート。データベース用とログファイル用がある。バルクロード、増分ロードが行える。
中身はGlueのトリガー、ワークフロー、クローラー、ジョブで構成される。

ワークフローはブループリントから作成されたリソース。実態はGlueワークフロー。

アクセス許可

データロケーションのアクセス許可

データロケーション=データが保存されるS3パス。登録されたS3のある場所にデータベース、テーブルを作成するために、プリンシパルにその場所に対するアクセス許可を与える。
ブループリントを使う場合は、ブループリントをもとに作成されたワークフローのIAMロールを指定する。

データカタログのアクセス許可

データベースとテーブルを作成、編集、削除する権限。

データアクセス許可

テーブルの下になるデータを読み書きする権限。プリンシパルにテーブルに対する許可を与える。
ここで、権限の種類、カラムの指定が行える。

暗黙的なアクセス許可

作成者のオーナー権限みたいなイメージ。

データベース作成者はデータベース内のすべてのテーブルに対する権限を持つ。
デーブル作成者はテーブルに対するすべての権限を持つ。別のプリンシパルにアクセス許可を与えることもできる。
データレイクユーザは権限を持つデータベースまたはテーブルを一覧表示できる。
データレイク管理者（Lake Formation内の管理者ユーザ。not IAMパーミッション）はすべての権限を持つ。