📝

AWS AIF-C01 勉強メモ

2025/04/21に公開

AWS 認定試験

aif

tech

 公式練習問題集AWS Skill Builderで無料で公開されている練習問題を解いて得た知識メモ。

 機械学習系のAWSサービス

サービス
説明

Amazon Textract
スキャンしたドキュメント、PDF、画像からテキストとデータを抽出できるサービス。

Amazon Rekognition
深層学習による画像および動画分析サービス。ユースケースの 1 つに、カスタムラベルを使用してモデルをトレーニングして、商品をカテゴリに分類することがある。モデルをトレーニングするには、データセットにラベル付きの画像を使用する必要がある。

Amazon Comprehend
自然言語処理 (NLP) を使用してテキストデータからインサイトと関係性を抽出できるサービス。

Amazon Polly
テキストを自然な音声に変換できるテキスト読み上げ (TTS) サービス。

Amazon Kendra
セマンティックとコンテキストを理解したうえで検索クエリに関連する応答を提供するインテリジェントな検索サービス。

Amazon Lex
アプリケーション用の会話型インターフェイスを作成できる AI サービス。自然言語理解と自動音声認識を使用してチャットボットを作成する。

Amazon Translate
複数の言語間の翻訳を行うことができるサービス。

Amazon Transcribe
音声をテキストに変換できるサービス。バッチ言語識別を使用すると、音声ファイルの言語を自動的に識別できる。バッチ言語識別を使用して、選択した特定の言語のファイルを変換できる。また、メディア内に分野固有の用語や一般的でない用語がある場合は、カスタム語彙またはカスタムモデルを使用して文字起こしの正解率を向上させることができる。

Amazon Personalize
対話データに基づく検索結果やユーザーセグメントなど、レコメンデーションを目的としたフルマネージド型の ML サービス。

Amazon Q Business
生成 AI バーチャルアシスタント。与えられたデータに基づいて、質問に回答し、コンテンツを要約または生成し、タスクを実行できる。

Amazon Macie
Amazon S3 に保存されている機密データを検出、分類、保護できる。

 ファインチューニング事前トレーニング済みの LLM を、ターゲットを絞った比較的小さなデータセットでさらにトレーニングし、調整していくプロセス。目的は、モデルの本来の機能を維持しつつ、専門性の高いユースケースに適応させること。

 検索拡張生成（RAG）LLM のトレーニングデータソースの外部にあるナレッジベースを参照することにより、LLM の品質と一貫性を向上させるプロセス。

 コンテキスト内学習想定される形式や出力に即して LLM が回答できるように、例をいくつか提供するプロセス。

 プロンプトエンジニアリングLLM が特定のタイプの出力を生成するように、入力プロンプトを設計および調整するプロセス。

 管理系のAWSサービス

サービス
説明

Amazon Inspector
AWS リソースをチェックして、設定にセキュリティ上のリスクや脆弱性がないかどうかを確認する。リソースの例には、EC2 インスタンス、ECR、Lambda がある。

Amazon CloudWatch
CloudWatch を使用すると、Amazon Bedrock への API コールの数を確認できる。

AWS Trusted Advisor
高いセキュリティ基準を維持しながら、コストとパフォーマンスを考慮に入れてアカウントの環境を最適化する方法に関する情報を提供する。

AWS CloudTrail
AWS アカウントの API コールをモニタリングして、ログに記録できる。CloudTrail のレコードには、API イベント、API コールを実行したユーザー、コールが実行された時刻が含まれる。

AWS Artifact
セキュリティおよびコンプライアンスのドキュメントにオンデマンドでアクセスできる。

Amazon Fraud Detector
過去の取引データや行動データを基に不正行為を検出する。

 Amazon SageMakerの機能

機能
説明

SageMaker Role Manager
ML アクティビティに対するユーザーのアクセス許可を定義できる。

SageMaker Model Cards
ML モデルに関するレコードを作成し、詳細情報を 1 か所にまとめて文書化できる。重要なモデル情報の包括的でイミュータブルなドキュメントを用意することで、透明性と説明可能性のあるモデル開発を支援する。

SageMaker Model Dashboard
AWS アカウントのすべてのモデルを一元的に表示、検索、探索できる。モデルのデプロイ、使用状況、パフォーマンスの追跡、モニタリングに関するインサイトが得られる。

SageMaker Model Monitor
本番環境における ML モデルとデータの品質をモニタリングする。

SageMaker JumpStart
事前にトレーニングされたオープンソースのモデルを利用できる。画像生成用に事前トレーニング済みの基盤モデル (FM) や、要約や監査のユースケースに使用できる FM が用意されている。

SageMaker Canvas
コードを書かずに機械学習モデルを作成できるノーコードのMLツール。主な機能として、自動データ前処理とモデル構築を提供している。

SageMaker Feature Store
機械学習モデルで使用する特徴量を一元管理し、チーム間で共有できるデータストア。

SageMaker Processing
データの前処理、後処理、特徴量エンジニアリング、モデル評価などのタスクをスケーラブルなマネージド環境で実行するための機能。

SageMaker Neo
機械学習モデルを最適化してエッジデバイスやクラウドで効率的に実行するためのサービス。

SageMaker Data Wrangler
データの準備や前処理を簡単に行うためのツール。

SageMaker Ground Truth
ラベル付け作業を自動化するためのツール。

 Amazon SageMaker 推論オプションリアルタイム推論

処理時間は 60 秒。トラフィックを処理するための永続型フルマネージドエンドポイントが用意されている。
非同期推論

処理時間が最長 1 時間であるユースケースに適している。
バッチ変換

数日かかる処理に対応できる。

 F1 スコアモデルの二項分類の正解率を評価できる。適合率と再現率を使用して、モデルによる適正なクラスへの分類の正解率を評価する。

 Recall-Oriented Understudy for Gisting Evaluation(ROUGE)テキスト要約とテキスト生成の品質評価に使用できるメトリクス。

 その他のメモ
 サポートベクターマシン（SVM）主に分類タスクに使用される機械学習アルゴリズム。データポイントをできるだけ確実に分類できるように、最適な境界線ハイパープレーンを見つける。

 因数分解機複数の要素間の関係性を学習し、特にレコメンデーションシステムや広告配信などでの予測に役立つ。

 DeepLab V3画像解析の分野で広く利用されているアルゴリズムで、特にセマンティックセグメンテーションタスクに優れた性能を発揮する。

 k 平均法教師なし学習の代表的なアルゴリズムの一つであり、データを似た特徴ごとに自動的にグループ化するクラスタリング手法。データをあらかじめ指定した数（k）のクラスタに分け、それぞれのクラスタの中心点セントロイドを計算し、データを反復的に割り当て直していくことで、最適なクラスタリングを実現する。

 XGBoostブースティングという手法を用いて、弱い予測モデルを組み合わせて強力な予測モデルを作る手法。

 WaveNet音声信号の波形を直接生成することにより、高精度かつ自然な音声を作り出すことができる。

 Sequence to Sequence（Seq2Seq）音声やテキストの系列データを別の系列データに変換するアルゴリズムで、翻訳や文章生成などに利用される。機械翻訳（ニューラル機械翻訳）で利用されるケースが多いので、機械翻訳といえば・・という覚え方もしておくとよい。

 主成分分析（PCA）次元削減手法であり、データの圧縮や可視化に使用される。

 潜在的ディリクレ配分法（LDA）LDAはトピックモデリングに使用されるアルゴリズムであり、テキストデータのトピック抽出に適している。

 ランダムカットフォレスト（RCF）異常検出に使われるアルゴリズム。アウトライアの検出やクラスタリングに役立つ。

 k 近傍法（k-NN）類似性に基づいて新しいデータポイントを予測する。

 バイアス・バリアンスバイアスもバリアンスも低いほうがいい
バイアス

モデルが訓練データのパターンを過剰に単純化してしまい、新しいデータにも同じ予測をしてしまう現象。
バリアンス

モデルが新しいデータに対して予測結果が大きく変動する現象。

 決定係数 R²回帰モデルがどれだけデータをうまく説明しているかを示す指標。モデルの予測精度を評価するために使われ、値は 0 から 1 の範囲になる。R²の値が1に近いほど、モデルがデータをよく説明していることを意味する。

 MXNet画像分類や物体検出などのディープラーニングに利用されるフレームワーク。特にディープラーニングのモデルを効率的に作成・トレーニングするために使われる。

 BLEU主に機械翻訳や自然言語生成の分野で、生成されたテキストの品質を定量的に評価するために使用される指標。生成テキスト（モデルの出力）と基準翻訳（ゴールドスタンダード）との類似性をスコア化する。

 セマンティックセグメンテーション画像内の各ピクセルを特定のクラスに分類するアルゴリズム。

 部分依存プロット (PDPs)特定の特徴量がモデルの予測にどのように影響するかを視覚的に示す手法。

 推論設定パラメータ

パラメータ
説明

トップK（Top K）
生成する単語候補を絞り込むパラメータで、最も高確率なK個の候補から次の単語を選ぶ。

トップP（Top P）
確率の合計がPになるまで単語候補を絞り込み、確率が高い単語の集合から選択する。

温度（Temperature）
出力の確率分布を調整するために使用され、温度が高いほど生成されるテキストは多様になる。

ペナルティ
生成されたテキスト内で特定の単語やフレーズの繰り返しを抑制したり、レスポンスの長さを抑制する。

 Shapley 値ゲーム理論に基づく手法で、各特徴量がモデルの予測にどの程度影響を与えているかを定量的に示す。

 AWS Glue DataBrewのレシピ機能繰り返し使用できるデータ前処理のルールをレシピとして保存することで、効率的なデータ準備を可能にする。

 機械学習用インスタンス

インスタンスファミリー
説明

Gシリーズ
軽量なGPUベースのトレーニングと推論に適しており、コンピュータビジョンの推論や、VFX、グラフィックレンダリングなどの用途に使用される。

Pシリーズ
大規模なディープラーニングのトレーニングに適しており、ResNetやBERTなどの大規模モデルのトレーニングに使用される。

Infシリーズ
画像分類、自然言語処理、エッジデバイスへのリアルタイム推論に最適なインスタンス。高性能かつ低レイテンシで推論を実行する。

Trainiumシリーズ
Amazonが開発した機械学習モデルのトレーニング専用プロセッサを搭載し、大規模なディープラーニングモデルの効率的なトレーニングに最適。コスト効率が高く、特にディープラーニングワークロードで高いパフォーマンスを発揮する。

 インテリジェントドキュメント処理 (IDP)請求書や契約書、領収書などの非構造化または半構造化ドキュメントから情報を自動的に抽出し、分類、整理するために使用される。

 Grad-CAM（Gradient-weighted Class Activation Mapping）ニューラルネットワークの判断根拠を可視化する手法で、モデルが特定のクラスに対して注目した領域を画像上にハイライト表示できる。

サービス	説明
Amazon Textract	スキャンしたドキュメント、PDF、画像からテキストとデータを抽出できるサービス。
Amazon Rekognition	深層学習による画像および動画分析サービス。ユースケースの 1 つに、カスタムラベルを使用してモデルをトレーニングして、商品をカテゴリに分類することがある。モデルをトレーニングするには、データセットにラベル付きの画像を使用する必要がある。
Amazon Comprehend	自然言語処理 (NLP) を使用してテキストデータからインサイトと関係性を抽出できるサービス。
Amazon Polly	テキストを自然な音声に変換できるテキスト読み上げ (TTS) サービス。
Amazon Kendra	セマンティックとコンテキストを理解したうえで検索クエリに関連する応答を提供するインテリジェントな検索サービス。
Amazon Lex	アプリケーション用の会話型インターフェイスを作成できる AI サービス。自然言語理解と自動音声認識を使用してチャットボットを作成する。
Amazon Translate	複数の言語間の翻訳を行うことができるサービス。
Amazon Transcribe	音声をテキストに変換できるサービス。バッチ言語識別を使用すると、音声ファイルの言語を自動的に識別できる。バッチ言語識別を使用して、選択した特定の言語のファイルを変換できる。また、メディア内に分野固有の用語や一般的でない用語がある場合は、カスタム語彙またはカスタムモデルを使用して文字起こしの正解率を向上させることができる。
Amazon Personalize	対話データに基づく検索結果やユーザーセグメントなど、レコメンデーションを目的としたフルマネージド型の ML サービス。
Amazon Q Business	生成 AI バーチャルアシスタント。与えられたデータに基づいて、質問に回答し、コンテンツを要約または生成し、タスクを実行できる。
Amazon Macie	Amazon S3 に保存されている機密データを検出、分類、保護できる。

サービス	説明
Amazon Inspector	AWS リソースをチェックして、設定にセキュリティ上のリスクや脆弱性がないかどうかを確認する。リソースの例には、EC2 インスタンス、ECR、Lambda がある。
Amazon CloudWatch	CloudWatch を使用すると、Amazon Bedrock への API コールの数を確認できる。
AWS Trusted Advisor	高いセキュリティ基準を維持しながら、コストとパフォーマンスを考慮に入れてアカウントの環境を最適化する方法に関する情報を提供する。
AWS CloudTrail	AWS アカウントの API コールをモニタリングして、ログに記録できる。CloudTrail のレコードには、API イベント、API コールを実行したユーザー、コールが実行された時刻が含まれる。
AWS Artifact	セキュリティおよびコンプライアンスのドキュメントにオンデマンドでアクセスできる。
Amazon Fraud Detector	過去の取引データや行動データを基に不正行為を検出する。

機能	説明
SageMaker Role Manager	ML アクティビティに対するユーザーのアクセス許可を定義できる。
SageMaker Model Cards	ML モデルに関するレコードを作成し、詳細情報を 1 か所にまとめて文書化できる。重要なモデル情報の包括的でイミュータブルなドキュメントを用意することで、透明性と説明可能性のあるモデル開発を支援する。
SageMaker Model Dashboard	AWS アカウントのすべてのモデルを一元的に表示、検索、探索できる。モデルのデプロイ、使用状況、パフォーマンスの追跡、モニタリングに関するインサイトが得られる。
SageMaker Model Monitor	本番環境における ML モデルとデータの品質をモニタリングする。
SageMaker JumpStart	事前にトレーニングされたオープンソースのモデルを利用できる。画像生成用に事前トレーニング済みの基盤モデル (FM) や、要約や監査のユースケースに使用できる FM が用意されている。
SageMaker Canvas	コードを書かずに機械学習モデルを作成できるノーコードのMLツール。主な機能として、自動データ前処理とモデル構築を提供している。
SageMaker Feature Store	機械学習モデルで使用する特徴量を一元管理し、チーム間で共有できるデータストア。
SageMaker Processing	データの前処理、後処理、特徴量エンジニアリング、モデル評価などのタスクをスケーラブルなマネージド環境で実行するための機能。
SageMaker Neo	機械学習モデルを最適化してエッジデバイスやクラウドで効率的に実行するためのサービス。
SageMaker Data Wrangler	データの準備や前処理を簡単に行うためのツール。
SageMaker Ground Truth	ラベル付け作業を自動化するためのツール。

パラメータ	説明
トップK（Top K）	生成する単語候補を絞り込むパラメータで、最も高確率なK個の候補から次の単語を選ぶ。
トップP（Top P）	確率の合計がPになるまで単語候補を絞り込み、確率が高い単語の集合から選択する。
温度（Temperature）	出力の確率分布を調整するために使用され、温度が高いほど生成されるテキストは多様になる。
ペナルティ	生成されたテキスト内で特定の単語やフレーズの繰り返しを抑制したり、レスポンスの長さを抑制する。

インスタンスファミリー	説明
Gシリーズ	軽量なGPUベースのトレーニングと推論に適しており、コンピュータビジョンの推論や、VFX、グラフィックレンダリングなどの用途に使用される。
Pシリーズ	大規模なディープラーニングのトレーニングに適しており、ResNetやBERTなどの大規模モデルのトレーニングに使用される。
Infシリーズ	画像分類、自然言語処理、エッジデバイスへのリアルタイム推論に最適なインスタンス。高性能かつ低レイテンシで推論を実行する。
Trainiumシリーズ	Amazonが開発した機械学習モデルのトレーニング専用プロセッサを搭載し、大規模なディープラーニングモデルの効率的なトレーニングに最適。コスト効率が高く、特にディープラーニングワークロードで高いパフォーマンスを発揮する。

公式練習問題集

機械学習系のAWSサービス

ファインチューニング

検索拡張生成（RAG）

コンテキスト内学習

プロンプトエンジニアリング

管理系のAWSサービス

Amazon SageMakerの機能

Amazon SageMaker 推論オプション

F1 スコア

Recall-Oriented Understudy for Gisting Evaluation(ROUGE)

その他のメモ

サポートベクターマシン（SVM）

因数分解機

DeepLab V3

k 平均法

XGBoost

WaveNet

Sequence to Sequence（Seq2Seq）

主成分分析（PCA）

潜在的ディリクレ配分法（LDA）

ランダムカットフォレスト（RCF）

k 近傍法（k-NN）

バイアス・バリアンス

決定係数 R²

MXNet

BLEU

セマンティックセグメンテーション

部分依存プロット (PDPs)

推論設定パラメータ

Shapley 値

AWS Glue DataBrewのレシピ機能

機械学習用インスタンス

インテリジェントドキュメント処理 (IDP)

Grad-CAM（Gradient-weighted Class Activation Mapping）

Discussion