📝

AWS AIF-C01 勉強メモ

に公開

公式練習問題集

AWS Skill Builderで無料で公開されている練習問題を解いて得た知識メモ。

機械学習系のAWSサービス

サービス 説明
Amazon Textract スキャンしたドキュメント、PDF、画像からテキストとデータを抽出できるサービス。
Amazon Rekognition 深層学習による画像および動画分析サービス。ユースケースの 1 つに、カスタムラベルを使用してモデルをトレーニングして、商品をカテゴリに分類することがある。モデルをトレーニングするには、データセットにラベル付きの画像を使用する必要がある。
Amazon Comprehend 自然言語処理 (NLP) を使用してテキストデータからインサイトと関係性を抽出できるサービス。
Amazon Polly テキストを自然な音声に変換できるテキスト読み上げ (TTS) サービス。
Amazon Kendra セマンティックとコンテキストを理解したうえで検索クエリに関連する応答を提供するインテリジェントな検索サービス。
Amazon Lex アプリケーション用の会話型インターフェイスを作成できる AI サービス。自然言語理解と自動音声認識を使用してチャットボットを作成する。
Amazon Translate 複数の言語間の翻訳を行うことができるサービス。
Amazon Transcribe 音声をテキストに変換できるサービス。バッチ言語識別を使用すると、音声ファイルの言語を自動的に識別できる。バッチ言語識別を使用して、選択した特定の言語のファイルを変換できる。また、メディア内に分野固有の用語や一般的でない用語がある場合は、カスタム語彙またはカスタムモデルを使用して文字起こしの正解率を向上させることができる。
Amazon Personalize 対話データに基づく検索結果やユーザーセグメントなど、レコメンデーションを目的としたフルマネージド型の ML サービス。
Amazon Q Business 生成 AI バーチャルアシスタント。与えられたデータに基づいて、質問に回答し、コンテンツを要約または生成し、タスクを実行できる。
Amazon Macie Amazon S3 に保存されている機密データを検出、分類、保護できる。

ファインチューニング

事前トレーニング済みの LLM を、ターゲットを絞った比較的小さなデータセットでさらにトレーニングし、調整していくプロセス。目的は、モデルの本来の機能を維持しつつ、専門性の高いユースケースに適応させること。

検索拡張生成(RAG)

LLM のトレーニングデータソースの外部にあるナレッジベースを参照することにより、LLM の品質と一貫性を向上させるプロセス。

コンテキスト内学習

想定される形式や出力に即して LLM が回答できるように、例をいくつか提供するプロセス。

プロンプトエンジニアリング

LLM が特定のタイプの出力を生成するように、入力プロンプトを設計および調整するプロセス。

管理系のAWSサービス

サービス 説明
Amazon Inspector AWS リソースをチェックして、設定にセキュリティ上のリスクや脆弱性がないかどうかを確認する。リソースの例には、EC2 インスタンス、ECR、Lambda がある。
Amazon CloudWatch CloudWatch を使用すると、Amazon Bedrock への API コールの数を確認できる。
AWS Trusted Advisor 高いセキュリティ基準を維持しながら、コストとパフォーマンスを考慮に入れてアカウントの環境を最適化する方法に関する情報を提供する。
AWS CloudTrail AWS アカウントの API コールをモニタリングして、ログに記録できる。CloudTrail のレコードには、API イベント、API コールを実行したユーザー、コールが実行された時刻が含まれる。
AWS Artifact セキュリティおよびコンプライアンスのドキュメントにオンデマンドでアクセスできる。
Amazon Fraud Detector 過去の取引データや行動データを基に不正行為を検出する。

Amazon SageMakerの機能

機能 説明
SageMaker Role Manager ML アクティビティに対するユーザーのアクセス許可を定義できる。
SageMaker Model Cards ML モデルに関するレコードを作成し、詳細情報を 1 か所にまとめて文書化できる。重要なモデル情報の包括的でイミュータブルなドキュメントを用意することで、透明性と説明可能性のあるモデル開発を支援する。
SageMaker Model Dashboard AWS アカウントのすべてのモデルを一元的に表示、検索、探索できる。モデルのデプロイ、使用状況、パフォーマンスの追跡、モニタリングに関するインサイトが得られる。
SageMaker Model Monitor 本番環境における ML モデルとデータの品質をモニタリングする。
SageMaker JumpStart 事前にトレーニングされたオープンソースのモデルを利用できる。画像生成用に事前トレーニング済みの基盤モデル (FM) や、要約や監査のユースケースに使用できる FM が用意されている。
SageMaker Canvas コードを書かずに機械学習モデルを作成できるノーコードのMLツール。主な機能として、自動データ前処理とモデル構築を提供している。
SageMaker Feature Store 機械学習モデルで使用する特徴量を一元管理し、チーム間で共有できるデータストア。
SageMaker Processing データの前処理、後処理、特徴量エンジニアリング、モデル評価などのタスクをスケーラブルなマネージド環境で実行するための機能。
SageMaker Neo 機械学習モデルを最適化してエッジデバイスやクラウドで効率的に実行するためのサービス。
SageMaker Data Wrangler データの準備や前処理を簡単に行うためのツール。
SageMaker Ground Truth ラベル付け作業を自動化するためのツール。

Amazon SageMaker 推論オプション

  • リアルタイム推論
    処理時間は 60 秒。トラフィックを処理するための永続型フルマネージドエンドポイントが用意されている。
  • 非同期推論
    処理時間が最長 1 時間であるユースケースに適している。
  • バッチ変換
    数日かかる処理に対応できる。

F1 スコア

モデルの二項分類の正解率を評価できる。適合率と再現率を使用して、モデルによる適正なクラスへの分類の正解率を評価する。

Recall-Oriented Understudy for Gisting Evaluation(ROUGE)

テキスト要約とテキスト生成の品質評価に使用できるメトリクス。

その他のメモ

サポートベクターマシン(SVM)

主に分類タスクに使用される機械学習アルゴリズム。データポイントをできるだけ確実に分類できるように、最適な境界線ハイパープレーンを見つける。

因数分解機

複数の要素間の関係性を学習し、特にレコメンデーションシステムや広告配信などでの予測に役立つ。

DeepLab V3

画像解析の分野で広く利用されているアルゴリズムで、特にセマンティックセグメンテーションタスクに優れた性能を発揮する。

k 平均法

教師なし学習の代表的なアルゴリズムの一つであり、データを似た特徴ごとに自動的にグループ化するクラスタリング手法。データをあらかじめ指定した数(k)のクラスタに分け、それぞれのクラスタの中心点セントロイドを計算し、データを反復的に割り当て直していくことで、最適なクラスタリングを実現する。

XGBoost

ブースティングという手法を用いて、弱い予測モデルを組み合わせて強力な予測モデルを作る手法。

WaveNet

音声信号の波形を直接生成することにより、高精度かつ自然な音声を作り出すことができる。

Sequence to Sequence(Seq2Seq)

音声やテキストの系列データを別の系列データに変換するアルゴリズムで、翻訳や文章生成などに利用される。機械翻訳(ニューラル機械翻訳)で利用されるケースが多いので、機械翻訳といえば・・という覚え方もしておくとよい。

主成分分析(PCA)

次元削減手法であり、データの圧縮や可視化に使用される。

潜在的ディリクレ配分法(LDA)

LDAはトピックモデリングに使用されるアルゴリズムであり、テキストデータのトピック抽出に適している。

ランダムカットフォレスト(RCF)

異常検出に使われるアルゴリズム。アウトライアの検出やクラスタリングに役立つ。

k 近傍法(k-NN)

類似性に基づいて新しいデータポイントを予測する。

バイアス・バリアンス

バイアスもバリアンスも低いほうがいい

  • バイアス
    モデルが訓練データのパターンを過剰に単純化してしまい、新しいデータにも同じ予測をしてしまう現象。
  • バリアンス
    モデルが新しいデータに対して予測結果が大きく変動する現象。

決定係数 R²

回帰モデルがどれだけデータをうまく説明しているかを示す指標。モデルの予測精度を評価するために使われ、値は 0 から 1 の範囲になる。R²の値が1に近いほど、モデルがデータをよく説明していることを意味する。

MXNet

画像分類や物体検出などのディープラーニングに利用されるフレームワーク。特にディープラーニングのモデルを効率的に作成・トレーニングするために使われる。

BLEU

主に機械翻訳や自然言語生成の分野で、生成されたテキストの品質を定量的に評価するために使用される指標。生成テキスト(モデルの出力)と基準翻訳(ゴールドスタンダード)との類似性をスコア化する。

セマンティックセグメンテーション

画像内の各ピクセルを特定のクラスに分類するアルゴリズム。

部分依存プロット (PDPs)

特定の特徴量がモデルの予測にどのように影響するかを視覚的に示す手法。

推論設定パラメータ

パラメータ 説明
トップK(Top K) 生成する単語候補を絞り込むパラメータで、最も高確率なK個の候補から次の単語を選ぶ。
トップP(Top P) 確率の合計がPになるまで単語候補を絞り込み、確率が高い単語の集合から選択する。
温度(Temperature) 出力の確率分布を調整するために使用され、温度が高いほど生成されるテキストは多様になる。
ペナルティ 生成されたテキスト内で特定の単語やフレーズの繰り返しを抑制したり、レスポンスの長さを抑制する。

Shapley 値

ゲーム理論に基づく手法で、各特徴量がモデルの予測にどの程度影響を与えているかを定量的に示す。

AWS Glue DataBrewのレシピ機能

繰り返し使用できるデータ前処理のルールをレシピとして保存することで、効率的なデータ準備を可能にする。

機械学習用インスタンス

インスタンスファミリー 説明
Gシリーズ 軽量なGPUベースのトレーニングと推論に適しており、コンピュータビジョンの推論や、VFX、グラフィックレンダリングなどの用途に使用される。
Pシリーズ 大規模なディープラーニングのトレーニングに適しており、ResNetやBERTなどの大規模モデルのトレーニングに使用される。
Infシリーズ 画像分類、自然言語処理、エッジデバイスへのリアルタイム推論に最適なインスタンス。高性能かつ低レイテンシで推論を実行する。
Trainiumシリーズ Amazonが開発した機械学習モデルのトレーニング専用プロセッサを搭載し、大規模なディープラーニングモデルの効率的なトレーニングに最適。コスト効率が高く、特にディープラーニングワークロードで高いパフォーマンスを発揮する。

インテリジェントドキュメント処理 (IDP)

請求書や契約書、領収書などの非構造化または半構造化ドキュメントから情報を自動的に抽出し、分類、整理するために使用される。

Grad-CAM(Gradient-weighted Class Activation Mapping)

ニューラルネットワークの判断根拠を可視化する手法で、モデルが特定のクラスに対して注目した領域を画像上にハイライト表示できる。

Discussion