📝

AWS MLA 勉強メモ

2024/11/09に公開

AWS Certified Machine Learning Engineer - Associate 認定 | AWS 認定 | AWS
MLA を受験予定なので勉強メモを残していきます。
自分自身の振り返り用ですがどなたかの参考になれば幸いです。

Comprehend での PII 検出

PII エンティティの検出 - Amazon Comprehend

Amazon Comprehend を使用して、英語またはスペイン語のテキストドキュメント内のPIIエンティティを検出できます。

Glue での PII 検出

機密データを検出して処理する - AWS Glue

Detect PII変換は、データソース内の個人を特定できる情報 (PII) を識別します。

SageMaker Canvas での PII 検出

Amazon SageMaker Canvas では、コードを一切書かずに機械学習を使用できます | Amazon Web Services ブログ

SageMaker Canvas による個人情報検出を使用して機密データを保護することもできます。テキスト文書を分析して個人を特定できる情報 (PII) エンティティを自動的に検出できるため、名前、住所、生年月日、電話番号、電子メールアドレスなどの機密データを特定できます。

Glue ETL スクリプトのサポート言語

AWS Glue プログラミングガイド - AWS Glue

AWS Glue ETL スクリプトは Python または Scala で記述されます。すべてのジョブタイプは Python で記述できますが、AWS Glue for Spark ジョブは Scala でも記述できます。

SageMaker Processing

SageMaker 処理によるデータ変換ワークロード - Amazon SageMaker

SageMaker Processing API を使用すると、データ サイエンティストはスクリプトとノートブックを実行してデータセットを処理、変換、分析し、機械学習用に準備することができます。

部分依存プロット (PDP)

特徴量ごとの作用: DataRobot docs

部分依存プロットは、特徴量が機械学習モデルの予測結果に与える限界効果、または1つの特徴量を変更するだけで他のすべてを一定に保った場合に予測がどのように変化するかを示します。

ラベルの比率の差 (DPL)

ラベルの割合の差 (DPL) - Amazon SageMaker

ラベルの比率の差 (DPL) は、ファセット d の陽性ラベルと観察された結果の割合を、トレーニングデータセットのファセット a の陽性ラベルと観察された結果の割合と比較します。

SageMaker Canvas に独自モデルをインポート可能

SageMaker Studio Classic から SageMaker Canvas に独自のモデルを導入する - Amazon SageMaker

ML モデルのメタデータストアである SageMaker Model Registry に ML モデルを登録し、 SageMaker Canvas にインポートできます。

ベクトル化

ChatGPTのベクトルデータベースをわかりやすく解説! | AI総合研究所

データの特徴を数値の並びとして表現することをベクトル化と呼びます。

ベクトルデータベース

ベクトルデータベースとは何ですか?|包括的なベクトルデータベースのガイド | Elastic

ベクトルデータベースとは、情報をデータオブジェクトの数値表現(ベクトル埋め込みとしても知られている)であるベクトルとして保存するデータベースのことです。

AWS のベクトルデータベース

ベクターデータベースとは ベクターデータベースの説明 - AWS

  • Amazon OpenSearch Service
  • Amazon Aurora PostgreSQL 互換エディション
  • Amazon Relational Database Service (Amazon RDS) for PostgreSQL
  • Amazon Neptune ML
  • Amazon MemoryDB
  • Amazon DocumentDB (MongoDB 互換)

RAG

【初心者向け解説】AI領域でよく耳にする「RAG」とは?その概念から具体的な活用方法まで解説! | ARCHETYP Staffing Magazine

わかりやすく言うと、大量のデータの中から関連する情報を取り出し、その情報を基に新たな文章を生成するという技術のことを指します。

Bedrock knowledge base でサポートされているデータソース

ナレッジベースのデータソースコネクタを作成する - Amazon Bedrock

  • S3
  • Confluence
  • Microsoft SharePoint
  • Salesforce
  • ウェブサイトページ (URLs)

Bedrock knowledge base でサポートされているベクトルストア

ナレッジベースの独自のベクトルストアの前提条件 - Amazon Bedrock

  • OpenSearch Serverless (Bedrock による自動生成)
  • Aurora PostgreSQL
  • Pinecone
  • Redis Enterprise Cloud
  • MongoDB Atlas

SageMaker Model Registry の機能

Model Registry を使用したモデル登録デプロイ - Amazon SageMaker

  • 本番稼働用モデルのカタログ化
  • モデルのバージョン管理
  • モデルへのメタデータ (トレーニングメトリクスなど) の関連付け
  • 登録したモデルの Amazon SageMaker モデルカードの情報を表示
  • モデルの承認ステータスの管理
  • 本番環境へのモデルデプロイ
  • CI/CD による、モデルデプロイの自動化
  • 他のユーザーとモデルを共有

SageMaker Experiments は Studio Classic と統合されている

Studio Classic での Amazon SageMaker 実験 - Amazon SageMaker

SageMaker Experiments は Amazon SageMaker Studio Classic と統合されており、アクティブな実験と過去の実験を参照し、主要なパフォーマンス指標で実行を比較し、最もパフォーマンスの高いモデルを特定するための視覚的なインターフェイスを提供します。

SageMaker with MLflow

Machine learning experiments using Amazon SageMaker with MLflow - Amazon SageMaker

Amazon SageMaker with MLflow は、機械学習の実験を作成、管理、分析、比較できる Amazon SageMaker の機能です。

SageMaker Model Monitor の Data Capture

データキャプチャ - Amazon SageMaker

エンドポイントへの入力とデプロイされたモデルからの推論出力を Amazon S3 に記録するには、「データキャプチャ」と呼ばれる機能を有効にできます。「データキャプチャ」は通常、トレーニング、デバッグ、モニタリングに使用できる情報を記録するために使用されます。

SageMaker の推論オプション

Inference options in Amazon SageMaker - Amazon SageMaker

  • リアルタイム推論
    • 低レイテンシ、高スループット
    • 最大 6 MB のペイロードサイズ
    • 60 秒の処理時間
  • サーバーレス推論
    • 断続的または予測不可能なトラフィックパターン
    • 最大 4 MB のペイロードサイズ
    • 60 秒の処理時間
    • 最大同時実行数は 200
    • 単一リージョンのエンドポイント数の上限は 50
    • メモリ上限は 6 MB
    • コンテナイメージの上限は 10 MB
  • バッチ変換
    • 大量のデータが事前に利用可能で、永続的なエンドポイントが必要ない場合のオフライン処理
    • データセットの前処理
  • 非同期推論
    • リクエストをキューに入れる必要がある推論
    • 大きなペイロードサイズや長時間の処理を要する推論
    • 最大 1 GB のペイロードサイズ
    • 1 時間の処理時間

SageMaker Clarify の機能

SageMaker Clarify による公平性、モデルの説明可能性、バイアス検出 - Amazon SageMaker

  • モデルの予測におけるバイアスを検出
  • 事前トレーニングデータ内のバイアスの種類を識別
  • トレーニング中またはモデルの運用中に発生する可能性のある、トレーニング後のデータにおけるバイアスの種類を特定

SageMaker with TensorBoard

TensorBoard in Amazon SageMaker - Amazon SageMaker

SageMakerとTensorBoardを使用すると、トレーニングジョブから抽出されたモデル出力テンソルを視覚化できます。

SageMaker Pipelines

パイプライン - Amazon SageMaker

Amazon SageMaker Pipelines は、機械学習 (ML) 開発を自動化するための専用のワークフローオーケストレーションサービスです。

Amazon Titan Text Embeddings models

Amazon Titan Text Embeddings models - Amazon Bedrock

テキスト埋め込みは、文書、段落、文などの非構造化テキストの意味のあるベクトル表現を表します。テキストを入力すると、(1 x n)ベクトルが出力されます。埋め込みベクトルは様々な用途に利用できます。

レーベンシュタイン距離 (文字列距離関数)

レーベンシュタイン距離について分かりやすく解説します|Non

簡単に言うと、ある文字列Aと別の文字列Bを比較した時に、二つの言葉がどの程度異なっているかを示す尺度です。

SageMaker 自動モデルチューニング (AMT)

Automatic model tuning with SageMaker - Amazon SageMaker

Amazon SageMaker 自動モデルチューニング (AMT) は、ハイパーパラメータチューニングとも呼ばれます。

SageMaker 自動モデルチューニングのウォームスタート

ウォームスタートのハイパーパラメータ調整ジョブを実行する - Amazon SageMaker

ウォームスタートを検討する理由は次のとおりです。

  • 各反復の後で表示される結果に基づいて、いくつかの調整ジョブに比べてトレーニングジョブの数を徐々に増やすため。
  • 受け取った新しいデータを使用してモデルを調整するため。
  • 以前の調整ジョブで使用したハイパーパラメータの範囲を変更するか、静的ハイパーパラメータを調整可能に変更するか、調整可能ハイパーパラメータを静的値に変更するため。
  • 以前のハイパーパラメータジョブが早期停止されたか、予期せず停止した。

SageMaker 自動モデルチューニングのウォームスタートの種類

ハイパーパラメータチューニングジョブのウォームスタートを使って、Amazon SageMaker 自動モデルチューニングの効率をさらに向上 | Amazon Web Services ブログ

  • IDENTICAL_DATA_AND_ALGORITHM ウォームは、基本的に同じタスクで以前の評価を使用してチューニングジョブを開始することで、探索空間のわずかな変化を可能にします。このオプションは、データセットとアルゴリズムコンテナが変更されていない場合に使用する必要があります。
  • TRANSFER_LEARNING ウォームは、類似タスクからの評価を使用してチューニングジョブを開始し、探索空間、アルゴリズム画像、データセットの変更を可能にします。

Amazon Fraud Detector

What is Amazon Fraud Detector? - Amazon Fraud Detector

Amazon Fraud Detector は、オンラインでの不正行為の可能性のあるアクティビティを自動的に検出する、フルマネージド型の不正検出サービスです。

Fraud Detector でインポート可能な SageMaker モデル

モデルのインポート SageMaker - Amazon Fraud Detector

  • XGBoost
  • Linear Learner
  • Random Cut Forest

レキシカル検索

Amazon OpenSearch Service の検索機能強化: 2023年のまとめ | Amazon Web Services ブログ

レキシカル検索では、検索エンジンが検索クエリの単語とドキュメントの単語を比較し、単語と単語が一致するかどうかを照合します。 ユーザーが入力した単語を含むアイテムのみがクエリと一致します。

セマンティック検索

Amazon OpenSearch Service の検索機能強化: 2023年のまとめ | Amazon Web Services ブログ

セマンティック検索では、検索エンジンは ML モデルを使用して、ソースドキュメントのテキストやその他のメディア(画像や動画など)を高次元のベクトル空間内の密ベクトル (dense vector) としてエンコードします。これはテキストをベクトル空間に埋め込むことから、「埋め込み」とも呼ばれます。

LLM プロンプトの拡張

RAG とは何ですか? - 検索拡張生成 AI の説明 - AWS

RAG モデルは、取得した関連データをコンテキストに追加することで、ユーザー入力 (またはプロンプト) を強化します。このステップでは、プロンプトエンジニアリング手法を使用して LLM と効果的に通信します。拡張プロンプトにより、大規模な言語モデルでもユーザークエリに対する正確な回答を生成できます。

SageMaker トレーニングジョブのデータソース

データセットにアクセスするためのトレーニングジョブの設定 - Amazon SageMaker

  • S3
  • EFS
  • FSx for Lustre

SageMaker Model Monitor のモニタリング機能

Amazon Model Monitor によるデータおよび SageMaker モデル品質のモニタリング - Amazon SageMaker

  • データ品質: データ品質のドリフトを監視
  • モデル品質: モデル品質メトリクス (精度など) のドリフトをモニタリング
  • 本番環境のモデルのバイアスドリフト: モデルの予測のバイアスをモニタリング
  • 本番環境のモデルの特徴量属性ドリフト: 特徴属性のドリフトを監視

Auto Scaling の推奨はターゲット追跡スケーリングポリシー

自動スケーリングポリシーの概要 - Amazon SageMaker

ターゲット追跡スケーリングポリシーを使用することをお勧めします。

ハイパーパラメータチューニング戦略

Amazon で利用可能なハイパーパラメータチューニング戦略を理解する SageMaker - Amazon SageMaker

  • Grid search
  • Random search
  • Bayesian optimization

Grid search

ハイパーパラメータとは - ハイパーパラメータチューニングを行う方法 - AWS

グリッドサーチでは、ハイパーパラメータのリストとパフォーマンスメトリクスを指定すると、アルゴリズムはすべての可能な組み合わせから最適な組み合わせを決定します。

Random search

ハイパーパラメータとは - ハイパーパラメータチューニングを行う方法 - AWS

ランダムサーチはイテレーションごとにハイパーパラメータのグループをランダムに選択します。比較的少数のハイパーパラメータが主にモデルの結果を決定する場合に良好に機能します。

Bayesian optimization

Amazon で利用可能なハイパーパラメータチューニング戦略を理解する SageMaker - Amazon SageMaker

ハイパーパラメータの調整は、どのハイパーパラメータの組み合わせが最良の結果を得る可能性が高いかを推測します。
これにより、ハイパーパラメータ値の範囲を探索して、まだ十分に理解されていない新しい領域を見つけることができます。

オーバーフィット

オーバーフィットとは?- 機械学習における過学習、過剰適合の説明 - AWS

オーバーフィットとは、機械学習モデルがトレーニングデータに対して正確な予測をするが、新しいデータについては正確に予測しないという、望ましくない機械学習の動作です。

SageMaker マネージドスポットトレーニング

Managed Spot Training in Amazon SageMaker - Amazon SageMaker

スポットインスタンスは中断されることがあります。その場合、ジョブの開始または終了に時間がかかる場合があります。ローカルパスから Amazon S3 にチェックポイントデータ SageMaker をコピーするように、マネージドスポットトレーニングジョブを設定できます。

モデルの再トレーニング

新しいデータでのモデルの再トレーニング - Amazon Machine Learning

モデルが精度の高い予測をするためには、予測の基になっているデータが、モデルがトレーニングされたデータと同様の分布を持っている必要があります。

SageMaker の組み込みアルゴリズム

Built-in algorithms and pretrained models in Amazon SageMaker - Amazon SageMaker

SageMaker Neo

Amazon SageMaker Neo(2 倍の速度で機械学習モデルを実行)| AWS

Amazon SageMaker Neo は、クラウドインスタンスとエッジデバイスでの推論のために機械学習モデルを自動的に最適化して、精度を損なうことなくより高速に実行します。

EKS での機械学習

Machine Learning on Amazon EKS Overview - Amazon EKS

Amazon EKS は、TensorFlow、PyTorch、Ray などの一般的な AI/ML ツールやフレームワークとシームレスに統合され、データ サイエンティストやエンジニアにとって使い慣れた堅牢なエコシステムを提供します。

MWAA

Amazon Managed Workflows for Apache Airflow (MWAA) に関するよくある質問 – Amazon Web Services

Amazon Managed Workflows for Apache Airflows (MWAA) は、ワークフローと呼ばれる一連のタスクを通じてデータを組み合わせ、強化し、変換することにより、組織全体でビジネスに関する洞察を抽出するために使用されるマネージド Apache Airflow サービスです。

SageMaker でのブルー/グリーンデプロイ

Blue/Green Deployments - Amazon SageMaker

エンドポイントを更新すると、Amazon SageMaker は自動的にブルー/グリーンデプロイを使用してエンドポイントの可用性を最大化します。

XGBoost

ブースティングとは何ですか? - 機械学習におけるブースティングの説明 - AWS

極端な勾配ブースティング (XGBoost) は、複数の方法でコンピューティング速度とスケールインの勾配ブースティングを改善します。

条件付き人口統計格差 (CDD)

条件付き人口統計格差 (CDD) - Amazon SageMaker

CDD メトリクスは、データセットの属性によって定義されるサブグループで見つかったすべての格差を、平均化して 1 つの測定を提供します。

予測ラベルの条件付き人口統計格差 (CDDPL)

予測ラベルの条件付き人口統計格差 (CDDPL) - Amazon SageMaker

このメトリクスは、観測されたラベルではなく予測されたラベルから計算される点を除いて、トレーニング前のCDDメトリクスとまったく同じです。

SageMaker モデルダッシュボード

Amazon SageMaker モデルダッシュボード - Amazon SageMaker

SageMaker Model Dashboard は、 SageMaker コンソールからアクセスできる一元化されたポータルで、アカウント内のすべてのモデルを表示、検索、探索できます。どのモデルが推論用にデプロイされているか、バッチ変換ジョブに使用されているのか、エンドポイントでホストされているのかを追跡できます。

SageMaker JumpStart

SageMaker JumpStart 事前トレーニング済みモデル - Amazon SageMaker

SageMaker JumpStart は、機械学習の開始に役立つ、さまざまな問題タイプに対応する事前トレーニング済みのオープンソースモデルを提供します。デプロイする前に、これらのモデルを段階的にトレーニングおよび調整できます。

アンサンブル学習

Efficiently train, tune, and deploy custom ensembles using Amazon SageMaker | AWS Machine Learning Blog

  • Boosting: 複数の弱い学習者を順番にトレーニング
  • Bagging: 複数のモデルを使用して、単一のモデルの分散を減らす
  • Stacking: 異種モデルで各推定器の予測が積み重ねられ、予測を処理する最終推定器への入力として使用される

解釈可能性と説明可能性

Interpretability versus explainability - Model Explainability with AWS Artificial Intelligence and Machine Learning Solutions

  • 解釈可能性: AI/ML メソッドの内部メカニズムを観察し、モデルの重みと特徴を解釈して、特定の出力を決定
  • 説明可能性: 機械学習モデルを人間の言葉で説明する方法

探索的データ分析 (EDA)

【文系でもわかる】探索的分析(EDA)とは?AI開発で非常に重要なステップを理解しよう。 | Hakky Handbook

探索的データ分析(EDA)とは、データから何を読み取ることが出来るかを探り、適切な分析のアルゴリズムは何なのかを検討するプロセスです。

Data Wrangler のフィルター

データを変換する - Amazon SageMaker

Data Wrangler を使用して列内のデータをフィルターします。

帰属化の帰属化 (Impute missing)

データを変換する - Amazon SageMaker

入力カテゴリと数値データで欠落値が見つかった帰属化された値を含む新しい列を作成します。

Format String

データを変換する - Amazon SageMaker

これらのオペレーションを使用して、特殊文字の削除、文字列長の正規化、文字列の大文字と小文字の更新を行うことができます。

SageMaker のスクリプトモード

Amazon SageMaker スクリプトモードでの TensorFlow Eager Execution の使用 | Amazon Web Services ブログ

Amazon SageMaker は、TensorFlow などの人気の高い機械学習 (ML) および深層学習フレームワークの一部を使ったモデルの訓練とデプロイメントを容易にする API と事前構築されたコンテナを提供します。Amazon SageMaker は、コンテナの構築や基盤となるインフラストラクチャの管理について心配することなく、カスタム TensorFlow コードを使用したモデルを訓練してデプロイするために使用できます。

トークン

トークン(Token)とは?-AI関連の用語集【クラベルAI】-

自然言語処理(NLP)で用いられる単位で、テキストを意味のある最小単位に分割したもの

埋め込み

埋め込みとは何ですか? - 機械学習における埋め込みの説明 - AWS

埋め込みとは、機械学習 (ML) や人工知能 (AI) システムが人間のように複雑な知識領域を理解するために使用する、現実世界のオブジェクトを数値で表現したものです。

ユースケースごとのデータ準備ツール

Recommendations for choosing the right data preparation tool in SageMaker - Amazon SageMaker

破滅的忘却

破滅的忘却と継続学習の問題設定について | スキルアップAI Journal

モデルが次々と新しいタスクを学習するときに、過去に学習したタスクを忘れてしまう現象

モデルパラメータ

LLM(大規模言語モデル)のパラメータとは?役割とメリットについて解説 - ワークスアイディ

正確な結果を出せるようにする為の、モデルの内部で調整される変数

プルーニング

ディープラーニングを軽量化する「モデル圧縮」3手法 – 株式会社Laboro.AI

ノードや重みを削除することでパラメータ数を減少させます。記憶する必要があるパラメータが減少することによって、計算する回数が削減され、メモリ使用量が少なくなります。その結果、モデルの軽量化と処理の高速化が期待できます。

量子化

ディープラーニングを軽量化する「モデル圧縮」3手法 – 株式会社Laboro.AI

重みなどのパラーメータをより小さいビットで表現することで、モデルの軽量化を図る手法

教師あり学習と教師なし学習

教師あり学習と教師なし学習 - 機械学習のアルゴリズムの違い - AWS

F1 スコア

[評価指標]F値(F-measure、F-score)/F1スコア(F1-score)とは?:AI・機械学習の用語辞典 - @IT

0.0(=0%)~1.0(=100%)の範囲の値になり、1.0に近づくほどより良い。1.0に近いことは、適合率と再現率の両方が同時にできるだけ高いことを意味するので、「最も効率よくバランスの取れた機械学習モデル」と言える。

マルチモデルエンドポイント

マルチモデルエンドポイント - Amazon SageMaker

マルチモデルエンドポイントは、多数のモデルをデプロイするためのスケーラブルで費用対効果の高いソリューションを提供します。

マルチコンテナエンドポイント

マルチコンテナエンドポイント - Amazon SageMaker

SageMaker マルチコンテナエンドポイントを使用すると、お客様は異なるモデルまたはフレームワークを使用する複数のコンテナを単一の SageMaker エンドポイントにデプロイできます。

因数分解機械アルゴリズム

Amazon SageMaker の因数分解機械アルゴリズムを拡張し、レコメンデーション上位 x 件を予測しています。 | Amazon Web Services ブログ

因数分解機は、汎用教師あり学習アルゴリズムで、分類と回帰の両方のタスクに使用できます。このアルゴリズムは、レコメンデーションシステムのエンジンとして設計されました。

fine-tuning

【ChatGPT】ファインチューニングをわかりやすく解説 #MachineLearning - Qiita

ファインチューニングとは公開されている学習済のモデルに、独自のデータを追加で学習させ、新たな知識を蓄えたモデルを作り出す技術。

特徴選択

データ前処理 | 特徴選択・特徴抽出によって過学習を抑える

訓練データに含まれている特徴量のうち、予測に特に重要だと思われる特徴量だけを選択して、モデルの学習に利用する方法

自動モデルチューニングでのスポットインスタンスの利用

を使用した自動モデル調整 SageMaker - Amazon SageMaker

SageMaker AMT は、Amazon EC2 Spot インスタンスを使用して、トレーニングジョブを実行する際のコストを最適化できます。

生成 AI とは

生成 AI とは?-生成 AI の説明 - AWS

生成人工知能 (生成 AI または gen AI) は、会話、ストーリー、画像、動画、音楽などの新しいコンテンツやアイデアを生み出すことのできる AI の一種です。

AWS Inferentia

AWS Inferentia を搭載した Inf1インスタンスが東京リージョンで Amazon SageMaker に対応しました | Amazon Web Services ブログ

AWS Inferentia はこの課題を解決するために AWS が開発した高パフォーマンスの機械学習推論チップです。高性能の推論を提供し、推論の総コストを削減し、デベロッパーが機械学習をビジネスアプリケーションに簡単に統合できるように設計されています。

AWS Trainium

AI アクセラレーター - AWS Trainium - AWS

AWS Trainium は、AWS が 1,000 億件以上のパラメータモデルの深層学習 (DL) トレーニングを行うために専用に構築された機械学習 (ML) チップです。

バイアス

バイアス・バリアンスとは?図解で分かりやすく数式まで徹底解説!! | 機械学習ナビ

バイアスは予測値と実測値の差を表します。
バイアスが大きければ、モデルは未学習状態(アンダーフィッティング)であると判断できます。

バリアンス

バイアス・バリアンスとは?図解で分かりやすく数式まで徹底解説!! | 機械学習ナビ

バリアンスは予測値の分散です。
バリアンスが大きいとモデルは過剰適合(オーバーフィッティング)であると判断できます。

Discussion