AWS MLA 勉強メモ
AWS Certified Machine Learning Engineer - Associate 認定 | AWS 認定 | AWS
MLA を受験予定なので勉強メモを残していきます。
自分自身の振り返り用ですがどなたかの参考になれば幸いです。
Comprehend での PII 検出
PII エンティティの検出 - Amazon Comprehend
Amazon Comprehend を使用して、英語またはスペイン語のテキストドキュメント内のPIIエンティティを検出できます。
Glue での PII 検出
Detect PII変換は、データソース内の個人を特定できる情報 (PII) を識別します。
SageMaker Canvas での PII 検出
Amazon SageMaker Canvas では、コードを一切書かずに機械学習を使用できます | Amazon Web Services ブログ
SageMaker Canvas による個人情報検出を使用して機密データを保護することもできます。テキスト文書を分析して個人を特定できる情報 (PII) エンティティを自動的に検出できるため、名前、住所、生年月日、電話番号、電子メールアドレスなどの機密データを特定できます。
Glue ETL スクリプトのサポート言語
AWS Glue プログラミングガイド - AWS Glue
AWS Glue ETL スクリプトは Python または Scala で記述されます。すべてのジョブタイプは Python で記述できますが、AWS Glue for Spark ジョブは Scala でも記述できます。
SageMaker Processing
SageMaker 処理によるデータ変換ワークロード - Amazon SageMaker
SageMaker Processing API を使用すると、データ サイエンティストはスクリプトとノートブックを実行してデータセットを処理、変換、分析し、機械学習用に準備することができます。
部分依存プロット (PDP)
部分依存プロットは、特徴量が機械学習モデルの予測結果に与える限界効果、または1つの特徴量を変更するだけで他のすべてを一定に保った場合に予測がどのように変化するかを示します。
ラベルの比率の差 (DPL)
ラベルの割合の差 (DPL) - Amazon SageMaker
ラベルの比率の差 (DPL) は、ファセット d の陽性ラベルと観察された結果の割合を、トレーニングデータセットのファセット a の陽性ラベルと観察された結果の割合と比較します。
SageMaker Canvas に独自モデルをインポート可能
SageMaker Studio Classic から SageMaker Canvas に独自のモデルを導入する - Amazon SageMaker
ML モデルのメタデータストアである SageMaker Model Registry に ML モデルを登録し、 SageMaker Canvas にインポートできます。
ベクトル化
ChatGPTのベクトルデータベースをわかりやすく解説! | AI総合研究所
データの特徴を数値の並びとして表現することをベクトル化と呼びます。
ベクトルデータベース
ベクトルデータベースとは何ですか?|包括的なベクトルデータベースのガイド | Elastic
ベクトルデータベースとは、情報をデータオブジェクトの数値表現(ベクトル埋め込みとしても知られている)であるベクトルとして保存するデータベースのことです。
AWS のベクトルデータベース
ベクターデータベースとは ベクターデータベースの説明 - AWS
- Amazon OpenSearch Service
- Amazon Aurora PostgreSQL 互換エディション
- Amazon Relational Database Service (Amazon RDS) for PostgreSQL
- Amazon Neptune ML
- Amazon MemoryDB
- Amazon DocumentDB (MongoDB 互換)
RAG
【初心者向け解説】AI領域でよく耳にする「RAG」とは?その概念から具体的な活用方法まで解説! | ARCHETYP Staffing Magazine
わかりやすく言うと、大量のデータの中から関連する情報を取り出し、その情報を基に新たな文章を生成するという技術のことを指します。
Bedrock knowledge base でサポートされているデータソース
ナレッジベースのデータソースコネクタを作成する - Amazon Bedrock
- S3
- Confluence
- Microsoft SharePoint
- Salesforce
- ウェブサイトページ (URLs)
Bedrock knowledge base でサポートされているベクトルストア
ナレッジベースの独自のベクトルストアの前提条件 - Amazon Bedrock
- OpenSearch Serverless (Bedrock による自動生成)
- Aurora PostgreSQL
- Pinecone
- Redis Enterprise Cloud
- MongoDB Atlas
SageMaker Model Registry の機能
Model Registry を使用したモデル登録デプロイ - Amazon SageMaker
- 本番稼働用モデルのカタログ化
- モデルのバージョン管理
- モデルへのメタデータ (トレーニングメトリクスなど) の関連付け
- 登録したモデルの Amazon SageMaker モデルカードの情報を表示
- モデルの承認ステータスの管理
- 本番環境へのモデルデプロイ
- CI/CD による、モデルデプロイの自動化
- 他のユーザーとモデルを共有
SageMaker Experiments は Studio Classic と統合されている
Studio Classic での Amazon SageMaker 実験 - Amazon SageMaker
SageMaker Experiments は Amazon SageMaker Studio Classic と統合されており、アクティブな実験と過去の実験を参照し、主要なパフォーマンス指標で実行を比較し、最もパフォーマンスの高いモデルを特定するための視覚的なインターフェイスを提供します。
SageMaker with MLflow
Machine learning experiments using Amazon SageMaker with MLflow - Amazon SageMaker
Amazon SageMaker with MLflow は、機械学習の実験を作成、管理、分析、比較できる Amazon SageMaker の機能です。
SageMaker Model Monitor の Data Capture
エンドポイントへの入力とデプロイされたモデルからの推論出力を Amazon S3 に記録するには、「データキャプチャ」と呼ばれる機能を有効にできます。「データキャプチャ」は通常、トレーニング、デバッグ、モニタリングに使用できる情報を記録するために使用されます。
SageMaker の推論オプション
Inference options in Amazon SageMaker - Amazon SageMaker
- リアルタイム推論
- 低レイテンシ、高スループット
- 最大 6 MB のペイロードサイズ
- 60 秒の処理時間
- サーバーレス推論
- 断続的または予測不可能なトラフィックパターン
- 最大 4 MB のペイロードサイズ
- 60 秒の処理時間
- 最大同時実行数は 200
- 単一リージョンのエンドポイント数の上限は 50
- メモリ上限は 6 MB
- コンテナイメージの上限は 10 MB
- バッチ変換
- 大量のデータが事前に利用可能で、永続的なエンドポイントが必要ない場合のオフライン処理
- データセットの前処理
- 非同期推論
- リクエストをキューに入れる必要がある推論
- 大きなペイロードサイズや長時間の処理を要する推論
- 最大 1 GB のペイロードサイズ
- 1 時間の処理時間
SageMaker Clarify の機能
SageMaker Clarify による公平性、モデルの説明可能性、バイアス検出 - Amazon SageMaker
- モデルの予測におけるバイアスを検出
- 事前トレーニングデータ内のバイアスの種類を識別
- トレーニング中またはモデルの運用中に発生する可能性のある、トレーニング後のデータにおけるバイアスの種類を特定
SageMaker with TensorBoard
TensorBoard in Amazon SageMaker - Amazon SageMaker
SageMakerとTensorBoardを使用すると、トレーニングジョブから抽出されたモデル出力テンソルを視覚化できます。
SageMaker Pipelines
Amazon SageMaker Pipelines は、機械学習 (ML) 開発を自動化するための専用のワークフローオーケストレーションサービスです。
Amazon Titan Text Embeddings models
Amazon Titan Text Embeddings models - Amazon Bedrock
テキスト埋め込みは、文書、段落、文などの非構造化テキストの意味のあるベクトル表現を表します。テキストを入力すると、(1 x n)ベクトルが出力されます。埋め込みベクトルは様々な用途に利用できます。
レーベンシュタイン距離 (文字列距離関数)
レーベンシュタイン距離について分かりやすく解説します|Non
簡単に言うと、ある文字列Aと別の文字列Bを比較した時に、二つの言葉がどの程度異なっているかを示す尺度です。
SageMaker 自動モデルチューニング (AMT)
Automatic model tuning with SageMaker - Amazon SageMaker
Amazon SageMaker 自動モデルチューニング (AMT) は、ハイパーパラメータチューニングとも呼ばれます。
SageMaker 自動モデルチューニングのウォームスタート
ウォームスタートのハイパーパラメータ調整ジョブを実行する - Amazon SageMaker
ウォームスタートを検討する理由は次のとおりです。
- 各反復の後で表示される結果に基づいて、いくつかの調整ジョブに比べてトレーニングジョブの数を徐々に増やすため。
- 受け取った新しいデータを使用してモデルを調整するため。
- 以前の調整ジョブで使用したハイパーパラメータの範囲を変更するか、静的ハイパーパラメータを調整可能に変更するか、調整可能ハイパーパラメータを静的値に変更するため。
- 以前のハイパーパラメータジョブが早期停止されたか、予期せず停止した。
SageMaker 自動モデルチューニングのウォームスタートの種類
ハイパーパラメータチューニングジョブのウォームスタートを使って、Amazon SageMaker 自動モデルチューニングの効率をさらに向上 | Amazon Web Services ブログ
- IDENTICAL_DATA_AND_ALGORITHM ウォームは、基本的に同じタスクで以前の評価を使用してチューニングジョブを開始することで、探索空間のわずかな変化を可能にします。このオプションは、データセットとアルゴリズムコンテナが変更されていない場合に使用する必要があります。
- TRANSFER_LEARNING ウォームは、類似タスクからの評価を使用してチューニングジョブを開始し、探索空間、アルゴリズム画像、データセットの変更を可能にします。
Amazon Fraud Detector
What is Amazon Fraud Detector? - Amazon Fraud Detector
Amazon Fraud Detector は、オンラインでの不正行為の可能性のあるアクティビティを自動的に検出する、フルマネージド型の不正検出サービスです。
Fraud Detector でインポート可能な SageMaker モデル
モデルのインポート SageMaker - Amazon Fraud Detector
- XGBoost
- Linear Learner
- Random Cut Forest
レキシカル検索
Amazon OpenSearch Service の検索機能強化: 2023年のまとめ | Amazon Web Services ブログ
レキシカル検索では、検索エンジンが検索クエリの単語とドキュメントの単語を比較し、単語と単語が一致するかどうかを照合します。 ユーザーが入力した単語を含むアイテムのみがクエリと一致します。
セマンティック検索
Amazon OpenSearch Service の検索機能強化: 2023年のまとめ | Amazon Web Services ブログ
セマンティック検索では、検索エンジンは ML モデルを使用して、ソースドキュメントのテキストやその他のメディア(画像や動画など)を高次元のベクトル空間内の密ベクトル (dense vector) としてエンコードします。これはテキストをベクトル空間に埋め込むことから、「埋め込み」とも呼ばれます。
LLM プロンプトの拡張
RAG とは何ですか? - 検索拡張生成 AI の説明 - AWS
RAG モデルは、取得した関連データをコンテキストに追加することで、ユーザー入力 (またはプロンプト) を強化します。このステップでは、プロンプトエンジニアリング手法を使用して LLM と効果的に通信します。拡張プロンプトにより、大規模な言語モデルでもユーザークエリに対する正確な回答を生成できます。
SageMaker トレーニングジョブのデータソース
データセットにアクセスするためのトレーニングジョブの設定 - Amazon SageMaker
- S3
- EFS
- FSx for Lustre
SageMaker Model Monitor のモニタリング機能
Amazon Model Monitor によるデータおよび SageMaker モデル品質のモニタリング - Amazon SageMaker
- データ品質: データ品質のドリフトを監視
- モデル品質: モデル品質メトリクス (精度など) のドリフトをモニタリング
- 本番環境のモデルのバイアスドリフト: モデルの予測のバイアスをモニタリング
- 本番環境のモデルの特徴量属性ドリフト: 特徴属性のドリフトを監視
Auto Scaling の推奨はターゲット追跡スケーリングポリシー
自動スケーリングポリシーの概要 - Amazon SageMaker
ターゲット追跡スケーリングポリシーを使用することをお勧めします。
ハイパーパラメータチューニング戦略
Amazon で利用可能なハイパーパラメータチューニング戦略を理解する SageMaker - Amazon SageMaker
- Grid search
- Random search
- Bayesian optimization
Grid search
ハイパーパラメータとは - ハイパーパラメータチューニングを行う方法 - AWS
グリッドサーチでは、ハイパーパラメータのリストとパフォーマンスメトリクスを指定すると、アルゴリズムはすべての可能な組み合わせから最適な組み合わせを決定します。
Random search
ハイパーパラメータとは - ハイパーパラメータチューニングを行う方法 - AWS
ランダムサーチはイテレーションごとにハイパーパラメータのグループをランダムに選択します。比較的少数のハイパーパラメータが主にモデルの結果を決定する場合に良好に機能します。
Bayesian optimization
Amazon で利用可能なハイパーパラメータチューニング戦略を理解する SageMaker - Amazon SageMaker
ハイパーパラメータの調整は、どのハイパーパラメータの組み合わせが最良の結果を得る可能性が高いかを推測します。
これにより、ハイパーパラメータ値の範囲を探索して、まだ十分に理解されていない新しい領域を見つけることができます。
オーバーフィット
オーバーフィットとは?- 機械学習における過学習、過剰適合の説明 - AWS
オーバーフィットとは、機械学習モデルがトレーニングデータに対して正確な予測をするが、新しいデータについては正確に予測しないという、望ましくない機械学習の動作です。
SageMaker マネージドスポットトレーニング
Managed Spot Training in Amazon SageMaker - Amazon SageMaker
スポットインスタンスは中断されることがあります。その場合、ジョブの開始または終了に時間がかかる場合があります。ローカルパスから Amazon S3 にチェックポイントデータ SageMaker をコピーするように、マネージドスポットトレーニングジョブを設定できます。
モデルの再トレーニング
新しいデータでのモデルの再トレーニング - Amazon Machine Learning
モデルが精度の高い予測をするためには、予測の基になっているデータが、モデルがトレーニングされたデータと同様の分布を持っている必要があります。
SageMaker の組み込みアルゴリズム
Built-in algorithms and pretrained models in Amazon SageMaker - Amazon SageMaker
SageMaker Neo
Amazon SageMaker Neo(2 倍の速度で機械学習モデルを実行)| AWS
Amazon SageMaker Neo は、クラウドインスタンスとエッジデバイスでの推論のために機械学習モデルを自動的に最適化して、精度を損なうことなくより高速に実行します。
EKS での機械学習
Machine Learning on Amazon EKS Overview - Amazon EKS
Amazon EKS は、TensorFlow、PyTorch、Ray などの一般的な AI/ML ツールやフレームワークとシームレスに統合され、データ サイエンティストやエンジニアにとって使い慣れた堅牢なエコシステムを提供します。
MWAA
Amazon Managed Workflows for Apache Airflow (MWAA) に関するよくある質問 – Amazon Web Services
Amazon Managed Workflows for Apache Airflows (MWAA) は、ワークフローと呼ばれる一連のタスクを通じてデータを組み合わせ、強化し、変換することにより、組織全体でビジネスに関する洞察を抽出するために使用されるマネージド Apache Airflow サービスです。
SageMaker でのブルー/グリーンデプロイ
Blue/Green Deployments - Amazon SageMaker
エンドポイントを更新すると、Amazon SageMaker は自動的にブルー/グリーンデプロイを使用してエンドポイントの可用性を最大化します。
XGBoost
ブースティングとは何ですか? - 機械学習におけるブースティングの説明 - AWS
極端な勾配ブースティング (XGBoost) は、複数の方法でコンピューティング速度とスケールインの勾配ブースティングを改善します。
条件付き人口統計格差 (CDD)
条件付き人口統計格差 (CDD) - Amazon SageMaker
CDD メトリクスは、データセットの属性によって定義されるサブグループで見つかったすべての格差を、平均化して 1 つの測定を提供します。
予測ラベルの条件付き人口統計格差 (CDDPL)
予測ラベルの条件付き人口統計格差 (CDDPL) - Amazon SageMaker
このメトリクスは、観測されたラベルではなく予測されたラベルから計算される点を除いて、トレーニング前のCDDメトリクスとまったく同じです。
SageMaker モデルダッシュボード
Amazon SageMaker モデルダッシュボード - Amazon SageMaker
SageMaker Model Dashboard は、 SageMaker コンソールからアクセスできる一元化されたポータルで、アカウント内のすべてのモデルを表示、検索、探索できます。どのモデルが推論用にデプロイされているか、バッチ変換ジョブに使用されているのか、エンドポイントでホストされているのかを追跡できます。
SageMaker JumpStart
SageMaker JumpStart 事前トレーニング済みモデル - Amazon SageMaker
SageMaker JumpStart は、機械学習の開始に役立つ、さまざまな問題タイプに対応する事前トレーニング済みのオープンソースモデルを提供します。デプロイする前に、これらのモデルを段階的にトレーニングおよび調整できます。
アンサンブル学習
- Boosting: 複数の弱い学習者を順番にトレーニング
- Bagging: 複数のモデルを使用して、単一のモデルの分散を減らす
- Stacking: 異種モデルで各推定器の予測が積み重ねられ、予測を処理する最終推定器への入力として使用される
解釈可能性と説明可能性
- 解釈可能性: AI/ML メソッドの内部メカニズムを観察し、モデルの重みと特徴を解釈して、特定の出力を決定
- 説明可能性: 機械学習モデルを人間の言葉で説明する方法
探索的データ分析 (EDA)
【文系でもわかる】探索的分析(EDA)とは?AI開発で非常に重要なステップを理解しよう。 | Hakky Handbook
探索的データ分析(EDA)とは、データから何を読み取ることが出来るかを探り、適切な分析のアルゴリズムは何なのかを検討するプロセスです。
Discussion