🦔

AWS AIプラクティショナー (AIF-C01) 勉強したことのメモ

2025/10/06に公開

#はじめに

AWS AIプラクティショナー(AIF-C01)の勉強をしていて、ノートに手書きでまとめていたが面倒になったため、それならばZennにまとめてしまおう！

ということで作成しました。適宜更新を行なっていきます。

 ➡︎無事合格しました🥳
 Amazon SageMaker シリーズ

機能名
説明

SageMaker
Amazon SageMaker は、データ準備、モデル構築、トレーニング、チューニング、デプロイを含む完全な機械学習ライフサイクルを提供するフルマネージド型のサービスです

SageMaker Feature Store
アカウント間や組織内のML開発の特徴量処理・保存・取得・共有

SageMaker BlazingText
Word2verおよびテキスト分類アルゴリズムの高度に最適化された実装を提供

SageMaker Data Wrangler
機械学習用データの集約と準備を支援するサービス

SageMaker Serverless Inference
基盤となるインフラを設定・管理せずに、MLモデルをデプロイおよびスケールする専用の推論オプション

SageMaker Pipelines
MLOpsやLLMOpsオートメーション専用のサーバーレスワークフローオーケストレーションサービス（複数タスクが連携して実行される一連の処理(ワークフロー)を、サーバーレスで自動的に調整・管理するサービス）

SageMaker AI リアルタイムエンドポイント
リアルタイム、インタラクティブ、低レイテンシーの要件がある推論ワークロードに最適

SageMaker Automatic Model Tuning
データセットに対して多数のトレーニングジョブを実行して、モデルの最適なバージョンを見つける。ハイパーパラメータの最適化を効率的に実施することができる。

SageMaker Ground Truth ラベル
Model Monitorのモデル品質のモニタリングジョブにおいて、比較しているもの。

SageMaker Clarify
機械学習モデルのバイアス検出と説明可能性の提供を支援するAmazon SageMakerの機能

Amazon SageMaker Canvas
非技術者向けに設計されたノーコードの機械学習ツール。

 Amazon Bedrock シリーズ

機能名
説明

Amazon Bedrock
生成形AIアプリを作成できるサービス

∟
単一のAPIを通して、Amazonから複数の高性能な基盤モデル（FM）を選択できるフルマネージドサービス

Amazon Bedrock ガードレール
望ましくないコンテンツや有害コンテンツを回避、機密情報の削除・マスクなどのフィルタリングポリシー

Agents for Amazon Bedrock
大規模言語モデル(LLM)を使用してWeb上やニュースの記事といった長い文章を要約する

Amazon Bedrock プロビジョンドスループット
特定のモデルに対して固定のスループット容量を事前に確保しておくことが可能

Amazon Bedrock ナレッジベース
モデルが外部データを参照する機能のこと。このナレッジベースを活用することでRAGを用いたアプリケーション構築が容易になる。

aaa
text

 セマンティックセグメンテーション同一画像に存在する２つの物体を一つの物体としてラベル付する分類手法。

画像内のピクセル（画素）にカテゴリを割り当てることで、画像内容をピクセル単位で理解する技術。
pixel(400,400)=cat

pixel(600,400)=car

pixel(800,600)=human
その他の分類は下記がわかりやすかったです。

https://carbgem.com/plus/wp-object-detection/

 データドリフト機械学習モデルの訓練時と運用時で、扱うデータの統計的特性が時間と共に劣化する現象のこと。
例：過去のデータに基づいた消費者行動予測モデルを作成したが、
運用時には新型コロナのパンデミックが流行していて、
そのモデルが機能しなくなってしまった。
こういう場合は、モデルの再学習や特徴量エンジニアリングの更新などの対応が必要。

 ベイズ最適化評価に時間やコストがかかる「ブラックボックス関数」の最適値を少ない試行回数で効率的に見つけるための最適化手法のこと。ベイズ最適化では、効率的な探索と活用のバランスを保ちつつ、最適なハイパーパラメーターを探索する。

ブラックボックス関数とは、入力と出力の関係が不明な複雑関数のことで、機械学習モデルのハイパーパラメータ調整や材料開発における実験計画などで利用されている。

 ランダムカットフォレスト(RCF)異常検知に特化し教師なし学習のアルゴリズム。

このアルゴリズムは、特に時系列データやストリーミングデータにおける異常を効率的に検出するために設計されている。

各データポイントに異常スコアを割り当て、そのスコアが高いほど異常であると判断する。

 サポートベクターマシン（SVM)異なるグループのデータを効率的に分類するための手法。

異なるデータの間に適切な境界線を設定し分類を行う。

 XGBoost(eXtreme Gradient Boosting)アンサンブル学習と決定木を組み合わせたアルゴリズム。

弱い予測モデルを組み合わせて強い予測モデルを作ることができる。

（初心者同士を組み合わせて強いプレイヤーにも太刀打ちできようにするイメージ？）

 G4インスタンスとTrnインスタンスの違い

項目
G4
Trn

アクセラレーター
NVIDIA GPU(T4など)
AWS Trainiumチップ

主な用途
機械学習の推論、小規模な学習、グラフィックス
大規模な深層学習の学習

 BERT(Bidirectional Encoder Representations from Transformers)文脈を考慮して、テキストの一部を補完するタスクに適したモデル。

BERT（バート）は、Googleが2018年に発表した自然言語処理（NLP）モデルで、従来モデルとは違って、文章を双方向から学習することでより高い制度で文脈を理解できるようになったらしい。

 アーティファクトモデルのトレーニング過程で生成されるデータのこと。

下記リンクないの周辺用語も要チェックかも
https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/key-definitions.html

 Amazon QAmazonが提供する企業向けの生成AIアシスタントサービスのこと。

一般的なAIアシスタントとは異なり、企業の内部データ（ドキュメント、システム、ソースコードなど）を安全に接続して学習することで、特定の業務に特化した支援を提供することができる。
例①新人教育において、新人が社内マニュアルを探す手間が省ける。AIが関連資料をまとめて教えてくれる。

例②営業担当者が顧客訪問前に、過去の取引履歴を参照しやすくなる。AIがCRMシステム（顧客管理システム）内のデータから必要な情報を引っ張ってきてくれる。

例③社内のプログラマーが、「このコードの直す場所教えて」と質問すると、AIが過去のコードレビュー履歴やマニュアルを参照して、改善案を提示してくれる。

 ハイパーパラメータハイパーパラメータとは、様々な機械学習モデルの学習が始まる前に、人間が手動で設定する値のこと。モデルの性能に大きな影響をあたえる。

具体的には、エポック数、学習率、閾値、ミニバッチサイズ、DeepLearningの層の数、各層におけるニューロン数などが含まれる。

 ファインチューニング事前にトレーニングされたモデルに対して、追加で特定データを与えて、新たなドメインに特化した学習をさせる。これにより新しいモデルを生成する。

よく微調整とか言われたりする。

 特徴量エンジニアリング特徴量エンジニアリングでは、生データから変数を抽出➡︎変換して、トレーニングや予測に利用できるようにする。特徴量エンジニアリングのために必要なステップには、データの抽出とクレンジング、そして特徴の作成・保存が含まれる。

この特徴量エンジニアリングには、データ分析、ビジネスドメインの知識、ある程度の直感・ひらめになどの要素を組み合わせることが必要となる。

 Amazon RDS for PostgreSQLa

 思考の連鎖プロンプティング思考の連鎖プロンプティングは、複雑な質問を、思考の流れを模倣した小さな論理的セグメントに分解する手法のこと。

モデルは、問題に一発で直接答えるのではなく、途中のステップを経ながら問題を解決することができる。これにより推論能力が向上する。

 Few-shotプロンプティングタスクを遂行するための方法を学習させるために、具体例を何個か提示するプロンプトのこと。複雑なタスクだと、具体例を示さない（Zero-shotプロンプト）場合に十分な結果が得られないことがある。それを解決するために、何個か具体例（Few-shot）を与えてより高精度な出力をしてもらうようにする。

 プロンプトエンジニアリング生成AI（ChatGPTなど）から、より高品質で望ましい出力を引き出すために、指示や命令文（プロンプト）を工夫して設計する技術のこと。

 Amazon Augmented AI(Amazon A2I)機械学習予測にデベロッパー（人間）のレビューを簡単に取り入れることができるフルマネージドサービス。

人間によるレビューシステムの構築と、大量の人間アナリストを管理する必要がなくなる。

 AWS AI Service Cardsサービスで想定されるユースケースや、サービスによるMLの使用方法、責任あるサービスの設計・使用における主な考慮事項が記載されている。

 クロスリージョン推論あるリージョン（地域）で受けたAIの推論リクエストを、別のリージョンにあるサーバーで処理する仕組みのこと。これにより、特定の地域に依存することなく、グローバルにAIサービスを提供できるようになる。

負荷分散やスケーラビリティ、可用性向上、モデル選択肢の拡大といった点でメリットがある。

 プロンプトリーキングモデルが入力プロンプトの一部を意図せずに出力に含めてしまう現象のこと。プロンプトがLeak。

 その他メモAmazon SageMakerでモデルトレーニングデータへのアクセスを特定のIAMロールに制限するには、IAMロールとS3バケットポリシーを組み合わせて使用する方法が最も適切。
インコンテキスト学習は、モデルのプロンプトにタスクの例をいくつか含めて、モデルがその場でタスクを学習し、出力を生成する手法。基盤モデルのカスタマイズ手法の中で、一般的には最も低コスト。
ハイパーパラメータはモデルの学習開始前に手動で設定され、パラメータは学習中に自動的に更新・最適化される。
ファインチューニングはモデルの重みを更新し、プロンプトエンジニアリングは入力を最適化する

機能名	説明
SageMaker	Amazon SageMaker は、データ準備、モデル構築、トレーニング、チューニング、デプロイを含む完全な機械学習ライフサイクルを提供するフルマネージド型のサービスです
SageMaker Feature Store	アカウント間や組織内のML開発の特徴量処理・保存・取得・共有
SageMaker BlazingText	Word2verおよびテキスト分類アルゴリズムの高度に最適化された実装を提供
SageMaker Data Wrangler	機械学習用データの集約と準備を支援するサービス
SageMaker Serverless Inference	基盤となるインフラを設定・管理せずに、MLモデルをデプロイおよびスケールする専用の推論オプション
SageMaker Pipelines	MLOpsやLLMOpsオートメーション専用のサーバーレスワークフローオーケストレーションサービス（複数タスクが連携して実行される一連の処理(ワークフロー)を、サーバーレスで自動的に調整・管理するサービス）
SageMaker AI リアルタイムエンドポイント	リアルタイム、インタラクティブ、低レイテンシーの要件がある推論ワークロードに最適
SageMaker Automatic Model Tuning	データセットに対して多数のトレーニングジョブを実行して、モデルの最適なバージョンを見つける。ハイパーパラメータの最適化を効率的に実施することができる。
SageMaker Ground Truth ラベル	Model Monitorのモデル品質のモニタリングジョブにおいて、比較しているもの。
SageMaker Clarify	機械学習モデルのバイアス検出と説明可能性の提供を支援するAmazon SageMakerの機能
Amazon SageMaker Canvas	非技術者向けに設計されたノーコードの機械学習ツール。

機能名	説明
Amazon Bedrock	生成形AIアプリを作成できるサービス
∟	単一のAPIを通して、Amazonから複数の高性能な基盤モデル（FM）を選択できるフルマネージドサービス
Amazon Bedrock ガードレール	望ましくないコンテンツや有害コンテンツを回避、機密情報の削除・マスクなどのフィルタリングポリシー
Agents for Amazon Bedrock	大規模言語モデル(LLM)を使用してWeb上やニュースの記事といった長い文章を要約する
Amazon Bedrock プロビジョンドスループット	特定のモデルに対して固定のスループット容量を事前に確保しておくことが可能
Amazon Bedrock ナレッジベース	モデルが外部データを参照する機能のこと。このナレッジベースを活用することでRAGを用いたアプリケーション構築が容易になる。
aaa	text

項目	G4	Trn
アクセラレーター	NVIDIA GPU(T4など)	AWS Trainiumチップ
主な用途	機械学習の推論、小規模な学習、グラフィックス	大規模な深層学習の学習

➡︎無事合格しました🥳

Amazon SageMaker シリーズ

Amazon Bedrock シリーズ

セマンティックセグメンテーション

データドリフト

ベイズ最適化

ランダムカットフォレスト(RCF)

サポートベクターマシン（SVM)

XGBoost(eXtreme Gradient Boosting)

G4インスタンスとTrnインスタンスの違い

BERT(Bidirectional Encoder Representations from Transformers)

アーティファクト

Amazon Q

ハイパーパラメータ

ファインチューニング

特徴量エンジニアリング

Amazon RDS for PostgreSQL

思考の連鎖プロンプティング

Few-shotプロンプティング

プロンプトエンジニアリング

Amazon Augmented AI(Amazon A2I)

AWS AI Service Cards

クロスリージョン推論

プロンプトリーキング

その他メモ

Discussion