👏

AWS Certified AI Practitioner(AIF-C01) 備忘録

duora0406

2025/11/21に公開

 はじめに2025年11月17日にAWS Certified AI Practitioner(AIF-C01)に合格しました。
他の資格学習で利用していたCloudLicenseが1週間ほどあまっており、この余った期間を無駄にしたくないなぁ、、、と。

そこで、AIF-C01を発見。受験費用も高くないので最悪落ちてもいいかなと思い、1週間がんばって試験対策をしたところ、合格してしまいました。(よかった、よかった、、、笑)
ただ、あまりにも合格に特化した勉強法(CloudLicenseをひたすらやる)をしてしまったので、

学習内容が身についた？と言われると回答に困ってしまうような状況でした、、、笑

今回の勉強では、わからなかった単語をAI(Gemini)を使って内容を理解したので、そこの内容を備忘録としてこちらに残しておこうと思います。
AIF-C01の勉強を目指す人の参考や勉強のネタになれば幸いです。
!本記事は、AIF-C01の勉強中にAIを使って調べた単語をまとめた内容です。

取り上げた項目は著者の独断と偏見でまとめた内容であり、AIの出力は120%正確ではありません。

上記ご留意ください。

 🤖 AI/MLモデルの評価と運用：重要概念まとめ
 1. モデル評価の基本指標モデルの性能を測定する上で不可欠な、分類・回帰モデルの評価指標です。

 1-1. 📊 分類モデルの評価指標の計算基盤：混同行列 (Confusion Matrix)

予測：陽性 (Positive)
予測：陰性 (Negative)

実際：陽性 (Positive)
真陽性 (TP)
偽陰性 (FN)

実際：陰性 (Negative)
偽陽性 (FP)
真陰性 (TN)

TP (真陽性): 正解

FN (偽陰性): 見逃し（実際陽性を陰性と予測）

FP (偽陽性): 誤報（実際陰性を陽性と予測）

 1-2. 🎯 各指標が重要なタスク例

指標
意味
重要なタスク例

正解率 (Accuracy)
全ての予測のうち正しかった割合。
予測ミスのコストがほぼ等しい、バランスの取れた一般的な分類。

適合率 (Precision)
陽性と予測したもののうち、本当に陽性だった割合。
偽陽性（誤報）のコストが高いタスク（例：重大な病気の診断、レコメンデーション）。

再現率 (Recall)
実際に陽性だったもののうち、陽性と予測できた割合。
偽陰性（見逃し）のコストが高いタスク（例：見逃しが危険な病気のスクリーニング、不正行為の検出）。

 1-3. ✨ 回帰モデルの評価指標：R2 スコア (決定係数)
概要: 主に回帰分析モデルの性能を評価する指標。モデルがどれだけ目的変数（ターゲット）の分散を説明できているかを示す。

解釈: 0 から 1 の間をとり、1に近いほどモデルの当てはまりが良い。

 2. データと学習の構造・アルゴリズム
 2-1. 📉 データ間の関係性：相関行列 (Correlation Matrix)
概要: データセット内の複数の特徴量（変数）間の線形な関係の強さを一覧で示す行列。

要素の値: -1 から 1 の間。1 に近いほど正の相関が強く、-1 に近いほど負の相関が強い。

 2-2. 🔄 学習の単位：エポック (Epoch)
概要: ディープラーニングのトレーニングにおける単位で、学習データセット全体を、モデルに1回だけ見せて学習させること。

関連: 1エポックは、学習データをバッチサイズで分割し、その数だけイテレーション（ステップ）を繰り返すことで完了する。

 2-3. 🥇 分類 vs. クラスタリング：K-近傍法 (KNN) と K-means

アルゴリズム
K-近傍法 (KNN)
K-means (K-平均法)

学習タイプ
教師あり学習
教師なし学習

主な目的

分類・回帰（予測）

クラスタリング（グループ分け）

K の意味
予測に使う近隣のデータ点の数

分割したいグループの数

ユースケース
新しいデータがどのカテゴリに属するかを予測する（例：花びらのサイズから花の種類を予測）。
データ全体を自動でK個のグループに分ける（例：市場セグメンテーション）。

 2-4. 📈 確率を予測する分類器：ロジスティック回帰モデル
概要: 分類問題に用いられる教師あり学習アルゴリズム。線形回帰の結果をシグモイド関数に通すことで、出力が 0 から 1 の間の確率に変換される。

特徴: 解釈性が高く、高速。最終的な確率がしきい値（通常0.5）を超えたら陽性と分類する。

 3. モデルのデプロイと解釈性
 3-1. 📦 モデルの推論実行方式

方式
応答速度の要求
データの量
主な目的

リアルタイム推論
非常に速い（低遅延）
少量（1リクエストごと）
即座の意思決定（例：不正検知）

バッチ変換
遅延は許容される
大量
高スループット、コスト効率（例：月次の在庫予測）

非同期推論
中程度（数分〜数時間）
重いタスク
長時間処理の実行と結果の確実な取得（例：大規模な動画分析）

 3-2. 📉 モデルの解釈性：部分依存プロット (PDP)
概要: モデルの解釈性を高める可視化手法。特定の特徴量の値が変化したとき、予測結果が平均的にどのように変化するかをグラフで示す。

仕組み: 注目する特徴量以外の全ての特徴量の影響を平均化することで、注目特徴量単体の影響を浮き彫りにする。

 3-3. 🧑‍💻 人間の介入：ヒューマン・イン・ザ・ループ (HITL)
概要: 機械学習の学習サイクルに、人間が継続的に関与するアプローチ。

目的: AIが判断できない低信頼度の予測や、予測ミスを人間がレビューし、そのフィードバックを再学習に使うことで、システムの精度と信頼性を向上させる。

 4. テキスト生成モデルの評価と制御
 4-1. 🔴 評価指標：ROUGE と BLEU の違い

指標
主な用途
評価の焦点
評価の観点

ROUGE
要約
再現率 (Recall)
参照要約の重要な情報を、生成要約がどれだけ漏れなく含んでいるか（網羅性）。

BLEU
機械翻訳
精度 (Precision)
生成翻訳文が、正解の訳文にどれだけ正確に含まれているか（正確性）。

 5. AWS関連サービスと言語処理サービス
 5-1. 🎙️ 言語処理サービス

サービス名
機能の核心
役割

Amazon Transcribe

音声を書き起こす (Transcription)
音声ファイルをテキストに変換する（文字起こし）。

Amazon Translate

テキストを翻訳 (Translation)
テキストデータをある言語から別の言語へ翻訳する。

Amazon Textract

テキストを抽出 (Extract)
画像/PDFからテキストや構造（フォーム、テーブル）を抽出する。

 5-2. 📜 AWSのコンプライアンスとガバナンス

サービス名
対象
提供する情報
役割

AWS Artifact
AWSクラウドインフラ全体
AWSが受けた公式な監査レポート（SOC, ISOなど）。

AWS基盤の安全性を外部に証明する。

Amazon SageMaker Model Cards
個別の機械学習モデル
モデルの目的、性能、公平性、セキュリティなど包括的なドキュメント。

モデルの透明性、説明責任、監査証跡を確保する。

Amazon SageMaker Ground Truth Plus
データセット
AWSが代行して作成・納品する高品質なアノテーション付きデータセット。
アノテーション作業のフルマネージド化。

 6. LLMの安全性確保：ガードレール技術

安全機構
特徴
動作原理
有効性

コンテンツフィルター

文脈的・意味的分析に基づき、出力全体の有害性を検出・ブロック。
複雑なMLモデルで有害性スコアを計算し、ポリシー違反の意図を特定する。
婉曲表現や隠語を用いた巧妙な有害表現にも対応可能。

ワードフィルター

単純な文字列照合により、禁止単語を検出・ブロック。
定義されたブラックリスト内の単語が含まれていないかを確認する。

露骨な不適切語の出力防止には有効だが、回避が容易。

コンテキストグラウンディングチェック
回答が参照した外部情報源に基づいているかを検証。
モデルのハルシネーション（嘘）を防ぎ、回答の事実性と信頼性を高める。

拒否トピック
特定の分野や話題について、モデルが回答そのものを拒否するポリシー。
モデルを特定のトピックへの回答から遠ざけ、専門外のアドバイスやデリケートな発言を防ぐ。

 7. AWS 機械学習・AI サービス群
 7-1. 💡 Amazon Personalize

概要
ユースケース

Amazon.com で使われているものと同じ技術を基盤とした、リアルタイムのレコメンデーション（推奨）エンジンを提供するサービスです。

商品推薦: Eコマースサイトで「あなたへのおすすめ」をパーソナライズする。

ユーザーのアクティビティデータやアイテムのメタデータから、個々のユーザーに合わせたパーソナライズされた体験を実現します。

コンテンツ推薦: ニュースサイトや動画配信サービスで、次に視聴・閲覧すべきコンテンツを推薦する。

 7-2. 🗣️ Amazon Lex

概要
ユースケース

音声とテキストによる会話型インターフェース（チャットボットや音声アシスタント）を構築するためのサービスです。

自動応答チャットボット: ウェブサイトやメッセージアプリで、顧客からの問い合わせに自動で応答する。

Amazon Alexa と同じエンジンが使用されており、自然言語理解 (NLU) と自動音声認識 (ASR) が組み込まれています。

音声 IVR (Interactive Voice Response): コールセンターの電話応答を自動化し、音声で顧客を適切な担当者や情報へ誘導する。

 7-3. 🎙️ Amazon Transcribe

概要
ユースケース

音声ファイルを自動でテキストに変換（文字起こし）するサービスです。複数の話者の識別や、医療・法律など専門用語のカスタムも可能です。

会議の議事録作成: 会議の録音ファイルを自動でテキスト化し、話者を識別する。

コールセンター分析: 顧客との通話内容をテキスト化し、感情分析やキーワード検索に利用する。

 7-4. 📄 Amazon Textract

概要
ユースケース

画像やPDFドキュメントから、単なるテキストだけでなく、手書き文字、フォーム（キーと値のペア）、テーブル（表）の構造を抽出するサービスです。

請求書・領収書の自動処理: 金額、日付、ベンダー名などの構造化データを抽出して会計システムに連携する。

保険・申請書類のデータ入力: スキャンされた複雑な書類から必要な情報を自動で読み取り、デジタル化する。

 7-5. 🧠 Amazon SageMaker Model Cards

概要
ユースケース

機械学習モデルのライフサイクル全体にわたる透明性と監査証跡を確保するためのドキュメントサービスです。

モデル監査への対応: 金融や医療など規制の厳しい業界で、モデルがどのように開発・評価されたかを監査人に説明する。

モデルの目的、開発経緯、トレーニングデータ、公平性評価の結果などを単一のレポートにまとめます。

モデルガバナンスの標準化: 組織内で使用する全てのモデルに対し、統一された基準でドキュメントを作成・管理する。

 7-6. 💾 Amazon SageMaker Feature Store

概要
ユースケース

機械学習用の特徴量（フィーチャー）を一元管理、保存、共有するためのフルマネージドなリポジトリです。

トレーニングと推論の一貫性: トレーニング時とリアルタイム推論時で、同じ特徴量にアクセスできるようにし、モデルの性能低下を防ぐ。

特徴量の検索、再利用、およびリアルタイムの低遅延な提供をサポートします。

特徴量の共有と再利用: データサイエンティスト間で共通の特徴量（例：過去7日間の平均取引額）を共有し、チームの開発効率を向上させる。

 7-7. ✅ Amazon SageMaker Clarify

概要
ユースケース

機械学習モデルのバイアス（偏り）を検出し、モデルの予測に対する説明性（Explainability）を提供するサービスです。

モデルの公平性評価: 住宅ローンの審査モデルが、人種や性別といったセンシティブな属性に対して公平な判断を下しているかを検証する。

モデル開発の早期段階で問題点を特定し、倫理的なリスクを管理できます。

予測理由の提示: モデルがなぜこの予測結果を出したのかを説明し、ビジネス担当者やユーザーの理解を助ける。

 7-8. 📊 Amazon SageMaker Data Wrangler

概要
ユースケース

機械学習ワークフローにおいて、データ集計、クリーニング、前処理を迅速化するための単一のインターフェースを提供するサービスです。

データの準備と変換: データセットの欠損値処理、標準化、特徴量エンジニアリングといった複雑な前処理を、コードを書かずにビジュアル操作で行う。

40以上のデータ変換機能が組み込まれており、コード生成機能もあります。

データ分析と可視化: 前処理の結果をグラフで確認し、どの変換がモデルに最適かを素早く判断する。

 7-9. 🎨 Amazon SageMaker Canvas

概要
ユースケース

コードを一行も書かずに機械学習モデルを構築、トレーニング、予測できるノーコードのサービスです。

ビジネスアナリストによる予測: IT部門に頼らず、販売データから需要予測や顧客離脱予測モデルを自分で作成する。

ビジネスアナリストや非専門家でも、直感的なインターフェースを通じて予測モデルを利用できます。

迅速なPoC (概念実証): MLの専門家を介さずに、ビジネスアイデアの実現可能性を素早く検証する。

 7-10. 🤖 Amazon Q Developer

概要
ユースケース

ソフトウェア開発者のための新しいタイプの生成 AI 搭載アシスタントです。

コード生成と修正: IDE (統合開発環境) 内で、コメントや自然言語プロンプトからコードを自動生成、または既存のコードを修正する。

コーディング、デバッグ、テスト、AWSのベストプラクティスに関する質問応答など、開発タスクをサポートします。

AWSに関する質問応答: AWSドキュメント全体から、特定のサービス設定やトラブルシューティングに関する即座の回答を得る。

 7-11. 🖼️ Amazon Rekognition

概要
ユースケース

画像と動画の分析を専門とするサービスです。物体検出、顔分析、有名人の識別、不適切なコンテンツのモデレーションなどを提供します。

セキュリティと監視: 映像内の人物、車両、不審な行動をリアルタイムで検出・追跡する。

事前トレーニングされたモデルとカスタムモデルの両方をサポートします。

コンテンツモデレーション: ユーザーがアップロードした画像や動画に、暴力や成人向けコンテンツがないかを自動でチェックする。

 7-12. 📝 Amazon Comprehend

概要
ユースケース

テキストからインサイトと関係性を抽出する自然言語処理 (NLP) サービスです。感情分析、キーワード抽出、トピックモデリングなどを行います。

顧客フィードバック分析: ソーシャルメディアやレビューのテキストから、顧客の感情（ポジティブ/ネガティブ）や意見の傾向を分析する。

医療記録の分析: 医師のメモや臨床文書から、病名、治療法、投薬名などの重要な実体情報を抽出する。

 7-13. 🎤 Amazon Polly

概要
ユースケース

テキストをリアルな音声に変換する (Text-to-Speech) サービスです。多様な言語と自然な響きの声を提供します。

アクセシビリティ向上: ウェブサイトやモバイルアプリのコンテンツを音声で読み上げる機能を提供する。

音声コンテンツ制作: 動画のナレーションやeラーニングモジュール向けの音声を、簡単なテキスト入力で生成する。

 7-14. 🧱 Amazon Bedrock

概要
ユースケース

Amazonや主要なスタートアップ企業の高性能な基盤モデル (FM: Foundation Models) を API を通じて利用できるようにするフルマネージドサービスです。

生成AIアプリケーション開発: 複数の最先端LLM（例：Claude, Llama, Titan）を切り替えて使用し、チャットボットやコンテンツ生成アプリケーションを構築する。

モデルのカスタマイズ、RAG（検索拡張生成）、エージェントの構築など、生成AI開発に必要な機能を提供します。

エンタープライズ検索: 企業独自のドキュメントを基盤モデルに組み込み（RAG）、社内情報に特化した高精度な回答を生成する。

 7-15. 🛡️ AWS Audit Manager

概要
ユースケース

お客様が自社のAWS利用状況が規制や業界標準に準拠しているかを継続的に監視・評価し、監査に備えるためのサービスです。

継続的なコンプライアンス監視: HIPAA、PCI DSS、GDPRなどの要件に沿って、AWSリソースの設定変更やアクティビティログを自動で収集・整理する。

複数のAWSサービスから関連証拠を自動で収集し、監査レポートを簡単に作成できます。

内部監査の効率化: 監査人が求める証拠データを自動収集・整理することで、監査対応にかかる時間と労力を大幅に削減する。

 7-16. 📜 AWS Artifact

概要
ユースケース

AWSのセキュリティとコンプライアンスに関する公式ドキュメント（レポート、契約書）をオンデマンドで提供するセルフサービスポータルです。

第三者監査への証明: 外部の監査人に対し、AWSという基盤自体がSOC、ISO、PCI DSSなどの国際的なセキュリティ基準を満たしていることを証明する。

AWSが第三者機関から受けた監査の結果を、お客様のコンプライアンス証明のために利用できます。

法的・契約上の要件充足: BAA（HIPAA対応）などの特定の法的合意文書をAWSと締結する。

 8. 生成モデルの制御と学習の要素
 8-1. 🌡️ 温度 (Temperature)

概要
ユースケース

大規模言語モデル（LLM）やその他の生成モデルにおいて、生成される出力のランダム性（多様性）を制御するためのパラメータです。

クリエイティブなコンテンツ生成: 小説のアイデア、詩、マーケティングコピーなど、多様で独創的な出力が求められる場合に温度を高く設定する。

確率分布を調整し、確率の低い単語が選ばれやすくなるように作用します。

正確性・論理性が求められるタスク: 質問応答、コード生成、要約など、論理的で一貫した出力が求められる場合に温度を低く設定する（例：0.0～0.5）。

温度が高い (例: 0.8～1.0): 多様性が増し、予測不能な出力を生成しやすくなる。

温度が低い (例: 0.0～0.2): 最も確率の高い単語が常に選ばれ、一貫性が高く、創造性が低い出力となる。

 8-2. 🔢 Top-K

概要
ユースケース

LLMのテキスト生成プロセスにおいて、次に予測される単語（トークン）の候補数を制限するサンプリング手法の一つです。

サンプリングの効率化: 予測確率が極端に低い膨大な数の単語候補を無視し、計算資源を節約しつつ品質を保つ。

予測確率に基づいて、確率が高い上位 K 個の単語のみを次の単語の候補として残します。モデルは、この K 個の中から次の単語を選びます。

ノイズの低減と制御: 温度を高くしても、全く無関係な単語が選ばれるのを防ぎ、出力の暴走（ハルシネーション）を抑制したい場合。

Top-Kを調整することで、出力の多様性を制御できます。通常、Top-Kは温度と組み合わせて使用されます。

 9. モデルのデプロイと推論実行方式
 9-1. ⏳ 非同期推論 (Asynchronous Inference)

概要
ユースケース

リクエストを受け付けた後、すぐに「受け付けました」と応答し、裏側で推論を数分〜数時間かけて実行する方式です。クライアントは後で結果を取りに来るか、コールバックで通知を受けます。

大規模な自然言語処理: アップロードされた書籍や文書全体を分析し、要約やタグ付けを行う。

処理に時間や高負荷を要するタスクに適しており、クライアントの長時間接続を不要にします。

高解像度画像の処理: 医療画像や衛星画像など、処理に数分かかる重い画像を分析する。

 9-2. 💻 リアルタイム推論 (Real-time Inference)

概要
ユースケース

データが入力されると即座に推論を実行し、すぐに結果を返す方式です。低遅延（レイテンシ）が最も重視されます。

不正検知: クレジットカード決済の瞬間に、不正取引であるかを判定する。

サーバーレス関数や常時稼働のAPIエンドポイントとしてデプロイされます。

レコメンデーションシステム: ユーザーの閲覧行動に基づき、ミリ秒単位で「次のおすすめ」を提案する。

 9-3. 📦 バッチ変換 (Batch Transformation / Batch Inference)

概要
ユースケース

大量のデータをまとめて一度に推論処理する方式です。

月次・週次の予測: 過去の全販売データから、来月の在庫必要量を計算する。

個々の推論の遅延は気にせず、スループット（単位時間あたりの処理量）の最大化とコスト効率が重視されます。

顧客セグメンテーション: 全顧客に対し、深夜帯などに新しいマーケティングセグメントを一括で割り当てる。

 10. 📝 主要なプロンプトエンジニアリング手法
 10-1. 🧪 ゼロショットプロンプト (Zero-Shot Prompting)

概要
ユースケース

具体的な例を一切与えずに、タスクの指示だけを与えてモデルに応答させる手法です。モデルは、トレーニング中に獲得した一般的な知識のみに頼ってタスクを実行します。

単純な分類や抽出: 「以下のレビューが肯定的か否定的か分類してください」といった、追加の例示が不要な標準的なタスク。

特徴: 最もシンプルで簡単な形式であり、追加のコンテキストやデータ準備が不要です。

簡単な翻訳: 「[原文]を日本語に訳してください」といった明確な指示。

 10-2. 🎯 フューショットプロンプト (Few-Shot Prompting)

概要
ユースケース

モデルにタスクの指示を与えるだけでなく、タスクの例（入力と期待される出力のペア）を数組（"Few"）プロンプトの冒頭に含める手法です。

新しいドメイン特有のタスク: モデルが学習したことがない、特定の業界用語やフォーマット（例：法務文書の抽出フォーマット）のルールを教える。

特徴: モデルは与えられた例を参考にし、タスクの形式やパターンを迅速に学習し、最後の問いに答えます。タスクの例は、モデルの重み（パラメータ）を更新するのではなく、モデルの「インコンテキスト学習（In-Context Learning）」能力を利用します。

複雑な分類: 曖昧な事例が多い感情分析や、独自のレーベル名を持つ分類タスク。

 10-3. 🧠 思考連鎖プロンプト (Chain-of-Thought Prompting, CoT)

概要
ユースケース

モデルに最終的な答えを求めるだけでなく、答えに至るまでの論理的な思考ステップや途中計算を、段階的に言語化するように指示・例示する手法です。

複雑な推論問題: 数学の計算問題、多段階の論理パズル、常識的な知識を組み合わせる問題など。

特徴: モデルの推論能力を大幅に向上させ、特に複雑な問題で性能を発揮します。タスクがより小さな、管理しやすいステップに分解されるため、ハルシネーション（誤答）の発生率も低下し、デバッグが容易になります。

ステップバイステップの計画: 複雑な旅行計画や、プログラミングのロジックを段階的に設計させるタスク。

 おまけお気持ち程度にAIF-C01の合格体験記っぽいものを残しておきます。
AIF-C01といいつつ、少しだけ暗号化(KMS)、ストレージ(S3)、監視系(CloudWatch,CloudTrail)なども出題あり。難解ではないので、AWSの業務経験がある方なら回答できるようなレベル感です。
各単語の意味、ユースケース、使い分けまで理解しましょう。特にユースケースの理解はとても重要です。
多くの問題がCloudLicenseのものと類似していました。
結論、今回もCloudLicenseで対策できれば十分合格できます。

 おわりに業務経験がないジャンルの資格勉強は大変というのを思い知りました。笑

MLA、MLSに挑戦するときは、十分に勉強期間を設けて臨みたいと思います。

	予測：陽性 (Positive)	予測：陰性 (Negative)
実際：陽性 (Positive)	真陽性 (TP)	偽陰性 (FN)
実際：陰性 (Negative)	偽陽性 (FP)	真陰性 (TN)

指標	意味	重要なタスク例
正解率 (Accuracy)	全ての予測のうち正しかった割合。	予測ミスのコストがほぼ等しい、バランスの取れた一般的な分類。
適合率 (Precision)	陽性と予測したもののうち、本当に陽性だった割合。	偽陽性（誤報）のコストが高いタスク（例：重大な病気の診断、レコメンデーション）。
再現率 (Recall)	実際に陽性だったもののうち、陽性と予測できた割合。	偽陰性（見逃し）のコストが高いタスク（例：見逃しが危険な病気のスクリーニング、不正行為の検出）。

アルゴリズム	K-近傍法 (KNN)	K-means (K-平均法)
学習タイプ	教師あり学習	教師なし学習
主な目的	分類・回帰（予測）	クラスタリング（グループ分け）
K の意味	予測に使う近隣のデータ点の数	分割したいグループの数
ユースケース	新しいデータがどのカテゴリに属するかを予測する（例：花びらのサイズから花の種類を予測）。	データ全体を自動でK個のグループに分ける（例：市場セグメンテーション）。

方式	応答速度の要求	データの量	主な目的
リアルタイム推論	非常に速い（低遅延）	少量（1リクエストごと）	即座の意思決定（例：不正検知）
バッチ変換	遅延は許容される	大量	高スループット、コスト効率（例：月次の在庫予測）
非同期推論	中程度（数分〜数時間）	重いタスク	長時間処理の実行と結果の確実な取得（例：大規模な動画分析）

指標	主な用途	評価の焦点	評価の観点
ROUGE	要約	再現率 (Recall)	参照要約の重要な情報を、生成要約がどれだけ漏れなく含んでいるか（網羅性）。
BLEU	機械翻訳	精度 (Precision)	生成翻訳文が、正解の訳文にどれだけ正確に含まれているか（正確性）。

サービス名	機能の核心	役割
Amazon Transcribe	音声を書き起こす (Transcription)	音声ファイルをテキストに変換する（文字起こし）。
Amazon Translate	テキストを翻訳 (Translation)	テキストデータをある言語から別の言語へ翻訳する。
Amazon Textract	テキストを抽出 (Extract)	画像/PDFからテキストや構造（フォーム、テーブル）を抽出する。

サービス名	対象	提供する情報	役割
AWS Artifact	AWSクラウドインフラ全体	AWSが受けた公式な監査レポート（SOC, ISOなど）。	AWS基盤の安全性を外部に証明する。
Amazon SageMaker Model Cards	個別の機械学習モデル	モデルの目的、性能、公平性、セキュリティなど包括的なドキュメント。	モデルの透明性、説明責任、監査証跡を確保する。
Amazon SageMaker Ground Truth Plus	データセット	AWSが代行して作成・納品する高品質なアノテーション付きデータセット。	アノテーション作業のフルマネージド化。

安全機構	特徴	動作原理	有効性
コンテンツフィルター	文脈的・意味的分析に基づき、出力全体の有害性を検出・ブロック。	複雑なMLモデルで有害性スコアを計算し、ポリシー違反の意図を特定する。	婉曲表現や隠語を用いた巧妙な有害表現にも対応可能。
ワードフィルター	単純な文字列照合により、禁止単語を検出・ブロック。	定義されたブラックリスト内の単語が含まれていないかを確認する。	露骨な不適切語の出力防止には有効だが、回避が容易。
コンテキストグラウンディングチェック	回答が参照した外部情報源に基づいているかを検証。	モデルのハルシネーション（嘘）を防ぎ、回答の事実性と信頼性を高める。
拒否トピック	特定の分野や話題について、モデルが回答そのものを拒否するポリシー。	モデルを特定のトピックへの回答から遠ざけ、専門外のアドバイスやデリケートな発言を防ぐ。

概要	ユースケース
Amazon.com で使われているものと同じ技術を基盤とした、リアルタイムのレコメンデーション（推奨）エンジンを提供するサービスです。	商品推薦: Eコマースサイトで「あなたへのおすすめ」をパーソナライズする。
ユーザーのアクティビティデータやアイテムのメタデータから、個々のユーザーに合わせたパーソナライズされた体験を実現します。	コンテンツ推薦: ニュースサイトや動画配信サービスで、次に視聴・閲覧すべきコンテンツを推薦する。

概要	ユースケース
音声とテキストによる会話型インターフェース（チャットボットや音声アシスタント）を構築するためのサービスです。	自動応答チャットボット: ウェブサイトやメッセージアプリで、顧客からの問い合わせに自動で応答する。
Amazon Alexa と同じエンジンが使用されており、自然言語理解 (NLU) と自動音声認識 (ASR) が組み込まれています。	音声 IVR (Interactive Voice Response): コールセンターの電話応答を自動化し、音声で顧客を適切な担当者や情報へ誘導する。

概要	ユースケース
音声ファイルを自動でテキストに変換（文字起こし）するサービスです。複数の話者の識別や、医療・法律など専門用語のカスタムも可能です。	会議の議事録作成: 会議の録音ファイルを自動でテキスト化し、話者を識別する。
	コールセンター分析: 顧客との通話内容をテキスト化し、感情分析やキーワード検索に利用する。

概要	ユースケース
画像やPDFドキュメントから、単なるテキストだけでなく、手書き文字、フォーム（キーと値のペア）、テーブル（表）の構造を抽出するサービスです。	請求書・領収書の自動処理: 金額、日付、ベンダー名などの構造化データを抽出して会計システムに連携する。
	保険・申請書類のデータ入力: スキャンされた複雑な書類から必要な情報を自動で読み取り、デジタル化する。

概要	ユースケース
機械学習モデルのライフサイクル全体にわたる透明性と監査証跡を確保するためのドキュメントサービスです。	モデル監査への対応: 金融や医療など規制の厳しい業界で、モデルがどのように開発・評価されたかを監査人に説明する。
モデルの目的、開発経緯、トレーニングデータ、公平性評価の結果などを単一のレポートにまとめます。	モデルガバナンスの標準化: 組織内で使用する全てのモデルに対し、統一された基準でドキュメントを作成・管理する。

概要	ユースケース
機械学習用の特徴量（フィーチャー）を一元管理、保存、共有するためのフルマネージドなリポジトリです。	トレーニングと推論の一貫性: トレーニング時とリアルタイム推論時で、同じ特徴量にアクセスできるようにし、モデルの性能低下を防ぐ。
特徴量の検索、再利用、およびリアルタイムの低遅延な提供をサポートします。	特徴量の共有と再利用: データサイエンティスト間で共通の特徴量（例：過去7日間の平均取引額）を共有し、チームの開発効率を向上させる。

概要	ユースケース
機械学習モデルのバイアス（偏り）を検出し、モデルの予測に対する説明性（Explainability）を提供するサービスです。	モデルの公平性評価: 住宅ローンの審査モデルが、人種や性別といったセンシティブな属性に対して公平な判断を下しているかを検証する。
モデル開発の早期段階で問題点を特定し、倫理的なリスクを管理できます。	予測理由の提示: モデルがなぜこの予測結果を出したのかを説明し、ビジネス担当者やユーザーの理解を助ける。

概要	ユースケース
機械学習ワークフローにおいて、データ集計、クリーニング、前処理を迅速化するための単一のインターフェースを提供するサービスです。	データの準備と変換: データセットの欠損値処理、標準化、特徴量エンジニアリングといった複雑な前処理を、コードを書かずにビジュアル操作で行う。
40以上のデータ変換機能が組み込まれており、コード生成機能もあります。	データ分析と可視化: 前処理の結果をグラフで確認し、どの変換がモデルに最適かを素早く判断する。

概要	ユースケース
コードを一行も書かずに機械学習モデルを構築、トレーニング、予測できるノーコードのサービスです。	ビジネスアナリストによる予測: IT部門に頼らず、販売データから需要予測や顧客離脱予測モデルを自分で作成する。
ビジネスアナリストや非専門家でも、直感的なインターフェースを通じて予測モデルを利用できます。	迅速なPoC (概念実証): MLの専門家を介さずに、ビジネスアイデアの実現可能性を素早く検証する。

概要	ユースケース
ソフトウェア開発者のための新しいタイプの生成 AI 搭載アシスタントです。	コード生成と修正: IDE (統合開発環境) 内で、コメントや自然言語プロンプトからコードを自動生成、または既存のコードを修正する。
コーディング、デバッグ、テスト、AWSのベストプラクティスに関する質問応答など、開発タスクをサポートします。	AWSに関する質問応答: AWSドキュメント全体から、特定のサービス設定やトラブルシューティングに関する即座の回答を得る。

概要	ユースケース
画像と動画の分析を専門とするサービスです。物体検出、顔分析、有名人の識別、不適切なコンテンツのモデレーションなどを提供します。	セキュリティと監視: 映像内の人物、車両、不審な行動をリアルタイムで検出・追跡する。
事前トレーニングされたモデルとカスタムモデルの両方をサポートします。	コンテンツモデレーション: ユーザーがアップロードした画像や動画に、暴力や成人向けコンテンツがないかを自動でチェックする。

概要	ユースケース
テキストからインサイトと関係性を抽出する自然言語処理 (NLP) サービスです。感情分析、キーワード抽出、トピックモデリングなどを行います。	顧客フィードバック分析: ソーシャルメディアやレビューのテキストから、顧客の感情（ポジティブ/ネガティブ）や意見の傾向を分析する。
	医療記録の分析: 医師のメモや臨床文書から、病名、治療法、投薬名などの重要な実体情報を抽出する。

概要	ユースケース
テキストをリアルな音声に変換する (Text-to-Speech) サービスです。多様な言語と自然な響きの声を提供します。	アクセシビリティ向上: ウェブサイトやモバイルアプリのコンテンツを音声で読み上げる機能を提供する。
	音声コンテンツ制作: 動画のナレーションやeラーニングモジュール向けの音声を、簡単なテキスト入力で生成する。

概要	ユースケース
Amazonや主要なスタートアップ企業の高性能な基盤モデル (FM: Foundation Models) を API を通じて利用できるようにするフルマネージドサービスです。	生成AIアプリケーション開発: 複数の最先端LLM（例：Claude, Llama, Titan）を切り替えて使用し、チャットボットやコンテンツ生成アプリケーションを構築する。
モデルのカスタマイズ、RAG（検索拡張生成）、エージェントの構築など、生成AI開発に必要な機能を提供します。	エンタープライズ検索: 企業独自のドキュメントを基盤モデルに組み込み（RAG）、社内情報に特化した高精度な回答を生成する。

概要	ユースケース
お客様が自社のAWS利用状況が規制や業界標準に準拠しているかを継続的に監視・評価し、監査に備えるためのサービスです。	継続的なコンプライアンス監視: HIPAA、PCI DSS、GDPRなどの要件に沿って、AWSリソースの設定変更やアクティビティログを自動で収集・整理する。
複数のAWSサービスから関連証拠を自動で収集し、監査レポートを簡単に作成できます。	内部監査の効率化: 監査人が求める証拠データを自動収集・整理することで、監査対応にかかる時間と労力を大幅に削減する。

概要	ユースケース
AWSのセキュリティとコンプライアンスに関する公式ドキュメント（レポート、契約書）をオンデマンドで提供するセルフサービスポータルです。	第三者監査への証明: 外部の監査人に対し、AWSという基盤自体がSOC、ISO、PCI DSSなどの国際的なセキュリティ基準を満たしていることを証明する。
AWSが第三者機関から受けた監査の結果を、お客様のコンプライアンス証明のために利用できます。	法的・契約上の要件充足: BAA（HIPAA対応）などの特定の法的合意文書をAWSと締結する。

概要	ユースケース
大規模言語モデル（LLM）やその他の生成モデルにおいて、生成される出力のランダム性（多様性）を制御するためのパラメータです。	クリエイティブなコンテンツ生成: 小説のアイデア、詩、マーケティングコピーなど、多様で独創的な出力が求められる場合に温度を高く設定する。
確率分布を調整し、確率の低い単語が選ばれやすくなるように作用します。	正確性・論理性が求められるタスク: 質問応答、コード生成、要約など、論理的で一貫した出力が求められる場合に温度を低く設定する（例：0.0～0.5）。
温度が高い (例: 0.8～1.0): 多様性が増し、予測不能な出力を生成しやすくなる。
温度が低い (例: 0.0～0.2): 最も確率の高い単語が常に選ばれ、一貫性が高く、創造性が低い出力となる。

概要	ユースケース
LLMのテキスト生成プロセスにおいて、次に予測される単語（トークン）の候補数を制限するサンプリング手法の一つです。	サンプリングの効率化: 予測確率が極端に低い膨大な数の単語候補を無視し、計算資源を節約しつつ品質を保つ。
予測確率に基づいて、確率が高い上位 $K$ 個の単語のみを次の単語の候補として残します。モデルは、この $K$ 個の中から次の単語を選びます。	ノイズの低減と制御: 温度を高くしても、全く無関係な単語が選ばれるのを防ぎ、出力の暴走（ハルシネーション）を抑制したい場合。
Top-Kを調整することで、出力の多様性を制御できます。通常、Top-Kは温度と組み合わせて使用されます。

概要	ユースケース
リクエストを受け付けた後、すぐに「受け付けました」と応答し、裏側で推論を数分〜数時間かけて実行する方式です。クライアントは後で結果を取りに来るか、コールバックで通知を受けます。	大規模な自然言語処理: アップロードされた書籍や文書全体を分析し、要約やタグ付けを行う。
処理に時間や高負荷を要するタスクに適しており、クライアントの長時間接続を不要にします。	高解像度画像の処理: 医療画像や衛星画像など、処理に数分かかる重い画像を分析する。

概要	ユースケース
データが入力されると即座に推論を実行し、すぐに結果を返す方式です。低遅延（レイテンシ）が最も重視されます。	不正検知: クレジットカード決済の瞬間に、不正取引であるかを判定する。
サーバーレス関数や常時稼働のAPIエンドポイントとしてデプロイされます。	レコメンデーションシステム: ユーザーの閲覧行動に基づき、ミリ秒単位で「次のおすすめ」を提案する。

概要	ユースケース
大量のデータをまとめて一度に推論処理する方式です。	月次・週次の予測: 過去の全販売データから、来月の在庫必要量を計算する。
個々の推論の遅延は気にせず、スループット（単位時間あたりの処理量）の最大化とコスト効率が重視されます。	顧客セグメンテーション: 全顧客に対し、深夜帯などに新しいマーケティングセグメントを一括で割り当てる。

概要	ユースケース
具体的な例を一切与えずに、タスクの指示だけを与えてモデルに応答させる手法です。モデルは、トレーニング中に獲得した一般的な知識のみに頼ってタスクを実行します。	単純な分類や抽出: 「以下のレビューが肯定的か否定的か分類してください」といった、追加の例示が不要な標準的なタスク。
特徴: 最もシンプルで簡単な形式であり、追加のコンテキストやデータ準備が不要です。	簡単な翻訳: 「[原文]を日本語に訳してください」といった明確な指示。

概要	ユースケース
モデルにタスクの指示を与えるだけでなく、タスクの例（入力と期待される出力のペア）を数組（"Few"）プロンプトの冒頭に含める手法です。	新しいドメイン特有のタスク: モデルが学習したことがない、特定の業界用語やフォーマット（例：法務文書の抽出フォーマット）のルールを教える。
特徴: モデルは与えられた例を参考にし、タスクの形式やパターンを迅速に学習し、最後の問いに答えます。タスクの例は、モデルの重み（パラメータ）を更新するのではなく、モデルの「インコンテキスト学習（In-Context Learning）」能力を利用します。	複雑な分類: 曖昧な事例が多い感情分析や、独自のレーベル名を持つ分類タスク。

概要	ユースケース
モデルに最終的な答えを求めるだけでなく、答えに至るまでの論理的な思考ステップや途中計算を、段階的に言語化するように指示・例示する手法です。	複雑な推論問題: 数学の計算問題、多段階の論理パズル、常識的な知識を組み合わせる問題など。
特徴: モデルの推論能力を大幅に向上させ、特に複雑な問題で性能を発揮します。タスクがより小さな、管理しやすいステップに分解されるため、ハルシネーション（誤答）の発生率も低下し、デバッグが容易になります。	ステップバイステップの計画: 複雑な旅行計画や、プログラミングのロジックを段階的に設計させるタスク。

Agent Grow Tech Notes

Agent Grow エンジニアによるテックブログです！

はじめに

🤖 AI/MLモデルの評価と運用：重要概念まとめ

1. モデル評価の基本指標

1-1. 📊 分類モデルの評価指標の計算基盤：混同行列 (Confusion Matrix)

1-2. 🎯 各指標が重要なタスク例

1-3. ✨ 回帰モデルの評価指標：R2 スコア (決定係数)

2. データと学習の構造・アルゴリズム

2-1. 📉 データ間の関係性：相関行列 (Correlation Matrix)

2-2. 🔄 学習の単位：エポック (Epoch)

2-3. 🥇 分類 vs. クラスタリング：K-近傍法 (KNN) と K-means

2-4. 📈 確率を予測する分類器：ロジスティック回帰モデル

3. モデルのデプロイと解釈性

3-1. 📦 モデルの推論実行方式

3-2. 📉 モデルの解釈性：部分依存プロット (PDP)

3-3. 🧑‍💻 人間の介入：ヒューマン・イン・ザ・ループ (HITL)

4. テキスト生成モデルの評価と制御

4-1. 🔴 評価指標：ROUGE と BLEU の違い

5. AWS関連サービスと言語処理サービス

5-1. 🎙️ 言語処理サービス

5-2. 📜 AWSのコンプライアンスとガバナンス

6. LLMの安全性確保：ガードレール技術

7. AWS 機械学習・AI サービス群

7-1. 💡 Amazon Personalize

7-2. 🗣️ Amazon Lex

7-3. 🎙️ Amazon Transcribe

7-4. 📄 Amazon Textract

7-5. 🧠 Amazon SageMaker Model Cards

7-6. 💾 Amazon SageMaker Feature Store

7-7. ✅ Amazon SageMaker Clarify

7-8. 📊 Amazon SageMaker Data Wrangler

7-9. 🎨 Amazon SageMaker Canvas

7-10. 🤖 Amazon Q Developer

7-11. 🖼️ Amazon Rekognition

7-12. 📝 Amazon Comprehend

7-13. 🎤 Amazon Polly

7-14. 🧱 Amazon Bedrock

7-15. 🛡️ AWS Audit Manager

7-16. 📜 AWS Artifact

8. 生成モデルの制御と学習の要素

8-1. 🌡️ 温度 (Temperature)

8-2. 🔢 Top-K

9. モデルのデプロイと推論実行方式

9-1. ⏳ 非同期推論 (Asynchronous Inference)

9-2. 💻 リアルタイム推論 (Real-time Inference)

9-3. 📦 バッチ変換 (Batch Transformation / Batch Inference)

10. 📝 主要なプロンプトエンジニアリング手法

10-1. 🧪 ゼロショットプロンプト (Zero-Shot Prompting)

10-2. 🎯 フューショットプロンプト (Few-Shot Prompting)

10-3. 🧠 思考連鎖プロンプト (Chain-of-Thought Prompting, CoT)

おまけ

おわりに

Discussion