AWS AIプラクティショナー (AIF-C01) 勉強したことのメモ
#はじめに
AWS AIプラクティショナー(AIF-C01)の勉強をしていて、ノートに手書きでまとめていたが面倒になったため、それならばZennにまとめてしまおう!
ということで作成しました。適宜更新を行なっていきます。
Amazon SageMaker シリーズ
機能名 | 説明 |
---|---|
SageMaker | Amazon SageMaker は、データ準備、モデル構築、トレーニング、チューニング、デプロイを含む完全な機械学習ライフサイクルを提供するフルマネージド型のサービスです |
SageMaker Feature Store | アカウント間や組織内のML開発の特徴量処理・保存・取得・共有 |
SageMaker BlazingText | Word2verおよびテキスト分類アルゴリズムの高度に最適化された実装を提供 |
SageMaker Data Wrangler | 機械学習用データの集約と準備を支援するサービス |
SageMaker Serverless Inference | 基盤となるインフラを設定・管理せずに、MLモデルをデプロイおよびスケールする専用の推論オプション |
SageMaker Pipelines | MLOpsやLLMOpsオートメーション専用のサーバーレスワークフローオーケストレーションサービス(複数タスクが連携して実行される一連の処理(ワークフロー)を、サーバーレスで自動的に調整・管理するサービス) |
SageMaker AI リアルタイムエンドポイント | リアルタイム、インタラクティブ、低レイテンシーの要件がある推論ワークロードに最適 |
SageMaker Automatic Model Tuning | データセットに対して多数のトレーニングジョブを実行して、モデルの最適なバージョンを見つける。ハイパーパラメータの最適化を効率的に実施することができる。 |
SageMaker Ground Truth ラベル | Model Monitorのモデル品質のモニタリングジョブにおいて、比較しているもの。 |
SageMaker Clarify | 機械学習モデルのバイアス検出と説明可能性の提供を支援するAmazon SageMakerの機能 |
Amazon SageMaker Canvas | 非技術者向けに設計されたノーコードの機械学習ツール。 |
Amazon Bedrock シリーズ
機能名 | 説明 |
---|---|
Amazon Bedrock | 生成形AIアプリを作成できるサービス |
∟ | 単一のAPIを通して、Amazonから複数の高性能な基盤モデル(FM)を選択できるフルマネージドサービス |
Amazon Bedrock ガードレール | 望ましくないコンテンツや有害コンテンツを回避、機密情報の削除・マスクなどのフィルタリングポリシー |
Agents for Amazon Bedrock | 大規模言語モデル(LLM)を使用してWeb上やニュースの記事といった長い文章を要約する |
Amazon Bedrock プロビジョンドスループット | 特定のモデルに対して固定のスループット容量を事前に確保しておくことが可能 |
Amazon Bedrock ナレッジベース | モデルが外部データを参照する機能のこと。このナレッジベースを活用することでRAGを用いたアプリケーション構築が容易になる。 |
aaa | text |
セマンティックセグメンテーション
同一画像に存在する2つの物体を一つの物体としてラベル付する分類手法。
画像内のピクセル(画素)にカテゴリを割り当てることで、画像内容をピクセル単位で理解する技術。
pixel(400,400)=cat
pixel(600,400)=car
pixel(800,600)=human
その他の分類は下記がわかりやすかったです。
データドリフト
機械学習モデルの訓練時と運用時で、扱うデータの統計的特性が時間と共に劣化する現象のこと。
例:過去のデータに基づいた消費者行動予測モデルを作成したが、
運用時には新型コロナのパンデミックが流行していて、
そのモデルが機能しなくなってしまった。
こういう場合は、モデルの再学習や特徴量エンジニアリングの更新などの対応が必要。
ベイズ最適化
評価に時間やコストがかかる「ブラックボックス関数」の最適値を少ない試行回数で効率的に見つけるための最適化手法のこと。ベイズ最適化では、効率的な探索と活用のバランスを保ちつつ、最適なハイパーパラメーターを探索する。
ブラックボックス関数とは、入力と出力の関係が不明な複雑関数のことで、機械学習モデルのハイパーパラメータ調整や材料開発における実験計画などで利用されている。
ランダムカットフォレスト(RCF)
異常検知に特化し教師なし学習
のアルゴリズム。
このアルゴリズムは、特に時系列データやストリーミングデータにおける異常を効率的に検出するために設計されている。
各データポイントに異常スコアを割り当て、そのスコアが高いほど異常であると判断する。
サポートベクターマシン(SVM)
異なるグループのデータを効率的に分類するための手法。
異なるデータの間に適切な境界線を設定し分類を行う。
XGBoost(eXtreme Gradient Boosting)
アンサンブル学習と決定木を組み合わせたアルゴリズム。
弱い予測モデルを組み合わせて強い予測モデルを作ることができる。
(初心者同士を組み合わせて強いプレイヤーにも太刀打ちできようにするイメージ?)
G4インスタンスとTrnインスタンスの違い
項目 | G4 | Trn |
---|---|---|
アクセラレーター | NVIDIA GPU(T4など) | AWS Trainiumチップ |
主な用途 | 機械学習の推論、小規模な学習、グラフィックス | 大規模な深層学習の学習 |
BERT(Bidirectional Encoder Representations from Transformers)
文脈を考慮して、テキストの一部を補完するタスクに適したモデル。
BERT(バート)は、Googleが2018年に発表した自然言語処理(NLP)モデルで、従来モデルとは違って、文章を双方向から学習することでより高い制度で文脈を理解できるようになったらしい。
アーティファクト
モデルのトレーニング過程で生成されるデータのこと。
下記リンクないの周辺用語も要チェックかも
https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/key-definitions.html
Amazon Q
Amazonが提供する企業向けの生成AIアシスタントサービスのこと。
一般的なAIアシスタントとは異なり、企業の内部データ(ドキュメント、システム、ソースコードなど)を安全に接続して学習することで、特定の業務に特化した支援を提供することができる。
例①新人教育において、新人が社内マニュアルを探す手間が省ける。AIが関連資料をまとめて教えてくれる。
例②営業担当者が顧客訪問前に、過去の取引履歴を参照しやすくなる。AIがCRMシステム(顧客管理システム)内のデータから必要な情報を引っ張ってきてくれる。
例③社内のプログラマーが、「このコードの直す場所教えて」と質問すると、AIが過去のコードレビュー履歴やマニュアルを参照して、改善案を提示してくれる。
ハイパーパラメータ
ハイパーパラメータとは、様々な機械学習モデルの学習が始まる前に、人間が手動で設定する値のこと。モデルの性能に大きな影響をあたえる。
具体的には、エポック数、学習率、閾値、ミニバッチサイズ、DeepLearningの層の数、各層におけるニューロン数などが含まれる。
ファインチューニング
事前にトレーニングされたモデルに対して、追加で特定データを与えて、新たなドメインに特化した学習をさせる。これにより新しいモデルを生成する。
よく微調整
とか言われたりする。
特徴量エンジニアリング
特徴量エンジニアリングでは、生データから変数を抽出➡︎変換して、トレーニングや予測に利用できるようにする。特徴量エンジニアリングのために必要なステップには、データの抽出とクレンジング、そして特徴の作成・保存が含まれる。
この特徴量エンジニアリングには、データ分析、ビジネスドメインの知識、ある程度の直感・ひらめになどの要素を組み合わせることが必要となる。
Amazon RDS for PostgreSQL
a
思考の連鎖プロンプティング
思考の連鎖プロンプティングは、複雑な質問を、思考の流れを模倣した小さな論理的セグメントに分解する手法のこと。
モデルは、問題に一発で直接答えるのではなく、途中のステップを経ながら問題を解決することができる。これにより推論能力が向上する。
Few-shotプロンプティング
タスクを遂行するための方法を学習させるために、具体例を何個か提示するプロンプトのこと。複雑なタスクだと、具体例を示さない(Zero-shotプロンプト)場合に十分な結果が得られないことがある。それを解決するために、何個か具体例(Few-shot)を与えてより高精度な出力をしてもらうようにする。
プロンプトエンジニアリング
生成AI(ChatGPTなど)から、より高品質で望ましい出力を引き出すために、指示や命令文(プロンプト)を工夫して設計する技術のこと。
Amazon Augmented AI(Amazon A2I)
機械学習予測にデベロッパー(人間)のレビューを簡単に取り入れることができるフルマネージドサービス。
人間によるレビューシステムの構築と、大量の人間アナリストを管理する必要がなくなる。
AWS AI Service Cards
サービスで想定されるユースケースや、サービスによるMLの使用方法、責任あるサービスの設計・使用における主な考慮事項が記載されている。
クロスリージョン推論
あるリージョン(地域)で受けたAIの推論リクエストを、別のリージョンにあるサーバーで処理する仕組みのこと。これにより、特定の地域に依存することなく、グローバルにAIサービスを提供できるようになる。
負荷分散やスケーラビリティ、可用性向上、モデル選択肢の拡大といった点でメリットがある。
プロンプトリーキング
モデルが入力プロンプトの一部を意図せずに出力に含めてしまう現象のこと。プロンプトがLeak。
その他メモ
- Amazon SageMakerでモデルトレーニングデータへのアクセスを特定のIAMロールに制限するには、
IAMロールとS3バケットポリシーを組み合わせて使用する方法
が最も適切。 - インコンテキスト学習は、モデルのプロンプトにタスクの例をいくつか含めて、モデルがその場でタスクを学習し、出力を生成する手法。基盤モデルのカスタマイズ手法の中で、一般的には最も低コスト。
- ハイパーパラメータはモデルの学習開始前に手動で設定され、パラメータは学習中に自動的に更新・最適化される。
- ファインチューニングはモデルの重みを更新し、プロンプトエンジニアリングは入力を最適化する
Discussion