AWS AIF 勉強メモ
2025.01.20 合格
AWS Certified AI Practitioner 認定 | AWS 認定 | AWS
AIF を受験予定なので勉強メモを残していきます。
自分自身の振り返り用ですがどなたかの参考になれば幸いです。
FM のカスタマイズのメリット
Best practices to build generative AI applications on AWS | AWS Machine Learning Blog
- ドメイン固有の適応
- タスク固有の微調整
- パーソナライゼーション
- 低リソース言語のチューニング
- 欠陥の修正
- 新しいドメインとタスクへの適応
- バイアスの克服
- 計算効率の向上
- 限られたターゲットデータの処理
- タスクパフォーマンスの向上
FM のカスタマイズのデメリット
Best practices to build generative AI applications on AWS | AWS Machine Learning Blog
- 高コスト
- 実装工数の増加
Bedrock ガードレール
Amazon Bedrock ガードレールを使用してモデル内の有害なコンテンツを停止する - Amazon Bedrock
Amazon Bedrock ガードレールを使用すると、ユースケースと責任のある AI ポリシーに基づいて、生成 AI アプリケーションの保護を実装できます。
生成 AI の制限
生成 AI システムは、その進歩にもかかわらず、不正確または誤解を招くような情報を生成することがあります。同システムはトレーニングされたパターンやデータに依存しており、そのデータに内在する偏りや不正確さを反映している場合があります。
SageMaker Model Card
Amazon SageMaker モデルカード - Amazon SageMaker
Amazon SageMaker Model Cards を使用して、機械学習 (ML) モデルに関する重要な詳細を 1 か所に文書化し、ガバナンスとレポートを簡素化します。
ROUGE
Autopilot で大規模言語モデルを微調整するためのメトリクス - Amazon SageMaker
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) は、自然言語処理 (NLP) および機械学習の分野で使用され、テキストの要約やテキスト生成など、マシン生成テキストの品質を評価する一連のメトリクスです。
Amazon Transcribe のカスタム言語モデル
カスタム言語モデルは、ドメイン固有の音声の文字起こしの精度を向上させるように設計されています。
基盤モデル (FM)
Foundation Model (FM) – 多数のパラメータを持ち、大量の多様なデータについてトレーニングされた AI モデル。基盤モデルは、幅広いユースケースに対してさまざまなレスポンスを生成できます。Foundation モデルはテキストまたはイメージを生成でき、入力を埋め込み に変換することもできます。
Amazon Q Business
エンタープライズ向け AI アシスタント - Amazon Q Business のよくある質問 - AWS
Amazon Q Business は生成 AI を活用したアシスタントで、企業のシステム内のデータや情報に基づいて、質問への回答、要約の提供、コンテンツの生成、およびタスクの安全な実行を行うことができます。
インストラクションベースのファインチューニング
プロンプト指示を使用して大きな言語モデル (LLM) を微調整する - Amazon SageMaker
インストラクションベースの微調整では、ラベル付きの例を使用して、特定のタスクで事前トレーニング済み基盤モデルのパフォーマンスを向上させます。ラベル付きの例は、プロンプトとレスポンスのペアとしてフォーマットされ、インストラクションとしてフレーズ化されます。
ゼロショットプロンプティング
基盤モデルのプロンプトエンジニアリング - Amazon SageMaker
ゼロショット学習とは、見えないクラスやタスクを一般化して予測できるようにモデルをトレーニングすることです。ゼロショット学習環境でプロンプトエンジニアリングを実行するには、ターゲットタスクと目的の出力形式に関する情報を明示的に提供するプロンプトを作成することをお勧めします。
フューショットプロンプティング
基盤モデルのプロンプトエンジニアリング - Amazon SageMaker
少量データ学習では、新しいクラスやタスクに対して、限られた量のデータを使ってモデルをトレーニングします。少量データ学習環境でのプロンプトエンジニアリングは、利用できる限られたトレーニングデータを効果的に使用するプロンプトを設計することに重点を置いています。
決定係数 R2
決定係数R2って何?は今日でお終い!3分でわかるR二乗とは | AIZINE(エーアイジン)
回帰によって導いたモデルの当てはまりの良さを表現する値で、モデルによって予測した値が実際の値とどの程度一致しているかを表現する評価指標
サポートベクターマシン
サポートベクターマシン(SVM)とは?特徴やメリットと活用事例 | DXを推進するAIポータルメディア「AIsmiley」
機械学習の種類のうち、「教師あり学習」における「分類」のタスクで主に使用されています。
Temperature
推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock
予測出力の確率分布の形状に影響し、モデルがより確率の低い出力を選択する可能性にも影響します。
Audit Manager
AWS Audit Manager のよくある質問: AWS の使用状況を継続的に監査して、リスクとコンプライアンスの評価方法を簡素化する – アマゾン ウェブ サービス
AWS の使用状況を継続的に監査してリスクとコンプライアンスを簡単に評価します。
GAN(敵対的生成ネットワーク)
GAN とは何ですか? - 敵対的生成ネットワークの説明 - AWS
2 つのニューラルネットワークをトレーニングして互いに競合させ、特定のトレーニングデータセットからより本物に近い、新しいデータを生成します。
WaveNet
Wave Netは、音声波形からサンプリング・量子化した点を直接DNN(ディープニューラルネットワーク)で処理することで、自然な発音に近い音声を合成することに成功したアルゴリズムです。
思考の連鎖プロンプティング
Chain-of-Thoughtプロンプティング|用語集 | セゾンテクノロジー
入力(プロンプト)を与える際に思考の過程をガイドとして与えることにより、より望んだ出力が得られるようにするプロンプト作成のテクニックです。
トップ P
推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock
モデルが次のトークンについて考慮する最も可能性の高い候補のパーセンテージ。
Bedrock エージェント
会話エージェントを使用してアプリケーションのタスクを自動化する - Amazon Bedrock
Amazon Bedrock エージェントは、アプリケーション内で自律型エージェントを構築して設定する機能を提供します。
DeepLab-V3
Amazon SageMaker で、セマンティックセグメンテーションアルゴリズムが利用可能になりました | Amazon Web Services ブログ
セマンティックセグメンテーションモデルを学習することができる、次の 3 つの最先端の組み込みアルゴリズムの選択肢を提供します。
AWS AI Service Card
AWS AI Service Card – 責任ある AI の新しいリソースを発表
AI Service Card は、責任ある AI ドキュメントの一種であり、お客様が AWS の AI サービスで想定されるユースケースや制限、責任ある AI 設計の選択、最善のデプロイと運用プラクティスに関する情報を得るための単一の場所を提供します。
オブジェクト検出
オブジェクト検出モデルは、一連のバウンディングボックスを返し、そのボックスが人物、人の手、または人の顔である確率を報告します。
SageMaker Processing のストレージ
SageMaker Processing によるデータ変換ワークロード - Amazon SageMaker
Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。
SageMaker Feature Store のストレージ設定
Feature Store のストレージ設定 - Amazon SageMaker
Amazon SageMaker Feature Store は、オンラインストアとオフラインストアで構成されています。オンラインストアでは推論用の特徴量をリアルタイムで検索でき、オフラインストアにはモデルトレーニングとバッチ推論用の履歴データが含まれます。
データポイズニング
生成AIを毒で汚染?データポイズニングとは|わかりやすく解説 - 株式会社アクト
データポイズニングとは、AIモデルの学習データに意図的に不正確または有害なデータを混入させることで、モデルの性能や出力を操作する攻撃手法です。この手法は、主に機械学習モデルを標的としており、モデルの判断基準や予測能力を歪めることを目的としています。
Amazon Q Business のデータソース
エンタープライズ向け AI アシスタント - Amazon Q Business のよくある質問 - AWS
Amazon Q Business は、Jira、ServiceNow、Salesforce、Zendesk などの人気のあるサードパーティーアプリケーションとインタラクションするための組み込みプラグインを提供します。
SLM(小規模言語モデル)
SLM(小規模言語モデル)とは?LLMとの違いは?小規模の理由・企業へのメリット・デメリットを徹底解説! - AI Market
SLM(小規模言語モデル)とは、特定タスクの処理を得意とする軽量型の言語モデルであり、LLMの対比言語モデルです。
Bedrock の Response length
推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock
生成されたレスポンスで返されるトークンの最小数または最大数を指定する正確な値
Bedrock の Penalties
推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock
レスポンス内の出力にどの程度ペナルティを課すかを指定します
Bedrock の Stop sequences
推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock
モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。
BERT
BERTScoreは、BERTなどのモデルを用いて文間の類似性のスコアを出力するタイプの評価指標です。
Bedrock でのナレッジベース構築手順
ナレッジベースを使用してデータを取得および AI レスポンスを生成する - Amazon Bedrock
- ナレッジベースに追加するソースドキュメントを収集
- ベクトルストアを設定
- ナレッジベースを作成
Amazon Q Developer
Amazon Q Developer とは? - Amazon Q Developer
Amazon Q のデベロッパーは、生成人工知能 (AI) を活用した会話型アシスタントであり、AWS アプリケーションの理解、構築、拡張、運用を支援します。AWS アーキテクチャ、AWS リソース、ベストプラクティス、ドキュメント、サポートなどについて質問できます。
IDE での Amazon Q Developer の仕様
Amazon Q Developer とは? - Amazon Q Developer
統合開発環境 (IDE) で使用すると、Amazon Q はソフトウェア開発を支援します。Amazon Q では、コードに関するチャット、インラインコードの完了、新しいコードの生成、セキュリティ上の脆弱性のスキャン、言語の更新、デバッグ、最適化などのコードのアップグレードと改善を行うことができます。
Bedrock のモデル評価ジョブ
Amazon Bedrock 評価を使用して最もパフォーマンスの高いモデルを選択する - Amazon Bedrock
自動モデル評価ジョブのモデルのパフォーマンスを評価するには、組み込みのプロンプトデータセットまたは独自のプロンプトデータセットを使用できます。人間の作業者を使用するモデル評価ジョブの場合、独自のデータセットを使用する必要があります。
text-to-text モデルでの継続的な事前トレーニング
text-to-text モデルで継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各 JSON 行は input フィールドのみを含むサンプルです。
Bedrock の出力インジケーター
モデルが生成する出力に含めたい制約に関する詳細を追加します。
Bedrock のストリーミングレスポンス
ストリーミングレスポンスの動作を設定してコンテンツをフィルタリングする - Amazon Bedrock
InvokeModelWithResponseStream API は、ストリーミング形式でデータを返します。そのため、結果が全部返されるまで待たなくても、チャンクごとにレスポンスを確認できます。ストリーミングレスポンスでガードレールを使用する場合、同期と非同期の 2 つの処理モードがあります。
プロンプトエンジニアリングの要素
プロンプトエンジニアリングとは?ChatGPTで代表的な12個のプロンプトを実演! | DXを推進するAIポータルメディア「AIsmiley」
- 指示
- コンテキスト
- 出力インジケーター
- 入力データ
質問または指示をプロンプトの最後に入力
最後にタスクの説明、指示、または質問を入力すると、モデルが見つけなければならない情報を特定しやすくなります。
Bedrock のプロンプト管理
Amazon Bedrock でプロンプト管理を使用して再利用可能なプロンプトを構築して保存する - Amazon Bedrock
Amazon Bedrock では、プロンプト管理を使用してユーザー独自のプロンプトを作成して保存できるため、異なるワークフローに同じプロンプトを適用することで時間を節約できます。
Bedrock の PII
機密情報フィルターを使用して会話から PII を削除する - Amazon Bedrock
Amazon Bedrock ガードレールを使用すれば、個人を特定できる情報 (PII) などの機密情報を入力プロンプトやモデルのレスポンスで検出することができます。
BLEU
精度のよいAI翻訳を知るには~評価指標とAI翻訳エンジンのカスタマイズ~ | LDX lab
BLEUスコアは0~1の数値で示され(*1)、参照訳に近いほど数値が高くなります。つまり、数値が高いほど人手翻訳に近いAI翻訳である、と言えます。
ジェイルブレイク
【論文瞬読】AIのダークサイド:ChatGPTのジェイルブレイクが示す驚くべき脆弱性|AI Nest
ChatGPTなどの大規模言語モデル(LLM)に設定された安全性や倫理的な制約を回避して、本来生成すべきでない内容を出力させる行為のことを指します。
Bedrock エージェントと Lambda
Amazon Bedrock エージェントがユーザーから取得した情報を送信するように Lambda 関数を設定する - Amazon Bedrock
Lambda 関数を定義して、アクショングループのビジネスロジックをプログラムできます。Amazon Bedrock エージェントは、アクショングループで呼び出す必要がある API オペレーションを決定した後、API スキーマからの情報を関連するメタデータとともに入力イベントとして Lambda 関数に送信します。
プロンプトリーク
プロンプトリークとは?影響や具体例、対策について詳しく解説! - 株式会社アドカル
プロンプトリーク(Prompt-Leaking)とは、プロンプトが保有する公開を意図していない情報を引き出し、機密情報を漏らすようにChatGPTなどのLLMに指示する手法です。
Amazon Transcribe Medical
よくある質問 - Amazon Transcribe | AWS
Amazon Transcribe Medical では、高度な機械学習モデルを使用して、医療音声を正確にテキストに変換できます。
トランスフォーマー
LLM としても知られる大規模言語モデルは、膨大な量のデータで事前トレーニングされた、非常に大規模な深層学習モデルです。基盤となるトランスフォーマーは、自己注意機能を備えたエンコーダーとデコーダーで構成されるニューラルネットワークのセットです。
生成 AI セキュリティスコーピングマトリックス
生成 AI をセキュアにする: 生成 AI セキュリティスコーピングマトリックスの紹介 | Amazon Web Services ブログ
セキュリティスコーピングの取り組みを簡素化するために、選択する生成 AI ソリューションに応じて考慮すべき主要なセキュリティ領域をまとめたマトリックスを作成しました。これを生成 AI セキュリティスコーピングマトリックスと呼んでいます
マルチモーダルプロンプト
マルチモーダルな生成 AI 活用の入門編! - 画像認識と画像生成 - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
言語に限らず画像や音声など複数の入力や出力形態を扱うことを「マルチモーダル」と呼びます。
Amazon Bedrock Agents とマルチステップタスク
Amazon Bedrock Agents を使用して堅牢な生成 AI アプリケーションを構築するためのベストプラクティス – Part 1 | Amazon Web Services ブログ
エージェントは、マルチステップタスクを調整することで、生成 AI アプリケーション開発を加速するのに役立ちます。
Bedrock プレイグラウンド
Generate responses in the console using playgrounds - Amazon Bedrock
Amazon Bedrock プレイグラウンドは、さまざまなモデルで推論を実行し、さまざまな設定を使用するためのビジュアルインターフェイスを提供する AWS Management Console のツールです。
Bedrock プロンプトフロー
Amazon Bedrock プロンプトフローを使用してエンドツーエンドの生成 AI ワークフローを構築する - Amazon Bedrock
Amazon Bedrock プロンプトフローでは、サポートされている基盤モデル (FM) を使用し、プロンプト、基盤モデル、その他の AWS サービスをリンクしてエンドツーエンドのソリューションを作成してワークフローを構築できます。
データレジデンシー
【週刊データセンターWatch】【データセンター用語集】データレジデンシーとは - クラウド Watch
クラウド上に保存したデータが実際にどの地域・国に設置されたサーバー内にあるのか、確認したり指定できる機能(もしくは権利)という文脈で用いられる。
JupyterLab
JupyterLabとNotebookの違いは?移行方法も解説! | アンドエンジニア
JupyterLabはJupyter Notebookの次世代版のソフトウェアとしてリリースされたものです。そのため、Jupiter notebookより利便性が高くなっているのが大きな特徴でしょう。
決定性と非決定性
AIのアルゴリズムとは?種類と仕組みを分かりやすく解説 | romptn Magazine
決定的なアルゴリズムは、同じ入力に対して常に同じ出力を生成します。
一方、非決定的なアルゴリズムは、同じ入力に対して異なる結果を生成する可能性があります。
ペルソナの切り替え
一般的なプロンプトインジェクション攻撃 - AWS 規範ガイダンス
このタイプの攻撃では、LLM に悪意があり、誘発的である可能性のある新しいペルソナを採用させようとします。
SageMaker Role Manager
Amazon SageMaker Role Manager - Amazon SageMaker
Amazon SageMaker Role Manager を使用すると、一般的な機械学習のニーズに対応するペルソナベースの IAM ロールを Amazon SageMaker コンソールから直接作成して管理できます。
AWS PartyRock
Amazon Bedrock のプレイグラウンドである PartyRock を発表
PartyRock は、楽しく直感的に使用できるハンズオン形式の生成系 AI アプリケーション構築プレイグラウンドです。
コンテキストウィンドウ
コンテキストウィンドウオーバーフローとその対策 | Amazon Web Services ブログ
LLM の使用可能な短期メモリまたは一時的なストレージと考えてください。これは、モデルが返答を生成する際に一度に考慮できるテキストの最大量 (トークンで測定される) です。
カットオフ
学習データのカットオフとは、なんらかの理由で、モデルの学習データから一部を切り捨てることを言います。
勾配降下法
勾配降下法は、機械学習モデルやニューラル・ネットワークのトレーニングによく使用される最適化アルゴリズムで、予測結果と実際の結果の間の誤差を最小限に抑えて機械学習モデルをトレーニングします。
インテリジェントドキュメント処理
インテリジェントドキュメント処理とは何ですか? - IDP の説明 - AWS
インテリジェントドキュメント処理 (IDP) は、紙ベースのドキュメントやドキュメント画像から手動でデータを入力するプロセスを自動化して、他のデジタル・ビジネス・プロセスと統合します。
Grad-CAM
「画像分類」アルゴリズムにおける検証方法の紹介(Grad-CAM) | DevelopersIO
「Grad-CAM」は「画像分類した際に、分類結果に寄与する画像中の箇所」がわかる手法です。
Bedrock のカスタムモデルとプロビジョンドスループット
Amazon Bedrock のプロビジョンドスループットでモデル呼び出し容量を増やす - Amazon Bedrock
モデルをカスタマイズした場合は、そのモデルを使用するには、プロビジョンドスループットを購入する必要があります。
ネガティブプロンプト
【コピペで使えるテンプレ付き】Stable Diffusionのネガティブプロンプト一覧! | romptn Magazine
ネガティブプロンプト(Negative Prompt)の意味は、Stable Diffusionに“画像を生成する際に除外したい要素”を指示させるということです。つまり、通常のプロンプトが指定する「入れたい内容」の指示とは反対の、除外すべき要素に着目するものです。
データリネージ
Build data lineage for data lakes using AWS Glue, Amazon Neptune, and Spline | AWS Big Data Blog
Data lineage helps ensure that accurate, complete and trustworthy data is being used to drive business decisions.
マルチクラス分類とマルチラベル分類
不均衡画像データのマルチラベル分類 #機械学習 - Qiita
マルチクラス分類(多クラス分類)とは、一つの画像が複数のクラスの内一つに属する問題です。
一方、一つの画像が複数のクラスに属する、あるいはどのクラスにも属さない問題をマルチラベル分類(多ラベル分類)といいます。
Stable Diffusion
Stable Diffusion とは - Stable Diffusion AI の説明 - AWS
Stable Diffusion は、テキストや画像プロンプトから写真のようにリアルな独自の画像を生成する生成型人工知能 (生成 AI) モデルです。
Llama
Llamaとは?最新モデルの性能や日本語対応の状況、活用例などを解説! | スキルアップAI Journal
Llamaとは、Meta社が開発した大規模言語モデル(LLM)です。
Jurassic
AI21 Labs - Amazon Bedrock のモデル - AWS
品質と手頃な価格の両方を必要とする高度なテキスト生成タスク向けの AI21 の中規模モデル。
Claude
Claudeは、Anthropicが開発した高性能で知的なAIモデル群です。Claudeは強力で拡張性がありながら、最も信頼性が高く確実なAIでもあります。重要なプロトコルに従い、ミスが少なく、ジェイルブレイクに対して耐性があるため、企業のお客様は最も安全なAI駆動のアプリケーションを大規模に構築することができます。
SageMaker Studio で使用可能な IDE
ML 開発者向けウェブインターフェイス - Amazon Sagemaker Studio - AWS
Amazon SageMaker Studio は、JupyterLab、Code – OSS (Visual Studio Code Open Source) に基づくコードエディタ、RStudio など、ML 開発用の幅広い一連のフルマネージド IDE を提供します。
LLM は非決定的
LLMがソフトウェアエンジニアリングでどのように適用可能か、網羅的な調査&分析結果 | AIDB
LLMの非決定的な性質は、科学的評価にも課題をもたらしています。同じプロセスを実行してもその度に結果が異なる可能性があり、この特徴はタスクによっては導入の障壁になっています。
DeepRacer カー
AWS DeepRacerとは? - AWS DeepRacer
AWS DeepRacer 車両は、強化学習モデルを使用して物理的なトラックを走行できる、Wi-Fi 対応の物理的な車両です。
Discussion