📝

AWS AIF 勉強メモ

2025/01/01に公開

AWS Certified AI Practitioner 認定 | AWS 認定 | AWS
AIF を受験予定なので勉強メモを残していきます。
自分自身の振り返り用ですがどなたかの参考になれば幸いです。

FM のカスタマイズのメリット

Best practices to build generative AI applications on AWS | AWS Machine Learning Blog

  • ドメイン固有の適応
  • タスク固有の微調整
  • パーソナライゼーション
  • 低リソース言語のチューニング
  • 欠陥の修正
  • 新しいドメインとタスクへの適応
  • バイアスの克服
  • 計算効率の向上
  • 限られたターゲットデータの処理
  • タスクパフォーマンスの向上

FM のカスタマイズのデメリット

Best practices to build generative AI applications on AWS | AWS Machine Learning Blog

  • 高コスト
  • 実装工数の増加

Bedrock ガードレール

Amazon Bedrock ガードレールを使用してモデル内の有害なコンテンツを停止する - Amazon Bedrock

Amazon Bedrock ガードレールを使用すると、ユースケースと責任のある AI ポリシーに基づいて、生成 AI アプリケーションの保護を実装できます。

生成 AI の制限

生成 AI とは?-生成 AI の説明 - AWS

生成 AI システムは、その進歩にもかかわらず、不正確または誤解を招くような情報を生成することがあります。同システムはトレーニングされたパターンやデータに依存しており、そのデータに内在する偏りや不正確さを反映している場合があります。

SageMaker Model Card

Amazon SageMaker モデルカード - Amazon SageMaker

Amazon SageMaker Model Cards を使用して、機械学習 (ML) モデルに関する重要な詳細を 1 か所に文書化し、ガバナンスとレポートを簡素化します。

ROUGE

Autopilot で大規模言語モデルを微調整するためのメトリクス - Amazon SageMaker

Recall-Oriented Understudy for Gisting Evaluation (ROUGE) は、自然言語処理 (NLP) および機械学習の分野で使用され、テキストの要約やテキスト生成など、マシン生成テキストの品質を評価する一連のメトリクスです。

Amazon Transcribe のカスタム言語モデル

カスタム言語モデル - Amazon Transcribe

カスタム言語モデルは、ドメイン固有の音声の文字起こしの精度を向上させるように設計されています。

基盤モデル (FM)

主要な用語 - Amazon Bedrock

Foundation Model (FM) – 多数のパラメータを持ち、大量の多様なデータについてトレーニングされた AI モデル。基盤モデルは、幅広いユースケースに対してさまざまなレスポンスを生成できます。Foundation モデルはテキストまたはイメージを生成でき、入力を埋め込み に変換することもできます。

Amazon Q Business

エンタープライズ向け AI アシスタント - Amazon Q Business のよくある質問 - AWS

Amazon Q Business は生成 AI を活用したアシスタントで、企業のシステム内のデータや情報に基づいて、質問への回答、要約の提供、コンテンツの生成、およびタスクの安全な実行を行うことができます。

インストラクションベースのファインチューニング

プロンプト指示を使用して大きな言語モデル (LLM) を微調整する - Amazon SageMaker

インストラクションベースの微調整では、ラベル付きの例を使用して、特定のタスクで事前トレーニング済み基盤モデルのパフォーマンスを向上させます。ラベル付きの例は、プロンプトとレスポンスのペアとしてフォーマットされ、インストラクションとしてフレーズ化されます。

ゼロショットプロンプティング

基盤モデルのプロンプトエンジニアリング - Amazon SageMaker

ゼロショット学習とは、見えないクラスやタスクを一般化して予測できるようにモデルをトレーニングすることです。ゼロショット学習環境でプロンプトエンジニアリングを実行するには、ターゲットタスクと目的の出力形式に関する情報を明示的に提供するプロンプトを作成することをお勧めします。

フューショットプロンプティング

基盤モデルのプロンプトエンジニアリング - Amazon SageMaker

少量データ学習では、新しいクラスやタスクに対して、限られた量のデータを使ってモデルをトレーニングします。少量データ学習環境でのプロンプトエンジニアリングは、利用できる限られたトレーニングデータを効果的に使用するプロンプトを設計することに重点を置いています。

決定係数 R2

決定係数R2って何?は今日でお終い!3分でわかるR二乗とは | AIZINE(エーアイジン)

回帰によって導いたモデルの当てはまりの良さを表現する値で、モデルによって予測した値が実際の値とどの程度一致しているかを表現する評価指標

サポートベクターマシン

サポートベクターマシン(SVM)とは?特徴やメリットと活用事例 | DXを推進するAIポータルメディア「AIsmiley」

機械学習の種類のうち、「教師あり学習」における「分類」のタスクで主に使用されています。

Temperature

推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock

予測出力の確率分布の形状に影響し、モデルがより確率の低い出力を選択する可能性にも影響します。

Audit Manager

AWS Audit Manager のよくある質問: AWS の使用状況を継続的に監査して、リスクとコンプライアンスの評価方法を簡素化する – アマゾン ウェブ サービス

AWS の使用状況を継続的に監査してリスクとコンプライアンスを簡単に評価します。

GAN(敵対的生成ネットワーク)

GAN とは何ですか? - 敵対的生成ネットワークの説明 - AWS

2 つのニューラルネットワークをトレーニングして互いに競合させ、特定のトレーニングデータセットからより本物に近い、新しいデータを生成します。

WaveNet

WaveNet – 【AI・機械学習用語集】

Wave Netは、音声波形からサンプリング・量子化した点を直接DNN(ディープニューラルネットワーク)で処理することで、自然な発音に近い音声を合成することに成功したアルゴリズムです。

思考の連鎖プロンプティング

Chain-of-Thoughtプロンプティング|用語集 | セゾンテクノロジー

入力(プロンプト)を与える際に思考の過程をガイドとして与えることにより、より望んだ出力が得られるようにするプロンプト作成のテクニックです。

トップ P

推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock

モデルが次のトークンについて考慮する最も可能性の高い候補のパーセンテージ。

Bedrock エージェント

会話エージェントを使用してアプリケーションのタスクを自動化する - Amazon Bedrock

Amazon Bedrock エージェントは、アプリケーション内で自律型エージェントを構築して設定する機能を提供します。

DeepLab-V3

Amazon SageMaker で、セマンティックセグメンテーションアルゴリズムが利用可能になりました | Amazon Web Services ブログ

セマンティックセグメンテーションモデルを学習することができる、次の 3 つの最先端の組み込みアルゴリズムの選択肢を提供します。

AWS AI Service Card

AWS AI Service Card – 責任ある AI の新しいリソースを発表

AI Service Card は、責任ある AI ドキュメントの一種であり、お客様が AWS の AI サービスで想定されるユースケースや制限、責任ある AI 設計の選択、最善のデプロイと運用プラクティスに関する情報を得るための単一の場所を提供します。

オブジェクト検出

オブジェクト検出 | Niantic Lightship

オブジェクト検出モデルは、一連のバウンディングボックスを返し、そのボックスが人物、人の手、または人の顔である確率を報告します。

SageMaker Processing のストレージ

SageMaker Processing によるデータ変換ワークロード - Amazon SageMaker

Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。

SageMaker Feature Store のストレージ設定

Feature Store のストレージ設定 - Amazon SageMaker

Amazon SageMaker Feature Store は、オンラインストアとオフラインストアで構成されています。オンラインストアでは推論用の特徴量をリアルタイムで検索でき、オフラインストアにはモデルトレーニングとバッチ推論用の履歴データが含まれます。

データポイズニング

生成AIを毒で汚染?データポイズニングとは|わかりやすく解説 - 株式会社アクト

データポイズニングとは、AIモデルの学習データに意図的に不正確または有害なデータを混入させることで、モデルの性能や出力を操作する攻撃手法です。この手法は、主に機械学習モデルを標的としており、モデルの判断基準や予測能力を歪めることを目的としています。

Bedrock 評価

Amazon Bedrock 評価を使用して最もパフォーマンスの高いモデルを選択する - Amazon Bedrock

モデル評価ジョブの結果により、モデルまたは推論プロファイル出力を比較し、ダウンストリーム生成 AI アプリケーションに最適なモデルを選択します。

Amazon Q Business のデータソース

エンタープライズ向け AI アシスタント - Amazon Q Business のよくある質問 - AWS

Amazon Q Business は、Jira、ServiceNow、Salesforce、Zendesk などの人気のあるサードパーティーアプリケーションとインタラクションするための組み込みプラグインを提供します。

SLM(小規模言語モデル)

SLM(小規模言語モデル)とは?LLMとの違いは?小規模の理由・企業へのメリット・デメリットを徹底解説! - AI Market

SLM(小規模言語モデル)とは、特定タスクの処理を得意とする軽量型の言語モデルであり、LLMの対比言語モデルです。

Bedrock の Response length

推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock

生成されたレスポンスで返されるトークンの最小数または最大数を指定する正確な値

Bedrock の Penalties

推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock

レスポンス内の出力にどの程度ペナルティを課すかを指定します

Bedrock の Stop sequences

推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock

モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。

BERT

2文の類似性の判定の実験

BERTScoreは、BERTなどのモデルを用いて文間の類似性のスコアを出力するタイプの評価指標です。

Bedrock でのナレッジベース構築手順

ナレッジベースを使用してデータを取得および AI レスポンスを生成する - Amazon Bedrock

  1. ナレッジベースに追加するソースドキュメントを収集
  2. ベクトルストアを設定
  3. ナレッジベースを作成

Amazon Q Developer

Amazon Q Developer とは? - Amazon Q Developer

Amazon Q のデベロッパーは、生成人工知能 (AI) を活用した会話型アシスタントであり、AWS アプリケーションの理解、構築、拡張、運用を支援します。AWS アーキテクチャ、AWS リソース、ベストプラクティス、ドキュメント、サポートなどについて質問できます。

IDE での Amazon Q Developer の仕様

Amazon Q Developer とは? - Amazon Q Developer

統合開発環境 (IDE) で使用すると、Amazon Q はソフトウェア開発を支援します。Amazon Q では、コードに関するチャット、インラインコードの完了、新しいコードの生成、セキュリティ上の脆弱性のスキャン、言語の更新、デバッグ、最適化などのコードのアップグレードと改善を行うことができます。

WaveNet

WaveNet – 【AI・機械学習用語集】

Wave Netは、音声波形からサンプリング・量子化した点を直接DNN(ディープニューラルネットワーク)で処理することで、自然な発音に近い音声を合成することに成功したアルゴリズムです。

Bedrock のモデル評価ジョブ

Amazon Bedrock 評価を使用して最もパフォーマンスの高いモデルを選択する - Amazon Bedrock

自動モデル評価ジョブのモデルのパフォーマンスを評価するには、組み込みのプロンプトデータセットまたは独自のプロンプトデータセットを使用できます。人間の作業者を使用するモデル評価ジョブの場合、独自のデータセットを使用する必要があります。

text-to-text モデルでの継続的な事前トレーニング

データセットを準備する - Amazon Bedrock

text-to-text モデルで継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各 JSON 行は input フィールドのみを含むサンプルです。

Bedrock の出力インジケーター

プロンプトを設計する - Amazon Bedrock

モデルが生成する出力に含めたい制約に関する詳細を追加します。

Bedrock のストリーミングレスポンス

ストリーミングレスポンスの動作を設定してコンテンツをフィルタリングする - Amazon Bedrock

InvokeModelWithResponseStream API は、ストリーミング形式でデータを返します。そのため、結果が全部返されるまで待たなくても、チャンクごとにレスポンスを確認できます。ストリーミングレスポンスでガードレールを使用する場合、同期と非同期の 2 つの処理モードがあります。

Bedrock の停止シーケンス

推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock

モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。

プロンプトエンジニアリングの要素

プロンプトエンジニアリングとは?ChatGPTで代表的な12個のプロンプトを実演! | DXを推進するAIポータルメディア「AIsmiley」

  • 指示
  • コンテキスト
  • 出力インジケーター
  • 入力データ

質問または指示をプロンプトの最後に入力

プロンプトを設計する - Amazon Bedrock

最後にタスクの説明、指示、または質問を入力すると、モデルが見つけなければならない情報を特定しやすくなります。

Bedrock のプロンプト管理

Amazon Bedrock でプロンプト管理を使用して再利用可能なプロンプトを構築して保存する - Amazon Bedrock

Amazon Bedrock では、プロンプト管理を使用してユーザー独自のプロンプトを作成して保存できるため、異なるワークフローに同じプロンプトを適用することで時間を節約できます。

Bedrock の PII

機密情報フィルターを使用して会話から PII を削除する - Amazon Bedrock

Amazon Bedrock ガードレールを使用すれば、個人を特定できる情報 (PII) などの機密情報を入力プロンプトやモデルのレスポンスで検出することができます。

BLEU

精度のよいAI翻訳を知るには~評価指標とAI翻訳エンジンのカスタマイズ~ | LDX lab

BLEUスコアは0~1の数値で示され(*1)、参照訳に近いほど数値が高くなります。つまり、数値が高いほど人手翻訳に近いAI翻訳である、と言えます。

ジェイルブレイク

【論文瞬読】AIのダークサイド:ChatGPTのジェイルブレイクが示す驚くべき脆弱性|AI Nest

ChatGPTなどの大規模言語モデル(LLM)に設定された安全性や倫理的な制約を回避して、本来生成すべきでない内容を出力させる行為のことを指します。

Bedrock エージェントと Lambda

Amazon Bedrock エージェントがユーザーから取得した情報を送信するように Lambda 関数を設定する - Amazon Bedrock

Lambda 関数を定義して、アクショングループのビジネスロジックをプログラムできます。Amazon Bedrock エージェントは、アクショングループで呼び出す必要がある API オペレーションを決定した後、API スキーマからの情報を関連するメタデータとともに入力イベントとして Lambda 関数に送信します。

プロンプトリーク

プロンプトリークとは?影響や具体例、対策について詳しく解説! - 株式会社アドカル

プロンプトリーク(Prompt-Leaking)とは、プロンプトが保有する公開を意図していない情報を引き出し、機密情報を漏らすようにChatGPTなどのLLMに指示する手法です。

Discussion