AI用語(個人的メモ)

RAG(Retrieval-Augmented Generation)
Retriever(検索エンジン)とGenerator(生成エンジン)を組み合わせたアプローチ。Retrieverが関連情報を取得し、Generatorがその情報を基に回答を生成する。
例えば、RetrieverとしてAmazon Kendraを使うと、企業内外のデータから必要な情報を効率よく取得でき、GeneratorとしてLLM(大規模言語モデル)を使えば、その情報を基に自然な文章を生成できる。
RAGのポイントは、Retrieverが信頼性の高い情報を提供することで、Generatorが「ハルシネーション(事実に基づかない誤情報)」を減らすことができ、特に、企業の知識ベースや特定分野のデータを活用する場合に役立つ。
Amazon Kendra
Amazon Kendra は、企業内外に散在するデータを対象に、高精度な検索機能を提供するサービスです。
RAGにおいて、Amazon Kendra はRetriever(検索エンジン)の役割を果たし、生成AIが回答を作成する際の信頼できる情報を効率よく取得できるようにサポートします。
Amazon Bedrock Knowledge Base
Amazon Bedrock の一部の機能である Amazon Bedrock Knowledge Bases は、企業が独自の知識ベースを生成AIに統合し、文脈に応じた回答を可能にするための機能です。
Amazon Bedrock
Amazon Bedrock は、フルマネージドのサーバーレスサービスです。
これにより、開発者は様々な主要なAI企業が提供する高性能な基盤モデル(FM)を、単一のAPIを通じて容易に利用し、
生成AIアプリケーションを構築・拡張できます。
Amazon Kendra GenAI Index
企業がデジタルアシスタントとインテリジェント検索エクスペリエンスをより効率的かつ効果的に構築できるようにするために RAG とインテリジェント検索向けに設計された Amazon Kendra の新しいインデックスです。このインデックスは、高度なセマンティックモデルと最新の情報検索テクノロジーを使用して、高い検索精度を提供します。Amazon Bedrock ナレッジベースやその他の Amazon Bedrock ツールと統合して RAG を活用したデジタルアシスタントを作成したり、Amazon Q Business と組み合わせて完全に管理されたデジタルアシスタントソリューションとして使用したりできます。
ファインチューニング
AIモデルを特定のタスクやドメインに適応させるために、追加のデータで再学習させるプロセス。これにより、モデルの性能を向上させることができる。
LLM(大規模言語モデル)
大量のテキストデータで訓練されたAIモデル。自然言語処理(NLP)タスクにおいて、高度な理解力と生成能力を持つ。
Vector DB(ベクトルデータベース)
埋め込みモデルによって生成されたベクトルを保存、管理、検索するためのデータベース。高次元のベクトルを効率的に処理できるように設計されている。
Vector Search(ベクトル検索)
ベクトル検索は、AIや機械学習の分野で注目されている高度な検索技術です。
従来のキーワード検索とは異なり、データの意味や文脈を数値化した「ベクトル」を用いて、類似性の高い情報を効率的に見つけ出すことができます。
ベクトルデータベースに保存されたベクトルを基に、類似性や関連性に基づいて情報を検索する手法。
特に、埋め込みモデルによって生成されたベクトルを使用して、意味的な類似性を考慮した検索が可能。
埋め込みモデル
テキスト(単語、文、段落、文書など)、画像、音声などのデータを、意味的な類似性や関連性を捉えた高次元の数値ベクトルに変換するAIモデル。
ベクトルストア
埋め込みモデルによって生成された高次元のベクトルを効率的に保存、管理、検索するための特殊なデータベース。
非構造化データ
決まった形式(スキーマ)を持たないデータ。YouTubeなどの動画ファイルや、ウェブページのコンテンツなど様々な形式で存在する。
構造化データ
決まった形式(スキーマ)を持つデータ。データは行と列で構成された表のような形式で保存される。
ハイブリッドインデックスシステム
異なる種類のデータや情報を統合して検索するためのインデックスシステム。構造化データと非構造化データを組み合わせて、より包括的な検索結果を提供する。
セマンティック関連性モデル
セマンティック関連性モデル(Semantic Relatedness Model)とは、テキスト、単語、フレーズなどの意味的な類似性や関連性を定量的に評価するためのモデルです。
単語の共起頻度や文脈だけでなく、言葉が持つ意味そのものを考慮することで、より人間が感じる自然な関連性を捉えることを目指します。
カスタムデータソース
AIシステム(特に質問応答システムなど)が知識の源泉とする、特定のデータや情報のこと。
セマンティック検索
意味的な関連性に基づいて情報を検索する手法。キーワードマッチングだけでなく、文脈や意味を考慮して検索結果を提供する。
ファセット検索
検索結果を特定の属性やカテゴリに基づいて絞り込む手法。ユーザーが興味のある情報を迅速に見つけることができる。
データのチャンキング戦略
大きなデータセットを小さな部分(チャンク)に分割する方法。これにより、情報の検索や処理が効率的になる。
エンタープライズサーチ機能
企業内の情報を効率的に検索するための機能。特に、非構造化データや多様なデータソースを対象に、高精度な検索を実現する。
ドメイン特化型
特定の分野や業界に特化した知識や技術。一般的な情報ではなく、特定のニーズや要件に応じた情報を提供することを目的とする。
再ランク付けモデル
最初に検索された候補のリストを受け取り、クエリとの関連性の高さに基づいてそれらを並べ替える(再ランク付けする)モデルのこと。