📝

生成 AI 周りが全然分からないからちょっと整理してみる

に公開

生成 AI を仕事で使いたいけど、そもそもの理解が怪しいので、AI を使って整理してみる。

シンプルな LLM への問い合わせ

  • アプリケーション: ChatGPT など
  • LLM API サービス: OpenAIのバックエンドAPI など
  • LLM: 大規模言語モデル(GPT-4など)

RAG: Retrieval-Augmented Generation

ユーザーからのリクエストに対して、外部データソース(例えば、データベースや検索エンジン)から情報を取得し、その情報を基に生成された応答を返すアプローチです。このシステムでは、生成と情報検索が組み合わさって、より精度の高い回答を提供します。

  • 情報検索システム: ユーザーの問い合わせに関連する情報を外部ソース(例えば、Webページやドキュメント)から検索します。

処理の流れ

  1. ユーザーがアプリケーションにリクエストを送信します。
  2. アプリケーションがリクエストを受け取り、LLM APIサービスに問い合わせを送信します。
  3. LLM APIサービスは、情報検索システム(例えば、検索エンジンやデータベース)に問い合わせを行います。
  4. 情報検索システムが外部データベースから情報を検索し、結果を返却します。
  5. LLM APIサービスが検索結果をLLMに渡し、生成された応答を受け取ります。
  6. 最後に、LLM APIサービスがアプリケーションに応答を返し、ユーザーに表示されます。

NotebookLM

RAGのように外部情報と組み合わせて、生成された回答や知識を強化するアーキテクチャを使います。NotebookLMは、通常のLLMに加えて、外部データベースやノートブック型のインターフェースを活用して、より文脈に応じた正確な応答を生成するものです。

  • ノートブック: ユーザーとの対話の履歴や情報を保存し、継続的な文脈に基づいた応答を生成するためのシステムです。これにより、ユーザーの過去の質問や嗜好を活用して、よりパーソナライズされた自然な対話が可能になります。

処理の流れ

  1. ユーザーがアプリケーションにリクエストを送信します。
  2. アプリケーションがリクエストを受け取り、NotebookLM APIサービスに問い合わせを送信します。
  3. NotebookLM APIサービスは、まず情報検索システムに問い合わせを行い、関連する情報を外部データベースから検索します。
  4. 検索結果がLLMに渡され、モデルはその情報を元に応答を生成します。
  5. NotebookLM APIサービスは、さらにノートブックの文脈を参照し、その内容をLLMに渡して、より文脈に沿った正確な応答を生成します。
  6. 最後に、LLMが生成された応答をNotebookLM APIサービスに返し、アプリケーションがその応答をユーザーに表示します。

AI Agent

ユーザーのリクエストに対して自律的に意思決定を行い、適切なアクションを実行するシステムです。AIエージェントは、情報を収集したり、生成したり、他のシステムと連携してタスクを処理したりします。

処理の流れ

  1. ユーザーがアプリケーションにリクエストを送信します。
  2. アプリケーションはそのリクエストをAIエージェントに転送します。
  3. AIエージェントは、リクエストに基づいて必要なタスク(例えば、LLMへの問い合わせや外部システムへの依頼)を決定し、それらのタスクを管理・実行します。
  4. AIエージェントは、LLMや外部システムに依頼し、その結果を受け取ります。
  5. AIエージェントがタスクの進行状況を管理し、必要な結果を統合して最終的な応答を生成します。
  6. 最終的に、生成された応答がアプリケーションを通じてユーザーに表示されます。

MCP との組み合わせ

昨今話題の MCP と組み合わせるとこんな感じかな。

さてさて、ちゃんと使える人にならないと!

Discussion