🤖

【生成AIアプリのためのベクトル検索】① プロローグ(ベクトルデータベースとしてのApache Cassandra)

2023/09/15に公開

はじめに

背景 〜 ベクトルデータベースとしてのApache CassandraとDataStax Astra DB

2022年からの生成AIの隆盛に対して、Apache Cassandraに対して、DataStaxエンジニアによりベクトル検索機能の拡張提案が提案され、DataStax社のCassandraマネージドサービスであるAstra DBで利用可能になっています。
本記事シリーズは、このような動向の一環として同社から発表されたホワイトペーパーの内容に基づきます。

出典と日本語版

このシリーズ記事の原典は、以下で入手可能です。

https://www.datastax.com/resources/whitepaper/vector-search-for-generative-ai-apps

ブログ記事では、忠実な訳出ではなく、読みやすさを重視して、一部省略しています。
省略のない日本語版のホワイトペーパーの入手を希望される方はinfo-jp@datastax.comまでご連絡いただければ、提供させていただきます。

生成AIアプリのためのベクトル検索 ①

このドキュメントについて

このドキュメントは、「AI アプリケーション開発にベクトル検索を活用するための開発者/アーキテクト向けガイド」です。

このドキュメントは、生成 AI アプリケーションを設計・構築しようとしている全ての方のためのガイドです。組織が理解すべき重要な概念と考慮事項を取り扱うだけでなく、ベクトル検索を用いて、LLM の持つ機能を大幅に拡張するためのシンプルで強力なアプローチについても解説します。

承前: 生成AIの勃興

生成 AIの登場は、プロダクトを利用する方法だけでなく、プロダクトを構築する方法にも変化を与えています。OpenAIが2022年11月30日に ChatGPTを発表して以来わずか数ヶ月の間に生成 AIへの関心が世界を席巻しました。この記事を書いている時点で、マッキンゼーは、今や生成 AI の価値は世界経済全体で2兆4,000億ドルから4兆2,000億ドル規模になる可能性があると推定しています(1)。

この革命の中心には、大規模言語モデル (LLM: Large Language Model) によって可能になったイノベーションがあります。こうした最近の傾向を示すものとして、以下のようなものがあります。

  • マイクロソフトのOpenAIへの投資(下記、参考文献2を参照、以下同)
  • Microsoft Azure OpenAI Serviceの立ち上げ(3)
  • グーグルのAnthropicとの提携(4)
  • PaLM 2(5)
  • Bard(6)
  • Huggingface(7) のような数十のモデルを持つ盛んなオープンソースコミュニティ
  • Amazon Sagemaker(8) やグーグルのVertex AIとGenerative AI App Builder(9) のような生成AIアプリを構築するためのツールとサービスの登場

開発者はすでに新しい言語モデルスタックについて議論しています(10)。 LangChain(11)やLlamaIndex(12) のような著名な新しいフレームワークが登場し、ベクトル検索が、生成 AIアプリケーション構築における技術スタックのもう 1 つの重要なコンポーネントとして浮上しました。

生成AIへの関心の高まりを示すそのほかの事実と調査結果をいくつか紹介します。

  • ChatGPTは、3か月も経ずに月間アクティブ ユーザー数1億人を史上最速で達成しました(13)
  • OpenAIプラグインは、その発表以来、21の異なるカテゴリにわたる400を超える規模のエコシステムに瞬く間に成長しました(14)
  • 開発者の92%が生成 AI ツールを使用しています(15)
  • ベンチャーキャピタルの支援を受けている企業の90%が生成AI製品の発売を計画しています(16)
  • 経営幹部の65%が、生成AIは組織に対して非常に大きな影響力を持つと考えています(17)
  • SEMRush社は、ChatGPTを2023年の最も利用されたGoogle検索語の第26位にランクしました(18)

本ドキュメントの取り扱う内容

本稿では、以下について解説していきます。

  • 生成 AI が重要な理由
  • 生成 AI を効果的に機能させるためのアーキテクチャとデザインパターン
  • ベクトル検索が生成AIアーキテクチャの重要なコンポーネントとなった経緯

参考文献

  1. “Economic potential of generative AI.” McKinsey, 2023 年 6 月 14 日, https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-ai-the-next-productivity-frontier#key-insights

  2. “Microsoft and OpenAI extend partnership - The Official Microsoft Blog.” The Official Microsoft Blog, 2023 年 1 月 23 日, https://blogs.microsoft.com/blog/2023/01/23/microsoftandopenaiextendpartnership/

  3. Hawk, Jessica. “Build next-generation, AI-powered applications on Microsoft Azure | Azure Blog.” Microsoft Azure, 2023 年 5 月 23 日, https://azure.microsoft.com/en-us/blog/build-next-generation-ai-powered-applications-on-microsoft-azure/

  4. “Anthropic Partners with Google Cloud.” Anthropic, 2023 年 2 月 3 日, https://www.anthropic.com/index/anthropic-partners-with-google-cloud

  5. “Google AI PaLM 2 – Google AI.” Google AI, https://ai.google/discover/palm2/

  6. Try Bard, an AI experiment by Google, https://bard.google.com/

  7. “Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4.” , Hugging Face, https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

  8. Colmer, Paul. “Get started with generative AI on AWS using Amazon

  9. SageMaker JumpStart | Amazon Web Services.” Amazon AWS, 2023 年 5 月 4 日, https://aws.amazon.com/blogs/machine-learning/get-started-with-generative-ai-on-aws-using-amazon-sagemaker-jumpstart/

  10. “Generative AI.” Google Cloud, https://cloud.google.com/ai/generative-ai

  11. Fradin, Michelle, and Lauren Reeder. “The New Language Model Stack.” Sequoia Capital, 2023 年 6 月 14 日, https://www.sequoiacap.com/article/llm-stack-perspective/

  12. https://langchain-langchain.vercel.app/docs/get_started/introduction.html

  13. https://gpt-index.readthedocs.io/en/latest/

  14. Wodecki, Ben. “UBS: ChatGPT is the Fastest Growing App of All Time.” AI Business, https://aibusiness.com/nlp/ubs-chatgpt-is-the-fastest-growing-app-of-all-time
    https://roihacks.com/

  15. “Survey reveals AI’s impact on the developer experience.” The GitHub Blog, 2023 年 6 月 13 日, https://github.blog/2023-06-13-survey-reveals-ais-impact-on-the-developer-experience/

  16. “90% of VC-Backed Companies Plan to Launch Generative AI in their Products, 64% this Year.” Productboard, 2023 年 6 月 6 日, https://www.productboard.com/blog/generative-ai-and-products/

  17. “KPMG Generative AI Survey.” KPMG U.S., https://info.kpmg.us/news-perspectives/technology-innovation/kpmg-generative-ai-2023.html

  18. “Most Searched Thing on Google: Top Google Searches in 2023.” Semrush, 2023 年 6 月 13 日, https://www.semrush.com/blog/most-searched-keywords-google/

Discussion