Closed5

ベクトルデータとベクターストアとは

KanonKanon

ベクトルデータとは

https://www.tryeting.jp/column/6839/

具体的にどう計算してベクトル化しているのかはわからんが、どうやら文章を解析して数値にしているらしい。
で、これをベクトルデータとして保存することで、単語同士の関連度がわかるようになるらしい。

KanonKanon

ベクトルデータベースとは

https://www.sbbit.jp/article/cont1/131996

https://atmarkit.itmedia.co.jp/ait/articles/2402/29/news042.html#:~:text=月29日-,ベクトルデータベース(Vector Database)/ベクトルストア(Vector Store,「ベクトルストア」とも呼ばれる。

例えば「焼きそば」という単語に関連度の高いものは、ベクトル化されていれば「焼きそば」という単語の近い位置に集まることになる。

これを問い合わせして解析してくれるのがベクトルデータベースというものらしい。

使われているもの

https://qiita.com/xxyc/items/7c9a24c79e18b1e93b46

https://docs.trychroma.com/getting-started?lang=js

Chroma, Faissあたりが有名どころらしい。

KanonKanon

以上から推し量るに、ベクトルデータとデータベースを使うのはこういうことらしい。

  • PDF全部をGPTにぶん投げて問い合わせするのは、制限的にしんどい
  • 自然言語は理解が難しい
  • より少ない文字かつ、数字(人工言語)で投げた方がデータ量が少なく済むし、AIは理解しやすい
  • さらに言えばPDF全部をぶん投げる必要はなくて、使いたい単語に近しい意味を持つ部分だけを投げればよりデータ量は少なくて済む

そのために、最初にPDFを分割し、数値化し、ベクターストアに問い合わせてから、GPTにプロンプトを投げている。

ということらしい。

このスクラップは15日前にクローズされました