Closed5
ベクトルデータとベクターストアとは
PDFでChatGPTに問い合わせる方法についてみていたとき
なんでベクトルデータなるものが出てくるのかわからなかった。
そもそもベクトルデータってなに?という話からスタート
ベクトルデータとは
具体的にどう計算してベクトル化しているのかはわからんが、どうやら文章を解析して数値にしているらしい。
で、これをベクトルデータとして保存することで、単語同士の関連度がわかるようになるらしい。
ベクトルデータベースとは
例えば「焼きそば」という単語に関連度の高いものは、ベクトル化されていれば「焼きそば」という単語の近い位置に集まることになる。
これを問い合わせして解析してくれるのがベクトルデータベースというものらしい。
使われているもの
Chroma, Faissあたりが有名どころらしい。
以上から推し量るに、ベクトルデータとデータベースを使うのはこういうことらしい。
- PDF全部をGPTにぶん投げて問い合わせするのは、制限的にしんどい
- 自然言語は理解が難しい
- より少ない文字かつ、数字(人工言語)で投げた方がデータ量が少なく済むし、AIは理解しやすい
- さらに言えばPDF全部をぶん投げる必要はなくて、使いたい単語に近しい意味を持つ部分だけを投げればよりデータ量は少なくて済む
そのために、最初にPDFを分割し、数値化し、ベクターストアに問い合わせてから、GPTにプロンプトを投げている。
ということらしい。
よくみたらLangChainのblogに情報があったので、こいつも参考にできそう。
このスクラップは15日前にクローズされました