ベクトルデータとは

具体的にどう計算してベクトル化しているのかはわからんが、どうやら文章を解析して数値にしているらしい。
で、これをベクトルデータとして保存することで、単語同士の関連度がわかるようになるらしい。

ベクトルデータベースとは

例えば「焼きそば」という単語に関連度の高いものは、ベクトル化されていれば「焼きそば」という単語の近い位置に集まることになる。

これを問い合わせして解析してくれるのがベクトルデータベースというものらしい。

Chroma, Faissあたりが有名どころらしい。

以上から推し量るに、ベクトルデータとデータベースを使うのはこういうことらしい。

そのために、最初にPDFを分割し、数値化し、ベクターストアに問い合わせてから、GPTにプロンプトを投げている。

ということらしい。

よくみたらLangChainのblogに情報があったので、こいつも参考にできそう。