🤖

OpenAi AssistantのFile searchでめちゃくちゃ詰まった話

2024/11/17に公開

何に詰まったの?

OpenAiのAssistantにはFile Searchという機能があり、VectorStoreにアップロードされているファイルを参照してそれを元に回答を生成するものです。

今回はその機能を用いてPDFから情報を得ようと頑張りました。
だが、全くうまくいかずinvalid_fileエラーに悩まされました。
The file could not be parsed

うまくいくファイルもいかないファイルも有り、めちゃくちゃ時間を使ったのでみなさんが同じことに悩まされないように備忘録として書いています。

結論

原因はPDFファイルが画像ベースであり、文字情報がないことでした。

これを回避するためにはOCRで読み取った文字をもとにやるしか有りません。

私はAzure Document Inteligenceを利用することにしました

参考にしたコミュニティ記事

https://community.openai.com/t/file-upload-not-working-data-analysis-chatgpt-4-update/480481/13
https://community.openai.com/t/trouble-with-vector-store-for-assistant-file-is-too-large-its-under-100mb-though/843825
https://community.openai.com/t/increasing-the-number-of-files-in-the-file-search-vector-store/886686/4
https://community.openai.com/t/not-able-to-upload-file-from-client/517959/5
https://community.openai.com/t/cannot-upload-several-file-types-to-vector-store/861547/16

Discussion