Open4
ChatGPT Code Interpreter メモ

Code Interpreter にPDFファイルをアップロード
テキスト抽出指示するが、エラー
PDFからテキストを抽出しようとしましたが、結果は期待したようには表示されていません。これは、PDFが画像ベースであるか、テキストが特殊なエンコーディングやフォントで保存されている可能性があります。
この問題を解決するために、OCR(光学的文字認識)を用いてテキストを抽出することも可能ですが、現在の環境ではOCRライブラリを使用することはできません。
他の操作が必要な場合は、どのようにサポートできるかお知らせください
日本語(英数字以外)を含むPDF、あるいはUTF-8のPDFは抽出できない?

.docxファイルをアップロードし、「python-docxを使ってテキストを抽出して」と指示 → 成功。最初の500文字が表示された

テキストを箇条書きで要約してと指示→
ファイルの内容を章ごとに要約しました。各章の最初の行がその章の概要を示していると仮定し、その行を抽出しました。
以下に要約のリストを示します:
...
ただし、これはテキストの形式に基づいた単純な要約であり、文書の全体的な内容を完全に理解するものではありません。より詳細な要約が必要な場合、または特定の情報を抽出したい場合は、具体的な要求をお知らせください。
LLM的な要約ではなく、テキスト処理(章タイトル)で要約

テキストファイルの内容に基づいて、次の質問に答えて: 〜
→
LLM的な処理で回答をしてくれる。見た目では適切に回答している印象