ChatGPT Code Interpreter メモ

Code Interpreter にPDFファイルをアップロード
テキスト抽出指示するが、エラー

PDFからテキストを抽出しようとしましたが、結果は期待したようには表示されていません。これは、PDFが画像ベースであるか、テキストが特殊なエンコーディングやフォントで保存されている可能性があります。
この問題を解決するために、OCR（光学的文字認識）を用いてテキストを抽出することも可能ですが、現在の環境ではOCRライブラリを使用することはできません。
他の操作が必要な場合は、どのようにサポートできるかお知らせください

日本語(英数字以外）を含むPDF、あるいはUTF-8のPDFは抽出できない？

mganeko

.docxファイルをアップロードし、「python-docxを使ってテキストを抽出して」と指示 → 成功。最初の500文字が表示された

mganeko

テキストを箇条書きで要約してと指示→

ファイルの内容を章ごとに要約しました。各章の最初の行がその章の概要を示していると仮定し、その行を抽出しました。
以下に要約のリストを示します：
...
ただし、これはテキストの形式に基づいた単純な要約であり、文書の全体的な内容を完全に理解するものではありません。より詳細な要約が必要な場合、または特定の情報を抽出したい場合は、具体的な要求をお知らせください。

LLM的な要約ではなく、テキスト処理（章タイトル）で要約

mganeko

テキストファイルの内容に基づいて、次の質問に答えて：〜
→
LLM的な処理で回答をしてくれる。見た目では適切に回答している印象