🤖

LangChain を使用してヘルプセンターをスクレイピングしてみる

2024/05/28に公開

今回は LangChain を使用して Brushup のヘルプセンターをスプレイピングしてみようと思います。

ヘルプセンターをスクレイピングするために、SitemapLoader を使用したいと思います。
SitemapLoader を使用すると sitemap.xml を自動で解釈して、ページをスクレイピングできます。

Python は事前に入っていることが前提になりますが早速コードは下記になります。

requirements.txt

langchain-community==0.2.1
lxml==5.2.2
beautifulsoup4==4.12.3
tqdm==4.66.4

index.py

from langchain_community.document_loaders.sitemap import SitemapLoader

sitemap_loader = SitemapLoader(web_path="https://help.brushup.net/hc/sitemap.xml")

docs = sitemap_loader.load()
print(docs)

実行してみるとインジゲーターが表示され sitemap にあるページが取得されることがわかります。
ただ今回のヘルプセンターは zendesk で作成されている関係かすべて
「Just a moment...Enable JavaScript and cookies to continue」
となっていました。

今回は失敗してしまいましたが、javascript で構成されているサイトの場合は PlaywrightWebBaseLoader を使用するとよさそうなので、次回以降で試してみようと思います。

GitHubで編集を提案

Discussion