Closed4
AIスクレイピング

AIでスクレイピングする方法をまとめていく
- ExtractGPT
chrome拡張、ノーコード、chatgptのAPI_KEYが必要
https://weel.co.jp/media/innovator/plugin-scraper/#index_id6 - browser-use
コスパが悪いらしい
https://qiita.com/Syoitu/items/5aa84b5d8c6047c4d41b - firecrawl
無料枠、未ログインでも利用出来る
https://ai-wave.jp/2025/01/23/prompt-based-scraping-firecrawl/
上から下に抽象度が低くなっていき、コントロールできることが増えていく(コーダブルになる)
firecrawlは特定データの抽出というよりは、全データを抽出して後続のLLMに渡すようのツールらしい。
マシンパワーでえげつない(マルチスレッド)ページ遷移をしてくれる感じなのかな?
いくつか利用例を見るとクロール結果から正規表現で抽出したデータをmarkdown or jsonにしているため、上記の理解で合っていそう。
スクレイピングで辛いのはページ遷移のマシンパワーもそうだけど、壊れやすいセレクターや正規表現を書く事なので、この部分を解決するにはやはりLLMと組み合わせる必要がある。
ただ、LLMだけだとデータ抽出はコストが掛かって精度も悪いため組み合わせることでコスパは良くなりそう。

使い所
抽出の都度コストが掛かるため、変わりにくいコードのスクレイピングに対するスケジュール実行に関してはまだコードを書く方がコスパが良い
(コード生成は任せられそう)
また、正確性が求められる状況ではLLMに通す以上はハルシネーションが起きるらしいので向いていない (browser-useの記事参照)
営業リストなど利用する過程にハルシネーションを判断できる人間が介すればOK?
アドホックなスクレイピング、あるいは変わりやすい・抽出しにくいコードに対するスクレイピングに関しては活躍してくれそう

時間があるときに試してみる
- browser-use
- firecrawl + LLM
- 上記をdifyでノーコード連携

ここで素振りしていく。
- browser-use done
- firecrawl
このスクラップは3ヶ月前にクローズされました