Closed4

AIスクレイピング

tkc310tkc310

AIでスクレイピングする方法をまとめていく

上から下に抽象度が低くなっていき、コントロールできることが増えていく(コーダブルになる)

firecrawlは特定データの抽出というよりは、全データを抽出して後続のLLMに渡すようのツールらしい。
マシンパワーでえげつない(マルチスレッド)ページ遷移をしてくれる感じなのかな?

いくつか利用例を見るとクロール結果から正規表現で抽出したデータをmarkdown or jsonにしているため、上記の理解で合っていそう。
https://qiita.com/syukan3/items/a72f38ff6098323e01d2

スクレイピングで辛いのはページ遷移のマシンパワーもそうだけど、壊れやすいセレクターや正規表現を書く事なので、この部分を解決するにはやはりLLMと組み合わせる必要がある。

ただ、LLMだけだとデータ抽出はコストが掛かって精度も悪いため組み合わせることでコスパは良くなりそう。

tkc310tkc310

使い所

抽出の都度コストが掛かるため、変わりにくいコードのスクレイピングに対するスケジュール実行に関してはまだコードを書く方がコスパが良い
(コード生成は任せられそう)

また、正確性が求められる状況ではLLMに通す以上はハルシネーションが起きるらしいので向いていない (browser-useの記事参照)

営業リストなど利用する過程にハルシネーションを判断できる人間が介すればOK?

アドホックなスクレイピング、あるいは変わりやすい・抽出しにくいコードに対するスクレイピングに関しては活躍してくれそう

tkc310tkc310

時間があるときに試してみる

  • browser-use
  • firecrawl + LLM
  • 上記をdifyでノーコード連携
このスクラップは3ヶ月前にクローズされました