🕌
クローラーって何?
いい質問です!「クローラー」は、実はインターネットの裏側でめちゃくちゃ活躍してる存在です。
🤖 クローラーとは?
Webサイトを自動で巡回して、情報を集めるプログラムのことです。
🧭 もっと具体的に言うと…
たとえばGoogleで何かを検索すると、何百万ものWebページの中から適切な情報が表示されますよね?
それができるのは、Googleの「クローラー(Googlebot)」が世界中のサイトを自動で巡回して、
- 各ページの内容
- タイトル
- リンク先
- 更新日時
などをコツコツ集めて、検索データベースを作ってくれているからなんです。
🕷 なぜ「クローラー」っていうの?
クモ(クローラー)が「ウェブ(Web)を這い回る」ように、リンクをたどってサイトからサイトへ自動で巡回していくイメージから来ています。
🔁 クローラーの流れ(簡易版)
- クローラーが最初のURLにアクセスする
- ページのHTMLを読み込む
- ページ内のリンクをすべて抽出
- 抽出したリンク先に次々アクセス
- ページの内容を記録し、データベースに保存
- ①に戻る(この繰り返し)
🧠 どんなものがあるの?
クローラー名 | 使ってる会社 | 目的 |
---|---|---|
Googlebot | 検索用にサイトを集める | |
Bingbot | Microsoft | Bing検索のため |
GPTBot | OpenAI | AI学習データの収集 |
CCBot | Common Crawl | オープンなWebアーカイブ作成 |
PerplexityBot | Perplexity.ai | AI検索用 |
ChatGPT-User | ChatGPTブラウジングモード | 回答用の情報収集 |
🛑 クローラーを止めたいときは?
前に出てきた「robots.txt
」がその役目を果たします。
User-agent: Googlebot
Disallow: /secret/
→ Googlebot は /secret/
以下のページを見に来なくなります。
✅ まとめ
- クローラー = インターネット上の自動情報収集ロボ
- 検索エンジンやAIが、あなたのサイトを見つけたり、学習したりするために使ってる
-
robots.txt
や Cloudflare で「うちのサイトは見に来ないでね」と設定できる
「じゃあAIクローラーにだけ見せたい」「GoogleにはOKだけどGPTにはNGにしたい」みたいな話も可能なので、興味があればそこも深掘りできますよ!
Discussion