Open1

AIクローラーについて

catatsuycatatsuy

https://blog.cloudflare.com/crawlers-click-ai-bots-training/

ニュースサイト運営者の視点

1. トラフィック減少の現実

  • Googleからのリファラ減少
    2025年2月以降、Google経由のニュースサイト訪問は季節要因を超えて減少。

    • 3月: 1月比 -9%
    • 4月: 1月比 -15%
      → 背景に AI Overviews(Gemini 2.x導入) の普及がある。
  • 従来の「検索→記事クリック→広告/購読」という導線が弱体化。

  • 米大統領選(2024年11月)関連の一時的なトラフィック増加は観測されたが、それ以外は右肩下がり。

2. AIボットによる「ただ取り」

  • 80%以上が「学習目的」クロール(記事を収集してLLM訓練)。

  • 送客はほとんど無し

    • Anthropicは1クリックあたり3.8万ページクロール
    • OpenAIは1,000:1超
    • Googleは数十:1程度に改善傾向
  • コンテンツはAIに使われるが、広告収益や購読者増加には繋がらない

3. 選択肢と対応

  • robots.txt・CloudflareのBot管理による制御は可能だが、完全ではない(特にAnthropicは検証弱)。

  • 収益確保のために:

    • 有料契約や課金制クロール(例: Cloudflareの「pay per crawl」機能)への移行。
    • AIに「正規引用・リンク表示」を義務付ける枠組みへの参加。
    • 記事のメタデータ(構造化データ)を工夫し、引用時にクリック誘導が働くよう最適化

技術者(bot制御側)の視点

1. ボットのシェア動向

  • 伸びたボット

    • GPTBot (OpenAI): 4.7%→11.7%
    • ClaudeBot (Anthropic): 6%→9.9%
    • Meta: 0.9%→7.5%
  • 後退したボット

    • Bytespider (ByteDance): 14.1%→2.4%
    • Amazonbot: 10.2%→5.9%
  • 西側AI系ボットが主役に、アジア勢(ByteDance)は後退

2. クロール目的の技術的傾向

  • トレーニング用クロールが80%超で支配的。
  • 検索関連は17%、ユーザー操作は3%程度。
  • AIサービスは学習が中心、実際の検索代替やクリック送客は副次的

3. クローラ検証の課題

  • 多くはCloudflareのverified botsリストに準拠(IPレンジ公開、robots.txt尊重)。

  • ただしWebBotAuth(署名付きリクエスト認証)の採用は未整備

  • 特にAnthropicは検証が弱く、bot偽装やrobots.txt無視が容易

  • 技術者側では以下の対策が検討対象:

    • Verified botsリストやASNベースのフィルタリング
    • WebBotAuth標準への早期対応
    • AI Insightsのメトリクス監視で「クロール量と送客比率」を継続観測

4. 将来像

  • 「オープンWebがAIの一方通行トレーニング素材になる」危険性。
  • 技術者は API経由でのコンテンツ提供+利用制御 を設計する必要がある。
  • Cloudflareの「pay per crawl」やボット認証技術を組み合わせ、持続可能なクロール・利用関係の実現が今後のテーマ。

まとめ

  • ニュースサイト運営者
    → コンテンツは大量に収集されるが送客は激減。収益減少を補うため、クロール課金や引用義務化、SEO/メタデータ最適化が必要。

  • 技術者(bot制御側)
    → クロールの大半は学習用途。bot識別・制御技術(Verified bots, WebBotAuth)やクロール目的別モニタリングが鍵。今後はAPI経由での利用管理も必須。