Open2日前にコメント追加1
AIクローラーについて

https://blog.cloudflare.com/crawlers-click-ai-bots-training/

 ニュースサイト運営者の視点
 1. トラフィック減少の現実Googleからのリファラ減少

2025年2月以降、Google経由のニュースサイト訪問は季節要因を超えて減少。
3月: 1月比 -9%
4月: 1月比 -15%

→ 背景に AI Overviews（Gemini 2.x導入） の普及がある。
従来の「検索→記事クリック→広告/購読」という導線が弱体化。
米大統領選（2024年11月）関連の一時的なトラフィック増加は観測されたが、それ以外は右肩下がり。

 2. AIボットによる「ただ取り」80%以上が「学習目的」クロール（記事を収集してLLM訓練）。
送客はほとんど無し：
Anthropicは1クリックあたり3.8万ページクロール
OpenAIは1,000:1超
Googleは数十:1程度に改善傾向
コンテンツはAIに使われるが、広告収益や購読者増加には繋がらない。

 3. 選択肢と対応robots.txt・CloudflareのBot管理による制御は可能だが、完全ではない（特にAnthropicは検証弱）。
収益確保のために：

有料契約や課金制クロール（例: Cloudflareの「pay per crawl」機能）への移行。
AIに「正規引用・リンク表示」を義務付ける枠組みへの参加。
記事のメタデータ（構造化データ）を工夫し、引用時にクリック誘導が働くよう最適化。

 技術者（bot制御側）の視点
 1. ボットのシェア動向伸びたボット
GPTBot (OpenAI): 4.7%→11.7%
ClaudeBot (Anthropic): 6%→9.9%
Meta: 0.9%→7.5%
後退したボット
Bytespider (ByteDance): 14.1%→2.4%
Amazonbot: 10.2%→5.9%
→ 西側AI系ボットが主役に、アジア勢（ByteDance）は後退。

 2. クロール目的の技術的傾向
トレーニング用クロールが80%超で支配的。
検索関連は17%、ユーザー操作は3%程度。
→ AIサービスは学習が中心、実際の検索代替やクリック送客は副次的。

 3. クローラ検証の課題多くはCloudflareのverified botsリストに準拠（IPレンジ公開、robots.txt尊重）。
ただしWebBotAuth（署名付きリクエスト認証）の採用は未整備。
特にAnthropicは検証が弱く、bot偽装やrobots.txt無視が容易。
技術者側では以下の対策が検討対象：
Verified botsリストやASNベースのフィルタリング
WebBotAuth標準への早期対応
AI Insightsのメトリクス監視で「クロール量と送客比率」を継続観測

 4. 将来像「オープンWebがAIの一方通行トレーニング素材になる」危険性。
技術者は API経由でのコンテンツ提供＋利用制御 を設計する必要がある。
Cloudflareの「pay per crawl」やボット認証技術を組み合わせ、持続可能なクロール・利用関係の実現が今後のテーマ。

 まとめニュースサイト運営者

→ コンテンツは大量に収集されるが送客は激減。収益減少を補うため、クロール課金や引用義務化、SEO/メタデータ最適化が必要。
技術者（bot制御側）

→ クロールの大半は学習用途。bot識別・制御技術（Verified bots, WebBotAuth）やクロール目的別モニタリングが鍵。今後はAPI経由での利用管理も必須。