Closed8

Crawler Hintsが有効だとcloudflared経由のアクセス情報が各検索エンジンに漏れる?

ピン留めされたアイテム
xpadevxpadev

まとめ

  1. Crawler Hintsが有効だとcloudflared経由のトラフィックは各検索エンジンに送られる
  2. 送られるデータはurlのみっぽい?(少なくともcookieとかは送られてなさそう)
  3. yandexはメディアのみを爆速でインデックスしに来る(なんでかは知らん)
xpadevxpadev

自分がアクセスしたhlsにyandexのクローラーからのアクセスが来る
大体1分~2分後くらいに順番はランダムにアクセスしてくる
UAはMozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
robots.txtは設定していないが自分がアクセスしたファイルにのみアクセスが来るのでただのクローラーでは無いと思われる

構成
User

cloudflared (on k8s)

配信用nginx

xpadevxpadev


比較としてポート開放をしたサーバー(内部で元のサーバーに転送)にアクセスしたところアクセスは来なかった
そのためローカルネット上の何かしらの端末がウイルスに感染している可能性は低い

構成
User

proxy用nginx

配信用nginx

xpadevxpadev

cloudflareの通常のproxyは漏れてなさそう

構成
User

cloudflare

proxy用nginx

配信用nginx

xpadevxpadev

Srgr0 @_Srgr0
CFのキャッシュ設定でCrawler Hintsをオンにされていませんか?
Tunnels使用時のみ現象が発生しているのは謎ですが、Crawler Hintsがオンであればユーザーがアクセスした瞬間にCFがそのページの存在を認識、Yandex含む各検索エンジンにクロールリクエストを送信している可能性はありそうです。
https://twitter.com/_Srgr0/status/1685306635173134336


Twitterで指摘をもらい確認したところ有効になっていたので無効化して様子見中

xpadevxpadev

10分経過してもyandexからのリクエストはなかった
Crawler Hintsが諸悪の根源だった模様

このスクラップは2023/07/30にクローズされました