Crawler Hintsが有効だとcloudflared経由のアクセス情報が各検索エンジンに漏れる?
まとめ
- Crawler Hintsが有効だとcloudflared経由のトラフィックは各検索エンジンに送られる
- 送られるデータはurlのみっぽい?(少なくともcookieとかは送られてなさそう)
- yandexはメディアのみを爆速でインデックスしに来る(なんでかは知らん)
自分がアクセスしたhlsにyandexのクローラーからのアクセスが来る
大体1分~2分後くらいに順番はランダムにアクセスしてくる
UAはMozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
robots.txtは設定していないが自分がアクセスしたファイルにのみアクセスが来るのでただのクローラーでは無いと思われる
構成
User
↓
cloudflared (on k8s)
↓
配信用nginx
比較としてポート開放をしたサーバー(内部で元のサーバーに転送)にアクセスしたところアクセスは来なかった
そのためローカルネット上の何かしらの端末がウイルスに感染している可能性は低い
構成
User
↓
proxy用nginx
↓
配信用nginx
cloudflareの通常のproxyは漏れてなさそう
構成
User
↓
cloudflare
↓
proxy用nginx
↓
配信用nginx
cloudflaredの構成: https://github.com/xpadev-net/k8s/tree/995c3a35d89b447b32cbb830d49ca533d5afaff5/cloudflared-tunnel
使用イメージは「docker.io/cloudflare/cloudflared@sha256:1278c07596b20154931dbf09c26ea8006276ed5444496c5892705fc3accb3cca」
→ https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html#robot-in-logs
一応アクセス元(cf-connecting-ip)を確認してみたけどやっぱりyandexからのアクセスで間違いなさそう
Srgr0 @_Srgr0
CFのキャッシュ設定でCrawler Hintsをオンにされていませんか?
Tunnels使用時のみ現象が発生しているのは謎ですが、Crawler Hintsがオンであればユーザーがアクセスした瞬間にCFがそのページの存在を認識、Yandex含む各検索エンジンにクロールリクエストを送信している可能性はありそうです。
https://twitter.com/_Srgr0/status/1685306635173134336
Twitterで指摘をもらい確認したところ有効になっていたので無効化して様子見中
10分経過してもyandexからのリクエストはなかった
Crawler Hintsが諸悪の根源だった模様