为了自己方便,就用 ngx_http_google_filter_module 搭建了个 Google 镜像给自己用。 因为只有自己在用,也就没有加任何验证机制。
今早使用的时候突然发现触发了人机验证码,觉得很奇怪就去查日志,结果发现 
查 Referer 发现许多站点发布了我的镜像的地址出去:
- http://dir.scmor.com/google/
- http://coderschool.cn/1853.html
- https://busi.me/archives/578/
- http://www.mengxz.com/
- https://stuch.cn/guge/
- http://www.eczone.net/news/?6_19.html
那么问题来了,我这个镜像一直是自己自用的,加了 Chrome 自定义搜索和 Safari 书签,加了 Workflow,除此之外没有给别人用过或者对外发布过,这些站是怎么爬到我这个地址的呢?
目前怀疑的主要有以下几种情况:
- 在 log 里面有看到 bing 的爬虫,有可能进了某些搜索结果
- 这个站有申请 Let's encrypt 的证书,在 Google Certificate Transparency 是可以查到子域域名的,gg 开头一看就有特定功能
- 我自己健忘,有发过域名给别人但是自己忘了
- 我通过这个搜索访问过部分站,在他们的访问日志里留下了 Referer
