如何移除 Google 搜索中被引流站爬取的内容 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kuichieh
V2EX    Google

如何移除 Google 搜索中被引流站爬取的内容

  •  
  •   kuichieh 2021-04-28 13:01:02 +08:00 3613 次点击
    这是一个创建于 1707 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网站上存在一些敏感信息,关键词被 Google 爬取到了。现在在源网站中移除了相关内容,使用 Google 的更新 Cache 使得关键词的搜索内容也从 Google 搜索结果中移除。

    现在的问题是之前的搜索被一些博彩网站爬取了,导致当前 Google 搜索关键词,出来的都是这些引流网站,并包含了敏感的缓存内容。点击这些引流网站,跳转到的也是其他网站的内容(不存在实质性内容,我理解就是欺骗点击量)。

    因此我尝试了向 Google 举报 Spam,结果一个多月过去了还是没有变化。尝试更新 Cache,被 Google Deny 。这些结果要怎么移除呢?
    23 条回复    2021-04-30 01:43:36 +08:00
    Vhc001
        1
    Vhc001  
       2021-04-28 13:16:56 +08:00
    也就是说,现在你点击 Google 搜索结果中你网站的链接还是会跳转到博彩网站,对吧?
    kuichieh
        2
    kuichieh  
    OP
       2021-04-28 13:20:02 +08:00 via Android
    @Vhc001 是的,会跳转到博彩网站,但 Google 缓存的是敏感信息。
    hongweiliuruige
        3
    hongweiliuruige  
       2021-04-28 13:44:07 +08:00
    没懂,你的关键词不是没了吗,
    kuichieh
        4
    kuichieh  
    OP
       2021-04-28 13:51:31 +08:00
    @hongweiliuruige 源网站的关键词没了,引流网站的 Google 缓存里还有。
    Vhc001
        5
    Vhc001  
       2021-04-28 14:04:49 +08:00
    @hongweiliuruige #3 简单来说就是楼主的网站被人入侵并留下了后门,现在通过 google 搜索点进楼主网站会自动跳转到博彩网站。可笑的是楼主认为这一切都是 google 的错!
    kuichieh
        6
    kuichieh  
    OP
       2021-04-28 14:12:41 +08:00
    @Vhc001 不是被入侵,是搜索内容爬取。如果你遇到过这种情况你就知道我说的是什么了,比如你用 Google 搜某个关键词,看到几条相关的结果,点进去结果是跳到其他无关网站。我想删除的就是这些结果。
    106npo
        7
    106npo  
       2021-04-28 14:13:58 +08:00
    @Vhc001 应该说的是之前被菠菜网站把网站爬了,现在还能从它们那边搜索到信息.那这个没救的
    Vhc001
        8
    Vhc001  
       2021-04-28 14:16:04 +08:00
    @xmumiffy 这是什么操作。。。
    hongweiliuruige
        9
    hongweiliuruige  
       2021-04-28 14:44:45 +08:00
    意思是菠菜网站弄了个和你网站一模一样的站点,然后你自己的删了,之前那些关键词还能搜到菠菜的,然后因为里面的内容和你网站一样,所以可能对你网站声誉造成一定影响,你想给他封了是这样吗
    kuichieh
        10
    kuichieh  
    OP
       2021-04-28 15:17:35 +08:00
    @hongweiliuruige 大致是这个意思,但还有些小区别。这些菠菜是爬了内容,但似乎对 Google 作了优化,Google 去访问看到的应该是被爬了的内容(并缓存了网站之前的敏感信息),而正常用户访问得到的只有菠菜信息。

    问题是源网站之前有敏感信息,现在我已经修改了,但是因为这些菠菜网站,导致 Google 搜索时还会从 Google Cache 中出现这些信息。我想给他删了或封了。
    pcbl
        11
    pcbl  
       2021-04-28 15:28:28 +08:00 via Android
    不用想了,别人的网站不是你想删就删的
    Al0rid4l
        12
    Al0rid4l  
       2021-04-28 15:45:18 +08:00
    @kuichieh 那这个问题, 说明中引入 Google 这一无关要素只会让人更迷惑吧...简单概括其实你就是想删掉别人站里面的内容而已, Google 在这个问题描述中纯粹是个干扰项
    kuichieh
        13
    kuichieh  
    OP
       2021-04-28 16:13:08 +08:00
    @Al0rid4l 我觉得删掉别人站里面的内容是不太可能的吧,我现在只想删除 Google 搜索结果
    Al0rid4l
        14
    Al0rid4l  
       2021-04-28 16:23:47 +08:00
    @kuichieh 那这么多搜索引擎, bing 的要不要删掉, 百度的要不要删掉, 不解决实际问题啊, 有点掩耳盗铃的味道
    580a388da131
        15
    580a388da131  
       2021-04-28 16:24:39 +08:00
    580a388da131
        16
    580a388da131  
       2021-04-28 16:25:43 +08:00
    kuichieh
        17
    kuichieh  
    OP
       2021-04-28 16:41:49 +08:00
    @Al0rid4l 这么说也是,不过只有 Google 有这个情况,其它搜索引擎都不会收录这些奇奇怪怪的网站
    dsg001
        18
    dsg001  
       2021-04-28 16:45:12 +08:00
    不用想了,做不到

    已经进入菠菜的数据库,即使现在的网站移除了,这些数据还是会被拿来做新网站,重新出现在搜索页面
    docx
        19
    docx  
       2021-04-28 19:28:43 +08:00 via Android
    试试找 Google 举报投诉,但是很难
    rb6221
        20
    rb6221  
       2021-04-28 20:18:16 +08:00
    你的源内容已经删了,你需要证明那个爬取的内容是从你这里爬的。
    如果你证明不了,那我觉得爬取的内容没有危害到你的信息,就没必要去处理
    如果你能证明,那可以拿着证据去举报一下吧
    HenryGe
        21
    HenryGe  
       2021-04-28 22:12:09 +08:00
    如果能知道爬虫是怎么爬取的内容,让爬虫再爬一遍,把原来的内容洗掉就可以了。
    kkocdko
        22
    kkocdko  
       2021-04-28 23:53:24 +08:00
    几乎没有办法。因为数据并不仅仅存在于 Google 的缓存中,也存在于那些菠菜的网站里。菠菜的网站似乎并没有明显违反 Google 的规定,因此也很难投诉成功。
    我所想到的只有:尽量将敏感数据变得不敏感。例如,泄露了密码,就修改密码,那么旧密码就不属于“敏感信息”了
    PolarBears
        23
    PolarBears  
       2021-04-30 01:43:36 +08:00
    @kkocdko 还有可能是被要求清查网站内有没有涉及到某人或某事相关的文章,还要截图各种搜索引擎和微博之类的,报告已经清理干净了这种.
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3243 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 39ms UTC 04:25 PVG 12:25 LAX 20:25 JFK 23:25
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86