博客经常遭遇菠菜佬和 seo 佬的骚扰,请问怎样禁止 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
kleos
V2EX    Linux

博客经常遭遇菠菜佬和 seo 佬的骚扰,请问怎样禁止

  •  
  •   kleos 2023-02-09 23:44:54 +08:00 5504 次点击
    这是一个创建于 1027 天前的主题,其中的信息可能已经有所发展或是发生改变。

    博客经常遭遇菠菜佬和 seo 佬的骚扰,而且是通过搜索引擎的 bot 请问该如何禁止? t1

    20 条回复    2023-02-18 15:09:31 +08:00
    Windelight
        1
    Windelight  
       2023-02-09 23:59:23 +08:00 via Android
    被利用的链接直接反回 404
    Yourshell
        2
    Yourshell  
       2023-02-10 00:28:11 +08:00
    你也是闲的去翻日志
    可以套个 CF 然后 WAF 开高点
    z86823237
        3
    z86823237  
       2023-02-10 03:34:49 +08:00
    你可以在 web 服务器的重写或配置层面加上拦截规则,
    例如:将$user_agent 包含:"PetalBot" 内容的请求,全部返回 404 或 nginx 444;
    momocha
        4
    momocha  
       2023-02-10 08:29:05 +08:00 via iPhone   1
    更新你的 /robots.txt 把要禁止的 user-agent 加入黑名单,遵守规则的爬虫就不会来了。
    opengps
        5
    opengps  
       2023-02-10 08:51:35 +08:00
    只要没浪费你太高流量,无视即可,干嘛用人工的精力去对抗机器人
    woshinide300yuan
        6
    woshinide300yuan  
       2023-02-10 08:55:54 +08:00
    @opengps wordpress 的话,经常遇到利用搜索关键词来生成搜索页面,然后不久后就被搜索引擎收录了,就导致自己站点在百度的搜索结果中,出现一大堆 “ #&@*#&@*|xx 博客 ” 的垃圾广告收录,跟被黑了似的。

    其他的不知道,所以就都很介意垃圾词搜索。

    ========
    LZ 如果是 WP 的话,可以考虑下一个插件 wpjam ,里面配套的一款插件是优化 WP 搜索的,包括频率、字符限制。 我看 /?s=后面跟了一大堆字符,不出意外肯定可以限制了。

    其他就不知道了。 蹲一个更高明的,学习一下。
    hangbale
        7
    hangbale  
       2023-02-10 09:29:45 +08:00
    我的也有这种情况,这种爬虫 IP 一般有规律,我直接在 nginx 里把这些 ip 给 deny 了
    NoAnyLove
        8
    NoAnyLove  
       2023-02-10 09:58:15 +08:00
    菠菜佬是啥?

    以前用过 fail2ban ,套个现成的 403-404 规则就行
    weijancc
        9
    weijancc  
       2023-02-10 10:00:20 +08:00
    @momocha 只有搜索引擎才会遵守这种规则, 爬虫才不会管
    mytsing520
        10
    mytsing520  
    PRO
       2023-02-10 10:00:37 +08:00
    @NoAnyLove
    执行菠菜关键字的
    isbase
        11
    isbase  
    PRO
       2023-02-10 10:02:56 +08:00 via iPhone
    cloudflare
    proxytoworld
        12
    proxytoworld  
       2023-02-10 10:11:12 +08:00   1
    @momocha 干灰黑产的不会理 robots.txt 的
    vevlins
        13
    vevlins  
       2023-02-10 10:23:00 +08:00
    楼上有的同学理解好像有偏差。

    现在的问题不是灰产访问 op 的网站,而是黑帽 seo 通过构造链接提升自己的外链数量和站点权重。这点在 shopify 站点尤为突出。主要修改自己的搜索链接的拼接规则,比如对敏感词过滤或者没结果的不要显示搜索词。另外你也可以在 google 等引擎上注册自己的网站,提交黑名单路径,防止构造的链接被收录。https://www.cifnews.com/article/138714

    上面说的 robots 没有问题,是其他同学理解错了,本来就是避免 google 、baidu 收录。套 cf 的也搞错了吧,不是防止 cc 等恶意扫描攻击。
    vevlins
        14
    vevlins  
       2023-02-10 10:24:42 +08:00
    @vevlins 修改 robots 只会避免新的收录,想要禁止历史的只能注册站点后加入黑名单
    iqoo
        15
    iqoo  
       2023-02-10 12:24:07 +08:00   1
    重定向到挖矿页面
    lianyue
        16
    lianyue  
       2023-02-10 12:31:08 +08:00
    这个如果 你没有 fullpath 长度大于 100 页面 直接 fullpath.length > 100 返回 403 就好了
    kleos
        17
    kleos  
    OP
       2023-02-10 16:11:14 +08:00
    @woshinide300yuan 我使用的是 typecho
    woshinide300yuan
        18
    woshinide300yuan  
       2023-02-10 20:39:04 +08:00
    @kleos 如果是宝塔面板的话,就装一个免费的第三方插件叫什么 nginx 防火墙,把这个 p 什么 bot 的 ua 放到封禁里。
    如果不是的话,就百度“nginx UA 封禁”,代码也挺简单的。主要这个截图里的东西,很规律……直接禁止这个 UA 访问就好了。

    我想不到其他的了……
    kleos
        19
    kleos  
    OP
       2023-02-10 23:43:47 +08:00
    @woshinide300yuan 按照 ua 或者根据 cidr 当然能禁,但是不想误伤搜索引擎的收入
    yagamil
        20
    yagamil  
       2023-02-18 15:09:31 +08:00
    宝塔里面或者你的云主机厂商,可以有根据 ua 过滤的功能。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2846 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 00:27 PVG 08:27 LAX 16:27 JFK 19:27
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86