关于用验证码反爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
shanyang88
V2EX    程序员

关于用验证码反爬虫

  •  
  •   shanyang88 2024-08-16 01:54:09 +08:00 2936 次点击
    这是一个创建于 451 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用验证码反爬虫可靠吗?我有点想试试。 我希望可以较长时间内只需用户手动输入一次验证码,就可以让爬虫完全无法爬到网站的内容。 有可靠的开源解决方案吗?后端为 laravel 框架。

    18 条回复    2024-08-17 02:31:18 +08:00
    gzlock
        1
    gzlock  
       2024-08-16 04:25:43 +08:00
    cloudflare 有对应保护 api 的方案
    https://blog.cloudflare.com/zh-cn/integrating-turnstile-with-the-cloudflare-waf-to-challenge-fetch-requests-zh-cn/
    工作原理省流:
    在网页上放一个 cf 的 js ,确保后续访问 api 的人是访问过网页的,才允许调用 api ,整个流程对正常用户很丝滑

    有个疑问:
    app 怎么使用这个方法呢
    shanyang88
        2
    shanyang88  
    OP
       2024-08-16 07:34:48 +08:00
    @gzlock 两个疑问:1.该方法收费吗?我知道 cf 有个其它方案是收费的; 2.这个方法下在国内访问仍然丝滑吗?
    chaoschick
        3
    chaoschick  
       2024-08-16 08:57:15 +08:00
    影响用户体验
    wnpllrzodiac
        4
    wnpllrzodiac  
       2024-08-16 09:05:52 +08:00 via Android
    安全和便捷就是矛盾的
    chi1st
        5
    chi1st  
       2024-08-16 09:09:48 +08:00
    让爬虫完全无法爬到网站的内容这个不可能的,只能找到一个平衡点来限制爬虫
    qq78660651
        6
    qq78660651  
       2024-08-16 09:11:46 +08:00 via Android
    只是提高爬取门槛而已,还是看你网站内容的吸引力,有价值,别人花些还是能爬,但是能隔绝小白。
    macaodoll
        7
    macaodoll  
       2024-08-16 09:15:26 +08:00 via iPhone
    你上完了我可以帮你测试,我是做爬虫的
    iyiluo
        8
    iyiluo  
       2024-08-16 09:16:04 +08:00
    开源的不太行,还是商业的靠谱一些。验证码防不了,还有人肉打码这种灰产,防不住
    zeusho871
        9
    zeusho871  
       2024-08-16 09:25:45 +08:00
    瑞数都能破。。。
    yb2313
        10
    yb2313  
       2024-08-16 09:45:41 +08:00
    @zeusho871 我也喜欢看瑞树
    zcybupt2016
        11
    zcybupt2016  
       2024-08-16 10:22:57 +08:00
    完全无法爬是不可能的,除非让用户也完全无法用
    hubaq
        12
    hubaq  
       2024-08-16 10:25:09 +08:00
    简单粗暴的方案,上来直接极验消消乐验证,可以挡住绝大部分低端爬虫
    Masterlxj
        13
    Masterlxj  
       2024-08-16 10:44:26 +08:00
    不现实,除非你想让正常用户也这样,不然没法阻止爬虫。反爬虫并不是单一的让爬虫访问不了,而是提升爬虫的成本(时间,经济)
    forty
        14
    forty  
       2024-08-16 11:08:17 +08:00
    非公开访问,付费浏览,99%就没有爬虫花钱玩了
    namejaho0
        15
    namejaho0  
       2024-08-16 11:11:22 +08:00
    微信登录 限制每个帐号 访问频次
    sead
        16
    sead  
       2024-08-16 11:45:24 +08:00
    一些无关带标识的爬虫禁了就可以了,对于有心人这种爬虫你是没有办法的,矛于盾谁最厉害本来就是博弈
    jimrok
        17
    jimrok  
       2024-08-16 18:14:47 +08:00
    ddddocr 可以识别验证码,所以先测试一下你的验证码好不好使。另外大语言模型可以在直接从浏览器结构中提取信息,一些提示词就可以将获得抓取的信息和干扰信息分开。
    gzlock
        18
    gzlock  
       2024-08-17 02:31:18 +08:00
    @shanyang88 我回复里说到的方案是免费的
    然后我理解错了楼主的需求
    我回复的方案是前后端分离的,用于保护后端 api 的
    cloudflare 也有免费用于保护网站的著名 5 秒盾
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1433 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 16:49 PVG 00:49 LAX 08:49 JFK 11:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86