大佬们,怎么提升爬虫和反爬技术啊 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yangva
V2EX    问与答

大佬们,怎么提升爬虫和反爬技术啊

  •  
  •   yangva 2020 年 7 月 16 日 3313 次点击
    这是一个创建于 2029 天前的主题,其中的信息可能已经有所发展或是发生改变。

    鄙人是个不起眼的安全职员,最近研究爬虫和反爬比较多,国内的常用爬虫和反爬技术基本都有了解,比如 UA 、IP 、登录、token/sign 等加密参数、特殊的 headers 头验证、aes 和 des 加密某字段、会员权限等级限制、web 端的 js 混淆、移动端的反调试和混淆,ssl pinning 检测、安卓源码编译在 so 层里等等的,微信授权登录等等的,这些我都有些研究。

    我研究完以上举例的,最近每天都在搜索相关技术文章,发现基本都是那一套反爬策略,感觉到了一个瓶颈期,技术没法再提升了,相关的技术文章也基本都是那些套路,国外的反爬又是怎么做的啊,跟国内一样吗?

    有什么途径可以做到技术的持续进步,国内外有没有什么反爬联盟之类的网站或者渠道可以相互分享新技术的。

    抱歉问题有点多,就是感觉最近没有学到新技术,有点焦虑

    19 条回复    2020-07-16 22:22:10 +08:00
    heyhumor
        1
    heyhumor  
       2020 年 7 月 16 日
    你是想喝茶吗
    sadfQED2
        2
    sadfQED2  
       2020 年 7 月 16 日 via Android
    基本上就你这些,再往上参考 google 的鼠标轨迹,点击轨迹 ai 检查
    ym1ng
        3
    ym1ng  
       2020 年 7 月 16 日   1
    同不起眼的安全职员,之前搞过一点反欺诈,献个丑
    爬虫与反爬其实主要是两个问题 人机识别的 challenge 和触发 challenge 的条件
    challenge 最常见的就是各种各样验证码,还有一些类似于字体混淆,关键路径节点校验之类的
    触发 challenge 主要是利用的各种画像技术,如 ip 画像,浏览器指纹,设备指纹等等,对画像使用的一些统计手段,如同比、环比、基于时间窗口的统计等等,更高端一点的把各种统计指标以及采集的指纹向量化丢到机器学习的模型里去训练,至于一些核心业务,则无论条件如何一律上 challenge

    个人觉得这个领域的东西还是更偏向于业务一些。基于自己的业务去进行反爬或者抓取数据。单纯的想学习国外的套路其实并不一定适用自己,毕竟 google 也干过自己的语言识别把自己的语言验证码破了这种自嗨行为(笑
    renmu123
        4
    renmu123  
       2020 年 7 月 16 日 via Android
    你可能已经要到爬虫的天花板了
    wysnylc
        5
    wysnylc  
       2020 年 7 月 16 日
    只搞爬虫天花板并不高
    yangva
        6
    yangva  
    OP
       2020 年 7 月 16 日
    @heyhumor 你先查下什么是安全职员
    yangva
        7
    yangva  
    OP
       2020 年 7 月 16 日
    @sadfQED2 好的,谢谢
    kernelpanic
        8
    kernelpanic  
       2020 年 7 月 16 日
    少了一个最常见的自定义字体。。
    yangva
        9
    yangva  
    OP
       2020 年 7 月 16 日
    @renmu123 好吧,谢谢
    yangva
        10
    yangva  
    OP
       2020 年 7 月 16 日
    @wysnylc 好吧,谢谢老哥,就感觉没什么东西可以搞了,焦灼
    yangva
        11
    yangva  
    OP
       2020 年 7 月 16 日
    @kernelpanic 嗯,字体反爬也研究过了
    murmur
        12
    murmur  
       2020 年 7 月 16 日
    我看有那种 IDC 机房 IP,发现是机房的请求直接风控走起
    dryadent
        13
    dryadent  
       2020 年 7 月 16 日
    其实设备指纹能玩的很多,在手机端是可以被 hook 的,在 pc 端是没法固定的,都是挑战
    yangva
        14
    yangva  
    OP
       2020 年 7 月 16 日
    @murmur 听起来很 6 的样子,我研究下,感谢
    yangva
        15
    yangva  
    OP
       2020 年 7 月 16 日
    @dryadent 是啊,搞来搞去感觉就那几样东西
    krapnik
        16
    krapnik  
       2020 年 7 月 16 日   1
    locoz
        17
    locoz  
       2020 年 7 月 16 日 via Android   1
    其实各种反爬,思路都是一样的…增加信息收集点、增大看代码的难度、加入一些不影响展示但能让原始数据变样的东西、加入一些恶心人的暗坑,无非就是这几种。实际上也没有什么更好的办法,因为这种东西极限就摆在那,PC 端的反逆向不也是搞了这么多年也没有明显变化嘛。

    现在主流的反爬我个人感觉更倾向于强化风控和反逆向这两方面,都是尽量结合业务,定制化地搞。像数美、快手、拼多多的风控就可以做到即使加密算法全给抠烂了、验证码全给爆破了,也还是能让红方恶心得不行,成本还是高。

    不过其实再怎么搞都一样,无非就是成本问题。反爬做得再牛逼,也挡不住人家招一群实习生手动入库。
    yangva
        18
    yangva  
    OP
       2020 年 7 月 16 日
    @krapnik 夜幕的崔大和韦世东是我微信好友,哈哈哈
    yangva
        19
    yangva  
    OP
       2020 年 7 月 16 日
    @locoz 好的,感谢大佬,你这头像和名字太眼熟了,知乎有看过你的文章
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2557 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 54ms UTC 11:03 PVG 19:03 LAX 03:03 JFK 06:03
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86