像我这样防采集的手段,对于手机该编写怎样的逻辑? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Reign

像我这样防采集的手段,对于手机该编写怎样的逻辑?

  •  
  •   Reign 2017 年 12 月 4 日 via iPhone 3259 次点击
    这是一个创建于 3065 天前的主题,其中的信息可能已经有所发展或是发生改变。
    下载地址因为是明文静态地址,爬虫很容易就把所有资源爬完了,当然限制 IP 没有用,换个代理 IP 池还不是分分钟把我的资源给秒了,目前我就是采用如下手段,js 和服务器要生成一个公有的加密 token 用于点击时验证,这样可以把简单的 file_get_contents 给屏蔽了,但对于 phantomjs,我必须验证鼠标轨迹,必须鼠标轨迹越来越接近点击时的坐标才行,但对于手机和平板电脑页面,没了鼠标,该怎么检验用户的真实行为?求 V 友集思广益一下
    13 条回复    2017-12-04 21:47:55 +08:00
    vus520
        1
    vus520  
       2017 年 12 月 4 日
    除非是一次请求扣一块钱,否则没办法做到『防采集』
    zzuieliyaoli
        2
    zzuieliyaoli  
       2017 年 12 月 4 日
    要不对于手机和平板电脑,把资源链接放在第二屏,必须让用户滑动一下才可以下载。

    或者加个倒计时,点击 5S 后才可以下载。
    qu3290052
        3
    qu3290052  
       2017 年 12 月 4 日 via Android
    最新极验
    shoaly
        4
    shoaly  
       2017 年 12 月 4 日
    假设真心没办法将 明文静态地址 改成 基于用户登录的动态地址
    那么可以将你的列表页的下载链接都换成动态链接, 然后验证用户登录之后, 根据该用户下载次数 通过验证再给他跳转到最终的静态地址上去
    当然假设 你的静态地址 文件名都没做 hash, 类似 /1.mp3 /2.mp3 这种....那就当我没说.... 直接写个循环 全下来了
    gouchaoer
        5
    gouchaoer  
       2017 年 12 月 4 日
    1、首先保证静态文件名随机
    2、每次下载必须通过 php 脚本来统计一下,然后 redirect 给 nginx 的 sendfile
    3、反爬虫你需要用 php 脚本逻辑来做
    gouchaoer
        6
    gouchaoer  
       2017 年 12 月 4 日
    下载上极验之类的吧
    murmur
        7
    murmur  
       2017 年 12 月 4 日
    手拉拼图?
    xmcp
        8
    xmcp  
       2017 年 12 月 4 日 via iPhone
    上验证码,recaptcha 或者国内的极验什么的都可以。也可以再酌情加点延时。
    onlyhot
        9
    onlyhot  
       2017 年 12 月 4 日
    每天签到送积分,积分下载。
    009694
        10
    009694  
       2017 年 12 月 4 日 via iPhone
    可以做 key 参数验证啊
    300
        11
    300  
       2017 年 12 月 4 日 via Android
    下载的文件放网盘呢(o)
    akira
        12
    akira  
       2017 年 12 月 4 日
    任何防采集手段,都只是提高采集成本,并不能绝对防止采集的

    11l 的方案其实很好的,别人帮你防采集了,顺便你还能赚点小钱。。
    toono
        13
    toono  
       2017 年 12 月 4 日
    隔壁的爬虫帖子提供了很多思路

    [现在淘宝详情页销量的反爬策略是如何实现的?我使用了稳定更换 ip 的代理池,仍会被 ban。]( t/411768#reply39)


    我觉得里面的有一条,“ ip 反向解析”挺好的,假如使用了代理,那么 IP 解析出来大多不是民用。

    反爬虫的话我觉得不能光靠一点两点去完全解决,而是每一个措施拦下一批人去达到反爬虫的目的。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2800 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 55ms UTC 12:41 PVG 20:41 LAX 05:41 JFK 08:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86