反爬求助 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CaptainD
V2EX    问与答

反爬求助

  •  
  •   CaptainD 2021-12-28 15:16:10 +08:00 2743 次点击
    这是一个创建于 1431 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在学习爬虫,在网站反爬的时候遇到些问题

    • 爬虫在请求目标网站的时候会返回 202 ,但是浏览器是能请求成功的,我检查发现

    • 目标网站是 post 请求,表单提交,没有使用 ajax ,表单提交的时候有两个奇怪的字段 1.__RequestVerifyToken: 看起来是一个加密的随机数,在首次请求的时候会带这个参数,参数在 response 的 html 页面存在,是一个隐藏类型的标签,name = __RequestVerifyToken ,value=它的值 2.刷新几次之后,表单只携带一个 payload ,键是 OMv5e9ZM ,值看起来也是个加密的数据,但是这个值变化的时候 cookie 里有一个键值对也会发生变化,应该是有关联的,暂时不清楚是干啥的

    • 我的程序携带对应的 cookie ,payload 发起请求一直会是 202 ,不太明白问题出在哪

    25 条回复    2021-12-28 20:33:29 +08:00
    CaptainD
        1
    CaptainD  
    OP
       2021-12-28 15:19:47 +08:00
    页面居然乱码了。。。

    网站还有个特点,正常浏览器请求有时也会出现 202 ,大概每 4 ,5 次出现一次
    hidemyself
        2
    hidemyself  
       2021-12-28 15:24:13 +08:00
    爬的网站此时应该贴出来吧
    CaptainD
        3
    CaptainD  
    OP
       2021-12-28 15:26:34 +08:00
    @hidemyself 是国知局的专利数据
    http://epub.cnipa.gov.cn/Dxb/IndexPDQuery
    大概内容就是最新两周,每周发布的专利申请数据
    murmur
        4
    murmur  
       2021-12-28 15:27:32 +08:00
    别学习爬虫了,是带薪学习把,灰产就老实出钱找人
    CaptainD
        5
    CaptainD  
    OP
       2021-12-28 15:29:28 +08:00
    @murmur 倒也不是,我本身不是爬虫工程师,但是平时喜欢研究些开源的数据,中外都有,总想着以后能靠这东西赚钱
    jr55475f112iz2tu
        6
    jr55475f112iz2tu  
       2021-12-28 15:42:23 +08:00
    敢爬 .gov 的数据?
    lysS
        7
    lysS  
       2021-12-28 15:56:49 +08:00
    这个域名~,哈人
    ch2
        8
    ch2  
       2021-12-28 16:00:26 +08:00   3
    版权所有:国家知识产权局(未经许可不得复制)
    牢饭香
    deplivesb
        9
    deplivesb  
       2021-12-28 16:04:07 +08:00
    主办单位:国家知识产权局 软件维护:知识产权出版社  ICP 备案编号:京 ICP05069085 号
    版权所有:国家知识产权局(未经许可不得复制) 技术支持:010-62086466 / 6421 / 6415

    牢饭警告
    CaptainD
        10
    CaptainD  
    OP
       2021-12-28 16:05:49 +08:00
    @czfy 有什么说法吗
    CaptainD
        11
    CaptainD  
    OP
       2021-12-28 16:07:28 +08:00
    @deplivesb 不是特别了解这块,专利数据我看大部分是开源的,我的理解开源数据一般不是默认可以爬虫吗,我的经验是看国外开源的数据一般提供了爬虫接口,非常方便,国内的没怎么了解
    jr55475f112iz2tu
        12
    jr55475f112iz2tu  
       2021-12-28 16:11:34 +08:00   2
    1. 爬虫本来就在灰色地带
    2. 为什么网站 /App 要反爬?因为别人不想让你爬
    3. 别人不想,你还要做,这叫强迫
    4. 强迫别人做不想做的事情是违法的
    5. 商业公司,是否追究爬虫者的法律责任,主要考虑投入产出比
    6. gov 是否追究爬虫者的法律责任,考虑啥我也不知道,可能看心情吧,不过一抓一个准
    jr55475f112iz2tu
        13
    jr55475f112iz2tu  
       2021-12-28 16:12:51 +08:00
    @CaptainD 有接口那就不是爬虫了,那叫以对方同意的方式(通过 API )获取对方愿意提供的数据
    deplivesb
        14
    deplivesb  
       2021-12-28 16:17:04 +08:00   1
    @CaptainD 专利数据是公开的,但是不代表你可以用爬虫批量获取。而且还是 gov 网站,玩意爬虫频率太快,把网站搞炸了,那就是不是单纯爬虫这么简单了,小心被反手一个非法侵入计算机信息系统罪。
    CaptainD
        15
    CaptainD  
    OP
       2021-12-28 16:22:40 +08:00
    @czfy 感谢科普,之前确实没想这么多,我平时研究数据发现国外的大多提供给你这么几种方式,其中一种就是 linked data ,允许运行程序获取数据,就是我说的接口,可能表述不准确
    jr55475f112iz2tu
        16
    jr55475f112iz2tu  
       2021-12-28 16:30:40 +08:00   1
    国家知识产权局提供什么数据,在这里( http://ggfw.cnipa.gov.cn:8010/PatentCMS_Center/)
    目前有一些城市 gov 会提供数据接口调用( https://data.sh.gov.cn/)

    一方面,国内 gov 数据公开确实做得一般
    另一方面,你提到 “总想着以后能靠这东西赚钱”,这里的法律和道德风险有多少就不好说了
    ZAXON
        17
    ZAXON  
       2021-12-28 16:35:17 +08:00
    这个网站的爬虫属于比较难的那种吧,楼主实在学 JS 逆向吗
    CaptainD
        18
    CaptainD  
    OP
       2021-12-28 16:43:49 +08:00
    @czfy 这个网站我之前就看过,网站非常卡顿,bug 也比较多,但是提供了开源数据下载,下载流程比较复杂,需要注册还要上传身份证号,我按部就班的注册了,也上传了证件信息,结果不通过,理由是不清楚,但是我拍的照片就是很正常的那种,也不知道为啥,我还给他们发了邮件,询问能否提供开源地址,能否通过程序访问,如果不行能否加速一下认证过程,但是他们回复比较模棱两可,只说我提交的材料不合格

    另外赚钱这事我想的比较简单,大学的时候我玩过 kaggle ,当然比较菜,大部分时间就看看数据,看看他们分析一件事找了什么特征,有什么因素能影响事件结果之类的,我说的赚钱是指能不能自己搭建一下系统,然后分析点感兴趣的数据培养一下这方面能力,并不是单纯的卖数据
    jr55475f112iz2tu
        19
    jr55475f112iz2tu  
       2021-12-28 16:47:12 +08:00
    @CaptainD 嗯,这就是我说的 “国内 gov 数据公开做得一般”,要不就是完全不公开,要不就不是真心实意想公开,只是给了个口子,实际上还是拿不到

    如果你说的是指培养能力,想用国内的数据炼丹,可能可以看看国内仿 kaggle 的网站,上面有一些国内数据
    liubaicai
        20
    liubaicai  
       2021-12-28 18:07:14 +08:00
    很刑
    evil0harry
        21
    evil0harry  
       2021-12-28 18:20:35 +08:00
    我曾经在地方专利局爬过,你的这个网站太卡了。
    http://pss-system.cnipa.gov.cn/sipopublicsearch/portal/uiIndex.shtml
    evil0harry
        22
    evil0harry  
       2021-12-28 18:21:53 +08:00
    @evil0harry 建议使用地方的
    evil0harry
        23
    evil0harry  
       2021-12-28 18:23:07 +08:00
    evil0harry
        24
    evil0harry  
       2021-12-28 18:25:13 +08:00
    @evil0harry 当时是为了科研任务,并且是 3 年前没有网络安全法的时候。
    mswh
        25
    mswh  
       2021-12-28 20:33:29 +08:00
    puppeteer 试试?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1084 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 18:00 PVG 02:00 LAX 10:00 JFK 13:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86