写 packtpub 的爬虫时,碰到 post 无法成功获取的问题。内附福利给帮忙的朋友 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wzyefd
V2EX    问与答

写 packtpub 的爬虫时,碰到 post 无法成功获取的问题。内附福利给帮忙的朋友

  •  
  •   wzyefd 2016-04-09 20:22:27 +08:00 2629 次点击
    这是一个创建于 3472 天前的主题,其中的信息可能已经有所发展或是发生改变。

    packtpub 在线看体验不是很好,网速慢,所以想爬下来放 ipad 上面慢慢看。订购了一个月的服务,在写爬虫的时候,碰到一个问题。

    在 chrome 里面获取到 post 的 header , cookie ,和 post 去的 data 。

    然后把这些字段放入 postman 里面模拟 post 请求发送给 packtpub 。但是每次都无法正常获取数据,提示 invalid token 。请各位帮忙。

    我的操作是具体点开一本书,就是你能够看到书的详细内容了。从 chrome 里面的 审查元素-->network-->过滤出 auth 这个 http 请求,把 request headers 里面的所有字段 bulk edit 进 postman 的 headers (当然这个里面有重要的 cookie 值),然后把 Request payload 里面要发送的数据也 bulk edit 进 postman 里面的 body 选项卡。

    照理说这样应该可以获得和浏览器里面一样的 response 才对啊。

    各位可以做个测试,看看是什么原因。

    测试账户: [email protected] / 密: 1qaz2wsx3edc

    希望各位拿了福利帮个忙。

    4 条回复    2016-04-09 22:23:58 +08:00
    UnisandK
        1
    UnisandK  
       2016-04-09 20:34:32 +08:00
    是不是 CSFR ,每次请求 token 都在变的
    wzyefd
        2
    wzyefd  
    OP
       2016-04-09 20:37:54 +08:00
    @UnisandK token 和 cookies 里面的 token 是一样的,每次都没有变化
    nisekoi
        3
    nisekoi  
       2016-04-09 21:49:05 +08:00
    wzyefd
        4
    wzyefd  
    OP
       2016-04-09 22:23:58 +08:00
    @nisekoi 模拟登录是可以的,我用 scrapy 也实现,问题就是返回的 response 里面的 cookies 比浏览器里面的 cookies 少很多,所以我就直接把浏览器里面的 cookies 放入 request 的 headers 里面了。我说的无法获取的是具体的页面内容。

    比如:

    Request URL:https://www.packtpub.com/packt-lib-reader-api/global/auth
    Request Method:POST

    然后我附上了 cookies ,这里略去。
    最后加上 request data :
    {"token":"3bc5e840b2aef1b2284aa352795858af1540b086","additional_variables":{"nid":"24519","isbn":"9781785882951","url":"isbn=9781785882951&chapter=2&section=ch02lvl1sec14&section_name=NumPY"},"additional_calls":["books_saveRead"]}

    这个就无法获取争取的值
    关于     帮助文档   /span>   自助推广系统     博客     API     FAQ     Solana     2707 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 42ms UTC 09:05 PVG 17:05 LAX 02:05 JFK 05:05
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86