1 wdd2007 2015-04-03 13:54:27 +08:00 你对比一下浏览器的请求和爬虫请求有哪些不一样的地方? 比如 useragent、比如 cookie? |
2 willsplashing 2015-04-03 13:55:22 +08:00 你确定python发出去的request和Chrome devtool里capture的request一模一样吗? |
3 willsplashing 2015-04-03 13:57:21 +08:00 还有如果你爬虫一下子发很多request有些网站可能会有rate limit |
![]() | 4 dedewei OP |
![]() | 5 dedewei OP @willsplashing 爬了二十个页面就断了,然后时而行时而不行 |
![]() | 6 ETiV 2015-04-03 14:04:04 +08:00 via iPhone firebug抓一次浏览器的请求,再用curl模拟提交(firebug有复制curl请求的功能),再一点点精简curl的参数 |
![]() | 8 withrock 2015-04-03 14:43:16 +08:00 可能和cookie有关,如果不需要登录就可以抓取的话,建议关闭cooke ps:我也写了个爬虫玩玩,互相学习。 http://git.oschina.net/mktime/scrapy-douban-group |
![]() | 9 libo26 2015-04-03 16:16:20 +08:00 header与浏览器一致的话多半是频率限制了吧,增加时间间隔/换IP |
10 kkx 2015-04-04 07:06:34 +08:00 用selenium 包治 |
![]() | 11 ioven 2015-04-04 21:09:16 +08:00 burpsuite抓包,对比和浏览器的区别 |
![]() | 12 ming2281 2015-04-08 22:33:48 +08:00 了解一下HTTP协议,然后这些大都知道怎么避免了 |