
楼主自己以前是做 web 前后段的,现在对爬虫很感兴趣,看完了文档就直接上 urillib(1,2),scrapy,requests 等等的“框架”吧,然后基本的爬虫规则算是知道,但是发现现在的网站防爬虫厉害啊,比如现在就不懂怎么爬知乎了,另外还有其他的网站,而且验证码这关要怎么过`````````
我是小菜,勿喷````
1 knightdf 2015-11-20 21:04:55 +08:00 说实话,一个 scrapy 就够你研究了,验证码普通的直接识别,发邮箱的自动从邮箱里读取,复杂的类似 Google 那样的手动输入或者 GG 。知乎应该是要登录,控制好规则不难,别想一台机器一个账号搞定 |
2 knightdf 2015-11-20 21:07:05 +08:00 还有, urllib,requests 这不叫爬虫框架,只是个 http 库 |
3 binux 2015-11-20 21:23:18 +08:00 你做 web 前后端的,不知道怎么过防爬虫? 建议继续修炼 web 前后端的功力... |
12 bzzhou 2015-11-20 23:20:51 +08:00 RFC2616 好好读读~ |
14 julyclyde 2015-11-20 23:23:52 +08:00 urllib 、 requests 只能叫组件,还不能叫框架 框架得承担起程序运行的重任,让人来写其中细小的部分 |
16 julyclyde 2015-11-20 23:45:02 +08:00 爬虫这个其实不适合于兴趣吧 靠兴趣学习,是需要有成功给自己带来鼓励的 而写爬虫,并不是一个只要足够聪明努力就一定能成功的方向 |
17 greatghoul 2015-11-20 23:50:51 +08:00 via Android 抓取百度贴吧的数据吧 |
18 leavic 2015-11-20 23:50:55 +08:00 scrapy 很容易上手的,就 scrapy 而言,你不需要深入太多,如果想了解其原理,你得学 twisted 框架。 |
19 leavic 2015-11-20 23:52:29 +08:00 验证码这个,我有点惊讶楼主你真是做后端的? cookies 是干啥的? |
21 qw7692336 2015-11-21 00:26:15 +08:00 via Android 我搞过验证码识别,简单的验证码都是有规律的。 只要是自己编写的验证码生成算法,都容易识别。 |
23 leavic 2015-11-21 00:38:17 +08:00 @aljun 确实有部分网站验证码登录后只靠 keep alive session 维持 session 内的验证,这种着实恶心,实在不行找个 ocr api 帮你识别好了。 |
24 zkwolf 2015-11-21 01:01:15 +08:00 验证码可以。。。下载下来自己输,能用 cookie 登录的用 cookie 登录好了 |
25 aisk 2015-11-21 01:11:50 +08:00 全站爬微博!这个好玩并且有价值 |
26 gouwudang 2015-11-21 11:04:14 +08:00 楼主对爬虫感兴趣的话,欢迎发一份简历过来 [email protected] ,可以实践各种奇葩的问题和解决办法。 |
27 wingyiu 2015-11-24 10:07:05 +08:00 |
28 souwiki 2018-08-15 21:28:48 +08:00 建议学习基础的 requests 比较好 然后再学习深入的模块 https://souwiki.com/532.html |