
如题。假设 -> 理想条件下:对方无反爬虫机制,每日抓取一千万次。
Go 的协程概念挺好的,但我只是个初学者理解不深。
Python 的 Gevent 用起来也挺好,Pypy 对于 CPU 密集型速度也很棒。
Nodo 算了吧,写业务逻辑真心不喜欢层层回调,虽然大爱 Scheme。
(我是像说,回调和函数式在某些方面很像,但用来写大量业务逻辑我觉得不太适合)
于是乎,问大家它们各自的优缺点?
1 est 2015 年 6 月 7 日 via Android python方便得多。改一下随便跑。爬虫效率不是瓶颈,基本都能跑满水管 |
2 |
3 crazyxin1988 2015 年 6 月 7 日 爬虫可以上python啊 python中也有协程~ gevent |
4 facat 2015 年 6 月 7 日 via Android 用go.python很多历史包袱,一些主流的库不好用。 |
5 bigtan 2015 年 6 月 7 日 via Android 我跑股票数据就是golang,然后gosqlite存数据库,pandas处理很方便的。 |
6 assassinpig 2015 年 6 月 7 日 python吧 库多 可以借鉴的也多 |
7 1314258 2015 年 6 月 7 日 via iPhone @est 请教下。要获取600百多万台机器的80端口banner,python怎么搞。写了一个500线程,为什么扫出后的比50的差点 |
8 WildCat 2015 年 6 月 7 日 最近不小心在HN上看到程吨的黑Go的文章就不敢学Go了 |
9 xiaocsl 2015 年 6 月 7 日 最近闲着没事, 学了下 golang,并用 golang 写了两个爬虫练练手. 先[捂脸][捂脸]一个是爬极客学院的视频,靠着新用户注册有一天的试用 VIP,download 下所有的视频.100M 的带宽不到2个小时跑完.数据不到70G. 代码算上注释160多行. 另一个是遍历京东自营商品,初始化遍历耗时5个小时,之后的爬取最新价格,不到一个小时一轮,不到50行代码.(效率低的原因应该是京东有一些限制.还在找解决办法,愁.) 中间还写了两个秒杀软件,除了 QR CODE 没找到现成的第三方包.其他码起来超顺畅. (PS:数据我都是直接简单转成 JSON 存硬盘..) 整体来说熟悉以后敲代码有种愉悦感,协程超简单啊,超简单..唯一不痛快的地方就是,资料相对来说少好多.资料查起来挺累的. |
12 xiaocsl 2015 年 6 月 8 日 6666666666 爬京东的找到原因了,瓶颈在路由.渣路由扛不住大量的数据包吞吐量. 网线直插电脑.效率猛增10倍.初始化 40 分钟左右,初始会完以后,遍历一次京东自营商品当前价格只需要6分钟.. 这次的平静像是网卡承受不了数据包的吞吐量..如果网卡再好点,效率还能更高点. |
13 guotie 2015 年 6 月 8 日 golang |