问一下 Go 和 Python 开发高网络 I/O (如爬虫)的优劣势比较? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
The Go Programming Language
http://golang.org/
Go Playground
Go Projects
Revel Web Framework
Feiox

问一下 Go 和 Python 开发高网络 I/O (如爬虫)的优劣势比较?

  •  
  •   Feiox
    feiox 2015 年 6 月 7 日 2700 次点击
    这是一个创建于 3974 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题。假设 -> 理想条件下:对方无反爬虫机制,每日抓取一千万次。
    Go 的协程概念挺好的,但我只是个初学者理解不深。
    Python 的 Gevent 用起来也挺好,Pypy 对于 CPU 密集型速度也很棒。
    Nodo 算了吧,写业务逻辑真心不喜欢层层回调,虽然大爱 Scheme。
    (我是像说,回调和函数式在某些方面很像,但用来写大量业务逻辑我觉得不太适合)
    于是乎,问大家它们各自的优缺点?

    14 条回复    2015-11-17 14:18:40 +08:00
    est
        1
    est  
       2015 年 6 月 7 日 via Android
    python方便得多。改一下随便跑。爬虫效率不是瓶颈,基本都能跑满水管
    loading
        2
    loading  
       2015 年 6 月 7 日 via Android
    go就算爬完,也没好的工具处理结果。
    crazyxin1988
        3
    crazyxin1988  
       2015 年 6 月 7 日
    爬虫可以上python啊
    python中也有协程~ gevent
    facat
        4
    facat  
       2015 年 6 月 7 日 via Android
    用go.python很多历史包袱,一些主流的库不好用。
    bigtan
        5
    bigtan  
       2015 年 6 月 7 日 via Android
    我跑股票数据就是golang,然后gosqlite存数据库,pandas处理很方便的。
    assassinpig
        6
    assassinpig  
       2015 年 6 月 7 日
    python吧 库多 可以借鉴的也多
    1314258
        7
    1314258  
       2015 年 6 月 7 日 via iPhone
    @est 请教下。要获取600百多万台机器的80端口banner,python怎么搞。写了一个500线程,为什么扫出后的比50的差点
    WildCat
        8
    WildCat  
       2015 年 6 月 7 日
    最近不小心在HN上看到程吨的黑Go的文章就不敢学Go了
    xiaocsl
        9
    xiaocsl  
       2015 年 6 月 7 日
    最近闲着没事, 学了下 golang,并用 golang 写了两个爬虫练练手.

    先[捂脸][捂脸]一个是爬极客学院的视频,靠着新用户注册有一天的试用 VIP,download 下所有的视频.100M 的带宽不到2个小时跑完.数据不到70G. 代码算上注释160多行.

    另一个是遍历京东自营商品,初始化遍历耗时5个小时,之后的爬取最新价格,不到一个小时一轮,不到50行代码.(效率低的原因应该是京东有一些限制.还在找解决办法,愁.)

    中间还写了两个秒杀软件,除了 QR CODE 没找到现成的第三方包.其他码起来超顺畅.

    (PS:数据我都是直接简单转成 JSON 存硬盘..)

    整体来说熟悉以后敲代码有种愉悦感,协程超简单啊,超简单..唯一不痛快的地方就是,资料相对来说少好多.资料查起来挺累的.
    est
        10
    est  
       2015 年 6 月 7 日
    @1314258 用gevent呀。
    warlock
        11
    warlock  
       2015 年 6 月 8 日
    @WildCat HN 是什么网站啊?
    xiaocsl
        12
    xiaocsl  
       2015 年 6 月 8 日   1
    6666666666
    爬京东的找到原因了,瓶颈在路由.渣路由扛不住大量的数据包吞吐量.
    网线直插电脑.效率猛增10倍.初始化 40 分钟左右,初始会完以后,遍历一次京东自营商品当前价格只需要6分钟..
    这次的平静像是网卡承受不了数据包的吞吐量..如果网卡再好点,效率还能更高点.
    guotie
        13
    guotie  
       2015 年 6 月 8 日
    golang
    13k
        14
    13k  
       2015 年 11 月 17 日
    @xiaocsl 最近也打算用 go 搞搞这个,能分享一下或者搜索关键词么?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2982 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 69ms UTC 06:38 PVG 14:38 LAX 23:38 JFK 02:38
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86