大量的文本文件处理用什么语言比较好? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lynnworld
V2EX    问与答

大量的文本文件处理用什么语言比较好?

  •  
  •   lynnworld 2015-01-27 09:54:41 +08:00 8553 次点击
    这是一个创建于 3989 天前的主题,其中的信息可能已经有所发展或是发生改变。

    主要是从文本中提取信息,转换加工。。数据量挺大的,希望速度快,还要容错性高.

    第 1 条附言    2015-01-27 12:02:27 +08:00
    涉及到解析xml之类的东西,目前是java做的,感觉越来越乱》
    28 条回复    2015-01-27 14:15:16 +08:00
    vulgur
        1
    vulgur  
       2015-01-27 10:26:14 +08:00
    人生苦短,我用Python
    lululau
        2
    lululau  
       2015-01-27 10:27:15 +08:00
    最好的文本处理工具是 Perl,没有之一
    roricon
        3
    roricon  
       2015-01-27 10:32:29 +08:00
    据说是Perl
    lingo233
        4
    lingo233  
       2015-01-27 10:33:12 +08:00
    awk?
    acgeo
        5
    acgeo  
       2015-01-27 10:38:47 +08:00
    C++搞定一切!

    C++吸星大法好!!

    C++能创造其他语言!!


    哈哈哈
    princelai
        6
    princelai  
       2015-01-27 10:39:32 +08:00
    perl,sed&awk不是专门干这个的嘛
    sleeperqp
        7
    sleeperqp  
       2015-01-27 10:41:30 +08:00
    sed或者awk把
    python也可以~~
    em70
        8
    em70  
       2015-01-27 10:41:37 +08:00 via Android
    awk效率惊人,可以用来提取,给其他语言进行二次分析
    loveuqian
        9
    loveuqian  
       2015-01-27 11:15:44 +08:00
    PHP大军还有30秒到达战场????
    lxrmido
        10
    lxrmido  
       2015-01-27 11:19:57 +08:00
    PHP是最好的语言
    tini9
        11
    tini9  
       2015-01-27 11:20:33 +08:00
    ruby就挺好
    czheo
        12
    czheo  
       2015-01-27 12:04:34 +08:00
    感觉乱不是语言的问题
    lu18887
        13
    lu18887  
       2015-01-27 12:12:19 +08:00
    楼上的不要把这帖子变成月经贴好么!
    tabris17
        14
    tabris17  
       2015-01-27 12:12:34 +08:00
    大多数支持正则的脚本都没问题,看你熟悉哪个了

    资格老点的就是perl了,但是python\ruby\php都没问题
    garfeildma
        15
    garfeildma  
       2015-01-27 12:14:05 +08:00
    xml解析可以scala啊,内建xml支持
    对ms不反感的话C#也挺好
    NeoAtlantis
        16
    NeoAtlantis  
       2015-01-27 12:17:27 +08:00
    xml解析,如果单个文件不算太大的话试试python的beautifulsoup。
    Dongdong36
        17
    Dongdong36  
       2015-01-27 12:47:58 +08:00
    1L +1
    zythum
        18
    zythum  
       2015-01-27 12:49:34 +08:00
    字符串处理效率高。无疑awk
    aa88kk
        19
    aa88kk  
       2015-01-27 12:52:48 +08:00
    数据量大,xml就别解析了, 太慢。直接正则提取。
    invite
        20
    invite  
       2015-01-27 12:53:45 +08:00
    很明显,应该用C。
    xdeng
        21
    xdeng  
       2015-01-27 13:01:22 +08:00 via iPhone
    c 谁用谁知道
    whoops
        22
    whoops  
       2015-01-27 13:05:06 +08:00
    sed or awk,海量数据处理时,比起perl来,速度快的不是一个数量级
    Her0
        23
    Her0  
       2015-01-27 13:05:54 +08:00
    Python, awk,sed
    yakczh
        24
    yakczh  
       2015-01-27 13:13:21 +08:00
    你提供个样本,需求结果的数据, 然后贴一下各种语言的代码,根据运行时间和代码长短,就知道哪种语言适合
    itfanr
        25
    itfanr  
       2015-01-27 13:25:30 +08:00
    python 没有之一
    Comdex
        26
    Comdex  
       2015-01-27 13:39:38 +08:00
    golang吧,运行效率可能比脚本语言好,但又容易入门
    proudzhu
        27
    proudzhu  
       2015-01-27 13:47:21 +08:00 via Android
    perl + 1
    ray1919
        28
    ray1919  
       2015-01-27 14:15:16 +08:00
    Perl为字符串而生,xml有现成包
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5224 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 09:16 PVG 17:16 LAX 01:16 JFK 04:16
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86