需要对万行级别的 Excel 进行关键字 ETL,哪种方向靠谱? - V2EX
Kamitora

需要对万行级别的 Excel 进行关键字 ETL,哪种方向靠谱?

  •  
  •   Kamitora Nov 7, 2019 2302 views
    This topic created in 2402 days ago, the information mentioned may be changed or developed.

    看上去很简单的需求

    给我的数据源是几个万行级的 Excel 和一个 Word ( Spotfire )导出的 CSV,从中提取出有用的关键字,并判断每一行的第一个单元格内是否存在这些关键字。

    我觉得不行..

    上级给我的建议是通过一些 Excel 公式去解析

    • 首先我不会 Excel 公式
    • 其次上个人留下的公式我看了下完全没有想去学这个的欲望。

    我的几个想法

    • C# 方向
    • Python 方向
    • VB 方向

    然而以上三个在这方面都没有经验,哪个上手比较快且靠谱?我盲猜一个 C#,还有其他方法的话请各位指教,谢谢。

    13 replies    2019-11-08 10:41:09 +08:00
    qsnow6
        1
    qsnow6  
       Nov 7, 2019
    VBA 方向
    benjix
        2
    benjix  
       Nov 7, 2019 via iPhone
    感觉这需求 excel 公式几分钟就算完了
    TimePPT
        3
    TimePPT  
    PRO
       Nov 7, 2019
    Python + Pandas 干这事不要太爽
    Pho3nix
        4
    Pho3nix  
       Nov 7, 2019
    Python + Pandas+1
    Dabaicong
        5
    Dabaicong  
       Nov 7, 2019
    万行。。。。excel 公式就足够了。
    yesterdaysun
        6
    yesterdaysun  
       Nov 7, 2019   1
    python 比较合适, 听你的意思是要分词统计, 筛选关键词, 再做过滤统计分析啥的, python 直接全套 numpy, pandas, dataframe, sklearn 啥的, excel/csv 读取保存方便的很.

    虽然万行级听上去很多, 其实这个数量级还没到瓶颈, 瓶颈是你的需求, 如果只是直接指定关键词的筛选, 或者统计, 关联查找, Excel 公式就能搞定, 就怕要做分词, 复杂的统计等一类公式很难做的部分.

    c#,vba 感觉数据处理方面不如 python, 一步到位, 上 python 吧
    Vegetable
        7
    Vegetable  
       Nov 7, 2019
    excel 公式。
    fanzheng
        8
    fanzheng  
       Nov 7, 2019
    去学一下公式吧……
    PinkLadyMage
        9
    PinkLadyMage  
       Nov 7, 2019
    kettle
    wangkun025
        10
    wangkun025  
       Nov 7, 2019   1
    原则是:能用 excel 处理的,尽量用 excel 处理。

    你这个明显是能用 excel 处理的。
    别的办法都是浪费时间
    qwingmix
        11
    qwingmix  
    PRO
       Nov 7, 2019   1
    杀鸡焉用牛刀,我们 pandas 都是用来出来百万行级别以上数据的。
    你这个就 excel。
    没有学的欲望我教你,就去淘宝或者 excelhome 外包出去,几十块钱买个公式。
    exip
        12
    exip  
       Nov 7, 2019 via Android   1
    excel 公式都不想学,你选这三个方向哪个都比 excel 公式复杂
    lollxxox
        13
    lollxxox  
       Nov 8, 2019
    在 windows 下,65536 行内,excel 是最低成本解决方案.....除非是每日程式化工作统计(其实 vba 也足够了),另外 3 个方向都是大炮打蚊子。。。
    About     Help     Advertise     Blog     API     FAQ     Solana     5712 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 61ms UTC 02:37 PVG 10:37 LAX 19:37 JFK 22:37
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86