Python 处理 excel 表格的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
smartG

Python 处理 excel 表格的问题

  •  
  •   smartG 2019 年 12 月 5 日 via iPhone 3640 次点击
    这是一个创建于 2333 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天在处理一个表格的时候,遇到了一个很苦恼的事,表格有一列数据是用户申请日志记录(有重复的申请内容),其中有正常的申请和不正常的,不正常的大多是在正常提交的句子里随机插入数字和标点,还有一些是随机乱打的文字,一眼就能看出来,手动删除也可以,但是整个文件有 3 万多条数据,V 友们有什么好的处理方法吗

    7 条回复    2019-12-11 08:44:32 +08:00
    kokutou
        1
    kokutou  
       2019 年 12 月 5 日 via Android
    正则表达式提取出来放到另一列,然后本列内直接删除。
    最后再看看准确率如何,
    多调几次,然后整列删除。
    TimePPT
        2
    TimePPT  
    PRO
       2019 年 12 月 5 日
    如果没啥特别规律可循的话……抽个三五百条自己标下,然后上贝叶斯过滤器?
    factoid
        3
    factoid  
       2019 年 12 月 5 日 via iPhone
    先正则匹配一波,然后在人工查看,手工删除
    necomancer
        4
    necomancer  
       2019 年 12 月 9 日
    1. 先用正则表达式去掉包含非法字符的。
    2. 自己找出来一二百条垃圾信息,一二百条好信息,做个分类器。
    简单的流程是先做特征提取,再做个逻辑回归,或者支持向量机分类。文本特征提取的方法百度一下有很多。只是在学习的时候做过英文的垃圾邮件过滤器。中文不知道具体该咋弄……但应该有很多现成的工具吧,去 github 找找~~
    smartG
        5
    smartG  
    OP
       2019 年 12 月 10 日 via iPhone
    @necomancer 多谢老哥解答,不过迫于技术渣,只用过 Python 的一些基本库,逻辑回归听着好深奥啊
    necomancer
        6
    necomancer  
       2019 年 12 月 11 日
    @smartG 逻辑回归是个统计学习方法,sckipy, sklearn 都有现成的库。不熟悉 python 的话,其他很多语言比如 R, matlab, mathematica 啥的也都有实现。
    necomancer
        7
    necomancer  
       2019 年 12 月 11 日
    刚搜了一下,excel 也有人做逻辑回归。只要把你需要处理的信息文本提取特征,也就是转成一堆数字就行。这个得去网上找点啥类似 word2vec, 结巴分词啥的,貌似 pip install jieba word2vec 就能装,调用也挺简单,随便找个博客看看应该简单用起来没啥问题。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1342 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 38ms UTC 17:16 PVG 01:16 LAX 10:16 JFK 13:16
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86