一个筛选字符的问题

我有这样一个csv 格式的文件，类似如下数据：

wintonzhang,kobebryant
wintonzhang,thescript
wintonzhang,tomhanks
wintonzhang,VictoriaJustice
mynte,shek0309
shek0309,aboluowang
shek0309,aiww
shek0309,aoi_sola
shek0309,AshlynnBrookeX
shek0309,BarackObama
mema55159,13super10
mema55159,18_asooma
mema55159,59arb
mema55159,121_remo
mema55159,123Kyuna
mema55159,222amam

我想做的是，如果一个词在全文中只出现过一次，那么就把这个词所在的行删除。

实际需要处理的数据有十几万行，在 Excel 中有办法处理，但速度实在太慢了。

不知道还有什么简单易行的方法。

谢谢！

shek0309

mema55159

wintonzhang

11 replies 1970-01-01 08:00:00 +08:00

wwwjfy

Feb 6, 2013

这类处理awk应该比python更合适

alexrezit

Feb 6, 2013

@wwwjfy
一打开贴子就看到你这句... 不过... 查了查文档, 咱还是试试吧... 楼主你要的是这个不?
http://gist.github.com/AlexRezit/4722511

alexrezit

Feb 6, 2013

@alexrezit
https://gist.github.com/4722511

alexrezit

Feb 6, 2013

@alexrezit
次奥...
http://gist.github.com/4722511

wwwjfy

Feb 6, 2013

@alexrezit 让人当伸手党不是什么好事.. 字符串处理python 肯定不快

另外，个人感觉写得太复杂了，没必要用re，csv这种简单的文件结构就直接一行读用逗号split就行
ps, string.join已经deprecated了，推荐'\n'.join

alexrezit

Feb 6, 2013

@wwwjfy
我根本不会 Python... =, =

ooof

Feb 6, 2013

@alexrezit 非常感谢，我在试着运行你写的代码！

我先找少量的数据，看代码的输出正确了，才读那个大文件，然后还不知道会怎么样 ... 大概需要一些时间吧。

@wwwjfy 真是很悲剧，经常想鼓捣些东西，但是又没有恒心和耐心把代码学的哪怕是基本熟悉一点，经常是要用的时候，才胡子眉毛一把抓 ... 汗 ... 也非常感谢你的补充修改！

alexrezit

Feb 7, 2013

@ooof
提醒你一下... 这个会占用很多内存, 因为是把数据全部读取进去再比较. 我不会 Python 瞎写着玩儿的. =v=

ooof

Feb 7, 2013

@alexrezit 恩，已经体会到了:

十几万基本 Python 就停止下来了；后来换到1000条左右，会出一个结果。

在 python-cn 讨论组，有一个方法，下面是部分代码，但我还没有运行它：

counts, linenos = {}, {}
sd = counts.setdefault # 节省attribute lookup，不知道有没有必要
for lineno, line in enumerate(lines):
words = line.split(',') # 不能处理单词内含逗号的情况
for wd in words:
if wd in counts:
# 出现过2次了，无视
continue
if wd in linenos:
# 出现过一次了，剔除
counts[wd] = None
del linenos[wd]
else:
# 记录行号（这个是0-based）
linenos[wd] = lineno
return linenos

stillzhl

Feb 7, 2013 via Android

可以试试collections.Count，专门用来计数的，在手机上看帖，没办法写代码

ooof

Feb 7, 2013

@stillzhl ，谢谢。

在 Twitter 数据的收集和处理（3） http://book.51cto.com/art/201203/325328.htm 看到有 collections.Counter 应用的介绍。