Python 如何从一个文本中取每一行到另外一个文本中匹配

假设有 A/B 两个文本用 python 如何先从 A 中取出第一行然后到 B 文本中每一行去匹配,如果匹配中了就啥也不干继续从 A 文本中取下一行匹配,如果在 B 文本中每一行都没匹配到,就输出 A 文本中第一行的数据然后继续去 A 文本中下一行去匹配
研究了一会发现不能达到自己的预期,特来请教.谢谢!

文本

一行

匹配

Python

33 replies 2019-11-22 13:13:28 +08:00

ClericPy

Nov 21, 2019

需要掌握打开文件按行读取的 file.readline()
需要用到调整文件读取指针位置的 file.seek(0)
然后迭代器开几个 for 循环的函数, 共享已经打开的 A 和 B 俩文件就好了, 一般是在一个 with 下面俩文件对象, 然后写一个函数, 传参 line_text, file_object, 因为是迭代器, 内存占用还算可以接受

按你提的方式, 性能也高不到哪去了, 不过比现写个前缀树要省心多了

ClericPy

Nov 21, 2019

忘了 file_object 可以直接丢到 for, 不需要 readline...

cherbim

Nov 21, 2019 via iPhone

这不很简单，先 a.readline()，然后循环对比 b.readline()

cherbim

Nov 21, 2019 via iPhone

你的需求是不是把 a 中未在 b 中出现的每一行输出？

zhuzhuaini

Nov 21, 2019

@ClericPy 不是很理解你说的,,,我学的还不够~

zhuzhuaini

Nov 21, 2019

@cherbim 是的 A 中未在 B 出现的那一会就打印出现了就啥也不干继续从 A 中取一行继续去 B 匹配

zhuzhuaini

Nov 21, 2019

@ClericPy 刚学 python 先不去考虑性能啥的~~~

ipwx

Nov 21, 2019

with open('B.txt', 'r') as f:
....B_lines = set(f)
with open('A.txt', 'r') as f:
....for line in f:
........if line not in B_lines:
............print(line)

cherbim

Nov 21, 2019

第一感觉就是新手，果然是新手。。。。
@zhuzhuaini 给你个代码吧，下面的代码，按行读取 1.txt 内容，然后按行与 2.txt 中比对，若不存在就输出，继续读取 1.txt
~~~
with open("1.txt", "r") as f:
while True:
i = f.readline()
if i:
with open("2.txt", "r") as file:
while True:
j = file.readline()
if j:
if i == j:
break
else:
print(i, end="")
break
else:
break
~~~

ClericPy

Nov 21, 2019

@zhuzhuaini #7

https://paste.ubuntu.com/p/W6Qq4mtjfv/

如果是面试题, 这段代码基本涵盖所有考点了, 但是很多小细节有炫技嫌疑...

1. with 打开文件保证安全关闭
2. seek 方法保证只需要打开一次文件 B 不需要多次打开
3. 对文件对象 A B 使用 for 循环, 节省内存
4. for 循环的 else 用法
5. with 上下文一次打开多个文件

cherbim

Nov 21, 2019

你先试着用 readline()，完整的输出一个文件（一行一行输出），理解了这个，你的需求就很容易解决了

nznd

Nov 21, 2019

with open('1.txt', 'r') as f, open('2.txt', 'r') as ff:
a = set(f)
b = set(ff)
print(a-b)
简单粗暴（

nznd

Nov 21, 2019

@nznd #12 缩进丢了但是应该看的出来吧（狗头

zhuzhuaini

Nov 21, 2019

@cherbim 刚刚在调试你传的代码,,,光缩进就调整了一段时间, 执行之后报错
i = f.readline()
UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 15: illegal multibyte sequence

zhuzhuaini

Nov 21, 2019

@ClericPy 谢谢不是面试题纯是自己有这个需求~

zhuzhuaini

Nov 21, 2019

@nznd 太简单粗暴了,导致看不懂谢谢老哥了哈~~~~

nznd

Nov 21, 2019

@zhuzhuaini #16 ![]( https://washingpatrick.cn/wp-content/uploads/2019/11/2019-11-21_17-13-53.png) 就是集合的差运算高中数学（

zhuzhuaini

Nov 21, 2019

@cherbim 谢谢我加入了 encoding='UTF-8' 这个参数后就不报错了虽然不知道为啥要加这个-.-

zhuzhuaini

Nov 21, 2019

@nznd 听到数学,,我哭辽

miemiekurisu

Nov 21, 2019

两个 readlines 成 2 个 list，set 一下成 2 个集合，把两个集合 intersection 一下，就是共有部分，要知道具体哪几行就拿着 intersection 出来的结果每一个去 iteration 一遍第二个文本

alex321

Nov 21, 2019

提取的是 A 中有的，B 中没有的。。

a, b = [], []

with open('A.txt', 'r') as f:
....a = f.read().splitlines()
with open('B.txt', 'r') as f:
....b = f.read().splitlines()

print(list(set(a).difference(set(b))))

完事儿。

cherbim

Nov 21, 2019

@zhuzhuaini 你的文件是 UTF-8 编码，然后估计你的 ide 默认 gbk，然后有些字符不能解码，需要指定 utf 解码

JerryCha

Nov 21, 2019

@nznd 这可太暴力了

LuJason

Nov 21, 2019

@nznd 万一是几百万行的数据，这可就要算到明年了（狗头

bequt

Nov 21, 2019

如果是要结果的话, 直接用 wps excel 马上就得了

bequt

Nov 21, 2019

进行查重就的结果了

layorlayor

Nov 21, 2019

用一个特殊的字符把 B 文件连成一行，剩下就是一个 AC 自动机啦

snoopygao

Nov 21, 2019

这个东西我刚研究过，首先在 A 中取出第一行，然后使用字符串对比就行
with open file_b as b:
b_cOntent= b.read()
with open file_a as a:
a_cOntent= a.readline()
if a_content in bcontent:
print('this line in b')
//此处需要循环读 a 文件的内容，b 文件最好别太大，要不然内存耗不起

robinlovemaggie

Nov 21, 2019

@zhuzhuaini
你好忘了说你的预期是什么～

nccer

Nov 22, 2019 via iPhone

你可以对 ab 两个文件分别排序，然后对 ab 两个文件做一个归并排序，做排序的时候把重复行找出来。

XavierXJ

Nov 22, 2019 via iPhone

什么学校？？？高中学 Python

levelworm

Nov 22, 2019 via Android

我琢磨着数据量不大的话导入到 sqlite 里头做查询怎么样。。。

zhuzhuaini

Nov 22, 2019

@miemiekurisu
@levelworm
@XavierXJ
@nccer
@robinlovemaggie
@layorlayor
@bequt
@zh584728
@alex321
@miemiekurisu
感谢以上所有的大佬提供的方案......我最后使用了
@ClericPy 这位大佬的代码...从昨天下午到刚刚一直在调试,,,最后发现是 for 下接了个 else,,,我一直在 if 下接 else 导致一直不对,现在已经达到了我的心理预期....
再次感谢以上所有大佬!!谢谢!!