with open("corpus.jsonl","r") as rd: for line in tqdm(rd.readlines()): line=line.strip() obj=json.loadsline) _id=obj["id"] id2ent[_id]=obj 这个代码怎么写能让他跑得更快

with open("corpus.jsonl","r") as rd: for line in tqdm(rd.readlines()): line=line.strip() obj=json.loadsline) _id=obj["id"] id2ent[_id]=obj 这个代码怎么写能让他跑得更快
1 yucongo Sep 19, 2022 |
2 passerby233 Sep 19, 2022 for line in rd: line = line.strip('\n') |
3 killva4624 Sep 19, 2022 readlines 会一次性把所有行读进去,换逐行读取。 |
4 zxCoder OP @killva4624 全读内存里不是会更快吗 |
6 LindsayZhou Sep 19, 2022 如果性能瓶颈在 json 解析的话,用 ujson: https://github.com/ultrajson/ultrajson 看 fastapi 的时候找到的库。 |
7 renmu123 Sep 20, 2022 起多进程,然后内容平分给每个进程来处理 |