
去找磁盘下所有指定扩展名的文件,打开文件去找指定规则的内容,然后生成一个报表。 如果文件特别多要如何处理(考察多线程以及分布式)。
threading 和 multiprocessing 哪个更适合呢?
1 jones2000 2022-03-16 22:30:41 +08:00 瓶颈不在读文件, 瓶颈是你合并报表程序的处理能力, 假如是分布式 1 次读几百万个文件,1s 发送 1T 的数据过来, 你生成报表的程序能顶的住吗? |
2 antipro 2022-03-16 22:34:06 +08:00 via Android 哪类磁盘 1 秒读 1T ?我觉得读取本身不需要多线程。 |
4 zhouAndy 2022-03-16 22:43:32 +08:00 这个题考察的点 很基础 读文件的瓶颈在磁盘的 IO 上, 上多线程并不管用,,,文件读完后的处理上多线程才有意义 |
5 hallDrawnel 2022-03-16 23:05:07 +08:00 如果从多个磁盘读写会有差异 |
6 mhycy 2022-03-16 23:13:59 +08:00 需要看目标磁盘的结构决定是否多线程 如果是磁盘,单线程效率远高于多线程 软件本身可以多线程实现异步队列来做后续处理 但读取前端受限于 HDD 只能单线程操作,这是原理决定的 如果是 NVME ,多进程,或者异步 IO |
7 mhycy 2022-03-16 23:14:43 +08:00 接上补充,SATA SSD 需要考虑并发性能,这货的承载力没有 NVME 盘那么高 |
8 ClericPy 2022-03-16 23:32:41 +08:00 说的有点像读取百万小碎文件时候的瓶颈如何解决的事情, 联想到现公司被一句 cat /xxxxx/xxxxxxxxx/**/* |gzip -d 处理二十万碎文件整的真叫死去活来了 多进程把 n 个核心都用上(而不是每个文件开一个进程, 那切换开销大到吓人)有点用, 多线程流式读文件应该也有点用毕竟从磁盘读入内存 IO 瓶颈也挺大. 脑子里蹦出 HDF5 / mmap / 零拷贝 啥的, 但是想不起来有没有关系 |
10 vance123 2022-03-17 01:02:46 +08:00 via Android 我有一次用 Python 处理百万个 html 文件,远远达不到 IO 瓶颈,解释性语言的开销太大了 |
11 westoy 2022-03-17 01:22:08 +08:00 |
12 biubiuF 2022-03-17 12:40:23 +08:00 多线程查找,读取的话瓶颈在 io 单线程效率最高,数据处理再多线程,扇入扇出模型 |