Python 支持的读取速度最快的文件格式是什么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
chenminghit
V2EX    Python

Python 支持的读取速度最快的文件格式是什么?

  •  
  •   chenminghit 2017-06-30 17:16:40 +08:00 6268 次点击
    这是一个创建于 3032 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我想用 python 对一堆数据进行处理,之后供 tensorflow 使用。不知道应该将这堆数据转成什么格式(最好是跨平台的),才能读取速度最快。
    这些数据大小约 200G ( matlab 的 mat 格式),是由很多很多的小文件组成的,里面的内容是格式化的数字和字符。
    17 条回复    2017-07-02 11:25:37 +08:00
    chenminghit
        1
    chenminghit  
    OP
       2017-06-30 17:21:23 +08:00   1
    HDF5 怎么样? google 到了这个。
    aaronzjw
        2
    aaronzjw  
       2017-06-30 17:33:55 +08:00 via Android
    了解下 hadoop?
    chenminghit
        3
    chenminghit  
    OP
       2017-06-30 18:07:17 +08:00
    @aaronzjw hadoop 稍微了解一点,这个学习成本太高了,我应该不需要。
    0ZXYDDu796nVCFxq
        4
    0ZXYDDu796nVCFxq  
       2017-06-30 18:56:11 +08:00 via iPhone
    二进制应该是最快的,如果设计良好。
    aaronzjw
        5
    aaronzjw  
       2017-06-30 18:56:18 +08:00 via Android
    @chenminghit 不懂啊,没遇到过这么大的文件读取。 能不能压缩一下
    aaronzjw
        6
    aaronzjw  
       2017-06-30 18:56:57 +08:00 via Android
    @chenminghit 很多小文件,应该压缩不了多少。。。
    AX5N
        7
    AX5N  
       2017-06-30 19:14:23 +08:00
    重点是数量有多少,得看是瓶颈在 i/o 还是在 python。
    如果在 i/o 你就提前合并成一个文件(举个例子,例如 iso 文件),然后每次读取一定的大小到内存就可以了。
    如果数量太大太大的话,python 光是调用函数消耗就特别大,纯 python 我也不知道有什么办法。你可以试试 for 一个千万位的数字,然后再在循环里进行一次乘法操作,慢到你想吐血(1s 左右的时长)。
    comzyh
        8
    comzyh  
       2017-06-30 19:21:47 +08:00 via Android
    HDF5 是我见过最好的

    其他的可以考虑 pickle, protobuf
    ruoyu0088
        9
    ruoyu0088  
       2017-07-01 07:36:39 +08:00
    用 h5py 读写 HDF5。
    chenminghit
        10
    chenminghit  
    OP
       2017-07-01 11:46:43 +08:00
    @AX5N 文件数量大概是 3000*2000 这么多,每个文件大概 30k 这么大。我需要先用 python 预处理一遍文件,把我需要的内容提取出来,以便 tensorflow 调用。这个过程肯定要删掉很多数据,并且做一些归一化。预处理这个过程需要处理多长时间都无所谓,因为只需处理一遍,可以慢慢处理。主要是 tensorflow 调用那个过程要快

    看了楼上各位的回复,我觉得我就去研究一下 HDF5 吧。谢谢各位。
    zhmin
        11
    zhmin  
       2017-07-01 14:48:53 +08:00 via iPhone
    hdfs 不适合寸小文件
    chenminghit
        12
    chenminghit  
    OP
       2017-07-01 15:19:55 +08:00 via iPhone
    @zhmin 没事,我应该可以将它们拼起来,拼成大文件
    chenminghit
        13
    chenminghit  
    OP
       2017-07-01 15:20:51 +08:00 via iPhone
    @zhmin sorry,看成了 hdf5
    hsyu53
        14
    hsyu53  
       2017-07-01 18:27:32 +08:00 via iPad
    可以试试 netcdf4,built on hdf5
    chenminghit
        15
    chenminghit  
    OP
       2017-07-01 19:53:09 +08:00 via iPhone
    @hsyu53 谢谢。我学习一下
    ecloud
        16
    ecloud  
       2017-07-02 02:52:22 +08:00
    Berkley DB
    fiht
        17
    fiht  
       2017-07-02 11:25:37 +08:00
    我感觉没有什么问题啊。
    就是读取六百万个文件然后处理之后再保存下来然后丢给 TensorFlow 去处理。
    你讲处理六百万个文件速度慢一点没关系因为是一次性处理的
    那 TensorFlow 那边速度快不快得看机器配置啊 (我没实际用过 TensorFlow
    你把六百万个文件挨个读取之后保存成一个 pkl 文件,然后下次要使用的时候直接 load 进来就可以。
    搞机器学习的应该很有钱,所以不用考虑内存不足的问题
    关注一波楼主,对这个很感兴趣,只是现在没时间没设备,搞不了这个
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     980 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 18:54 PVG 02:54 LAX 11:54 JFK 14:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86