学 Python 遇到的问题情况,不知道怎么处理。 求解决方案。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
meteor2013

学 Python 遇到的问题情况,不知道怎么处理。 求解决方案。

  •  1
     
  •   meteor2013 Aug 23, 2014 4239 views
    This topic created in 4267 days ago, the information mentioned may be changed or developed.
    目前有很多数据50G以上。准备把它存到数据库中,然后进行分析,处理,最后可视化。

    50G数据 -> 存数据库 -> 处理,分析数据 -> 可视化数据

    请问用Python怎么处理好呢?

    刚看了一下iPython (http://ipython.org/),好像可以导入数据,然后可视化。但感觉不是很好

    是不是可以先把数据存入数据库(mySQL,或者Hadoop什么的),然后结合django,在Sublime里面写程序处理分析数据, 再结合d3.js库什么的可视化?

    请大家帮忙。本人新手,还不知道怎么做比较好?

    谢谢
    19 replies    2014-09-04 11:05:15 +08:00
    14
        1
    14  
       Aug 23, 2014 via Android
    你想的差不多了,现在可以去写代码了…
    meteor2013
        2
    meteor2013  
    OP
       Aug 23, 2014
    @14 那种方案比较好呢?

    如果第一种在iPython里面的话。其实不需要写多少。
    第二种的工作量到是不小的。
    imn1
        3
    imn1  
       Aug 23, 2014
    数据存取你想得也差不多了
    但分析你需要拓展一下视野,建议看看NumPy、SciPy、matplotlib、ETS、pandas等等

    Python科学计算 http://hyry.dip.jp/tech/book/index/scipynew
    其作者也活跃于这里和豆瓣

    不要看到科学计算就以为是数学,例如我熟悉的pandas,自己也常用于文字分析
    meteor2013
        4
    meteor2013  
    OP
       Aug 23, 2014
    @imn1


    谢谢哥们。说得太了好了。
    本人新手。开始学Python,不过这段时间越学越有疑问:到底Python是干嘛的??

    科学计算,还是编程做产品??

    如果是科学计算,是不是用iPython玩玩就够了,
    如果是编程做产品,是不是就要用django之类的东西???
    MarioLuisGarcia
        5
    MarioLuisGarcia  
       Aug 23, 2014 via Android
    time to code now
    imn1
        6
    imn1  
       Aug 23, 2014
    @meteor2013 不能也不该定性python就是干什么的,虽然目前看到web、服务器和科学计算方面比较多
    目前只能说py做客户端图形界面比较麻烦

    我写py不是为了吃饭的,所以不太专,我写了很多CLI的脚本帮我处理日常用电脑使用,例如我写了个小脚本用于把分散在不同地方的文档自动归类,自己手工腾挪估计没半个月做不完,写个C什么的还编译来运行也不实际,python就恰巧,随时改改就能用了~
    ZavierXu
        7
    ZavierXu  
       Aug 23, 2014
    你觉得Python能做什么, 他就能做什么.... time to code now
    frankzeng
        8
    frankzeng  
       Aug 23, 2014
    我觉得你可以处理完数据再入数据库,python用来处理数据爽歪歪的,谁用谁知道。你把处理完的数据存进数据库,再做个页面就行了,搞什么图形界面。
    meteor2013
        9
    meteor2013  
    OP
       Aug 23, 2014
    @frankzeng

    你的意思就是分两个步骤:

    1. 处理数据,存入数据库
    2. 做个页面显示。

    听起来我也觉得很合理,但有一个问题在步骤1.
    我是用iPython这样的工具来处理数据好呢?http://ipython.org
    还是在像Sublime一样的开发工具中写代码来处理数据呢?
    frankzeng
        10
    frankzeng  
       Aug 23, 2014
    linux下就用vim,windows就用notepad++,用啥工具不重要,重要的是处理的算法,几十G的数据如果没有优化,跑不完的。
    meteor2013
        11
    meteor2013  
    OP
       Aug 23, 2014
    @frankzeng

    1. 意思是没有必要在iPython中处理了?
    2. 还有就是数据库的话,这么大的数据量,MySQL抗得住吗?需要用Hadoop吗?
    Zuckonit
        12
    Zuckonit  
       Aug 23, 2014
    @meteor2013 不一定存在一个数据库里
    likuku
        13
    likuku  
       Aug 24, 2014
    @meteor2013 50G也算「大」?如果只是逐行读取的,使用纯文本保存和塞数据库没啥本质区别,前者还更简单。
    likuku
        14
    likuku  
       Aug 24, 2014
    @meteor2013 hadoop ?你想从50G里全部过滤一遍,捞某个字段,还要限制在很短时间内么?你物理机器很多么?要这么干的话,hadoop适合。
    mckelvin
        15
    mckelvin  
       Aug 24, 2014   1
    可以尝试下MapReduce框架DPark https://github.com/douban/dpark 安装配置都非常简单。数据有50G,而单机内存只有8G这种事情不需要使用者担心。把数据放在文件系统里,写简单的Python代码即可,处理完毕之后的数据体积不大可以考虑在ipython上用numpy, scipy, pandas, pylab 等库做分析和可视化。
    ruoyu0088
        16
    ruoyu0088  
       Aug 25, 2014
    我觉得可以先试试HDF5文件格式。

    如果是类似CSV文本之类的文件,可以用pandas分段读取,然后将DataFrame写入HDF5文件。分析步骤要看你做怎样的分析了。
    happywowwow
        17
    happywowwow  
       Aug 25, 2014
    可视化最近看到python的urwid库,不知道合不合要求
    lu18887
        18
    lu18887  
       Aug 25, 2014
    @likuku 可视化,没有经过数据库的统计分析语句,程序写起来还是蛮困难的!
    楼主你是要做一套完整的程序还是单纯的要处理这些数据呢?
    目的不同,方法不同
    no13bus
        19
    no13bus  
       Sep 4, 2014
    @frankzeng 你处理数据用到了哪些库?大致常用的是哪些处理方法呢?请教下
    About     Help     Advertise     Blog     API     FAQ     Solana     3215 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 52ms UTC 12:58 PVG 20:58 LAX 05:58 JFK 08:58
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86