
1 14 Aug 23, 2014 via Android 你想的差不多了,现在可以去写代码了… |
2 meteor2013 OP |
3 imn1 Aug 23, 2014 数据存取你想得也差不多了 但分析你需要拓展一下视野,建议看看NumPy、SciPy、matplotlib、ETS、pandas等等 Python科学计算 http://hyry.dip.jp/tech/book/index/scipynew 其作者也活跃于这里和豆瓣 不要看到科学计算就以为是数学,例如我熟悉的pandas,自己也常用于文字分析 |
4 meteor2013 OP @imn1 谢谢哥们。说得太了好了。 本人新手。开始学Python,不过这段时间越学越有疑问:到底Python是干嘛的?? 科学计算,还是编程做产品?? 如果是科学计算,是不是用iPython玩玩就够了, 如果是编程做产品,是不是就要用django之类的东西??? |
5 MarioLuisGarcia Aug 23, 2014 via Android time to code now |
6 imn1 Aug 23, 2014 @meteor2013 不能也不该定性python就是干什么的,虽然目前看到web、服务器和科学计算方面比较多 目前只能说py做客户端图形界面比较麻烦 我写py不是为了吃饭的,所以不太专,我写了很多CLI的脚本帮我处理日常用电脑使用,例如我写了个小脚本用于把分散在不同地方的文档自动归类,自己手工腾挪估计没半个月做不完,写个C什么的还编译来运行也不实际,python就恰巧,随时改改就能用了~ |
7 ZavierXu Aug 23, 2014 你觉得Python能做什么, 他就能做什么.... time to code now |
8 frankzeng Aug 23, 2014 我觉得你可以处理完数据再入数据库,python用来处理数据爽歪歪的,谁用谁知道。你把处理完的数据存进数据库,再做个页面就行了,搞什么图形界面。 |
9 meteor2013 OP @frankzeng 你的意思就是分两个步骤: 1. 处理数据,存入数据库 2. 做个页面显示。 听起来我也觉得很合理,但有一个问题在步骤1. 我是用iPython这样的工具来处理数据好呢?http://ipython.org 还是在像Sublime一样的开发工具中写代码来处理数据呢? |
10 frankzeng Aug 23, 2014 linux下就用vim,windows就用notepad++,用啥工具不重要,重要的是处理的算法,几十G的数据如果没有优化,跑不完的。 |
11 meteor2013 OP |
12 Zuckonit Aug 23, 2014 @meteor2013 不一定存在一个数据库里 |
13 likuku Aug 24, 2014 @meteor2013 50G也算「大」?如果只是逐行读取的,使用纯文本保存和塞数据库没啥本质区别,前者还更简单。 |
14 likuku Aug 24, 2014 @meteor2013 hadoop ?你想从50G里全部过滤一遍,捞某个字段,还要限制在很短时间内么?你物理机器很多么?要这么干的话,hadoop适合。 |
15 mckelvin Aug 24, 2014 可以尝试下MapReduce框架DPark https://github.com/douban/dpark 安装配置都非常简单。数据有50G,而单机内存只有8G这种事情不需要使用者担心。把数据放在文件系统里,写简单的Python代码即可,处理完毕之后的数据体积不大可以考虑在ipython上用numpy, scipy, pandas, pylab 等库做分析和可视化。 |
16 ruoyu0088 Aug 25, 2014 我觉得可以先试试HDF5文件格式。 如果是类似CSV文本之类的文件,可以用pandas分段读取,然后将DataFrame写入HDF5文件。分析步骤要看你做怎样的分析了。 |
17 happywowwow Aug 25, 2014 可视化最近看到python的urwid库,不知道合不合要求 |