请教，处理上亿条日志，每条 10+列，单机使用 Python 如何很好的处理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

This topic created in 3221 days ago, the information mentioned may be changed or developed.

Python

日志

请教

处理

11 replies 2017-07-03 12:23:36 +08:00

QQ2171775959

Jul 1, 2017

找个好点的服务器就可以了。多核心多线程就可以。。例如 16 核 32 线程的。

ldbC5uTBj11yaeh5

Jul 1, 2017

这种场景 awk 完爆 python

xiaomacai

Jul 1, 2017

补充：从提高效率的角度讲，使用 python 什么库或者什么语法糖更好一些

decken

Jul 2, 2017 via iPhone

这种量如果逻辑不复杂，不用太多考虑语言性能问题

F281M6Dh8DXpD1g2

Jul 2, 2017 via iPad

用 pyspark 很轻松的

laxenade

Jul 2, 2017

spark+1

herozhang

Jul 2, 2017 via iPhone

用 pypy 跑 python 脚本

sdshiyan2005

Jul 2, 2017

dask?

beginor

Jul 2, 2017 via Android

Spark+1

fiht

Jul 2, 2017

建议二楼的方法：使用 AWK+grep+管道，从运维工程师的角度来思考这个问题方便很多。
楼上刷 spark 有点不大好，楼主要是会 spark 就不会来这里问了....现学 spark 显然是来不及的。
关于效率其实一次性处理的东西和效率也没什么关系，cat today.log | awk '{print $3}' >> column3.log，一般也没有多少效率上的问题，使用 Python 还得处理内存上的东西。
如果硬要考虑 py 的话，你解决了大文件读取时候内存问题就好了，multiprogress 倒也不大好用，处理大文件时候很大以部门场景是内存不如文件大，一次 load 进来内存就得 gg。
用 AWK 吧，本来就是为了解决这个问题设计的。
另外，说到日志想安利一发 ELK 框架，做起统计报表什么的很能忽悠人

wangchen

Jul 3, 2017

这个可能会帮到你： http://www.rankfocus.com/use-cpu-cores-linux-commands/。