数据源是从华为 XDR 导过来的,每天数据量大概 3.5TB ,目前想从中过滤出一些有用信息(方法是限定大类 ID 、小类 ID ),我用的是 shell 脚本去执行:
!/bin/bash
work_dir=dirname $0
cd ${work_dir}
my_log=count_103.log
LANG=C
my_cOnf=ls -l /ftp/S1U-103-20151013*.txt|awk '{prnt $9}'
for x in $my_conf
do
echo $x >>$my_log
awk -F "|" '{if ($24 =="8" && $25 == "162") print $0}' $x >>$my_log
done
目前脚本跑的情况来看,速度非常慢,两天只过滤出了 90M 左右的数据(预测过滤出的数据量应该在 GB 级别),想问一下有没有更好更快的方法去实现对文本数据的过滤?
