一些背景信息:
-500w的文本数据(字母、数字,汉字,特殊符号);
-每条文本数据格式较固定,例「*张小明*18800008877*深圳*」;
-「*」可能包含和手机号位数一样的数字;
-「姓名」里面的字也有可能和「城市」名字重合;
-500w的文本数据(字母、数字,汉字,特殊符号);
-每条文本数据格式较固定,例「*张小明*18800008877*深圳*」;
-「*」可能包含和手机号位数一样的数字;
-「姓名」里面的字也有可能和「城市」名字重合;

1 gamexg Nov 1, 2013 条之间的分隔呢? 如果有的话,正则应该能提取出来。 姓名里面不会含有数字;手机号码有一定的位数,开头也是固定的。 |
2 bingwenshi Nov 1, 2013 awk |
3 slixurd Nov 2, 2013 500w条不自己写个c++小程序来跑?python什么的也行.. awk如果会用更好,直接写bash |