V2EX diaoleona 的所有回复 第 1 页 / 共 1 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    diaoleona    全部回复第 1 页 / 共 1 页
回复总数  10
2014-08-21 22:49:35 +08:00
回复了 endoffight 创建的主题 Python 求助正则表达式牛人帮忙解决一下
为何不用xpath
2014-08-01 11:11:21 +08:00
回复了 arbipher 创建的主题 酷工作 [上海徐汇]技术创业团队求全栈工程师一枚
要求iOS方向,
却不能在移动设备上查看gmail,
不如先招个人让你们移动设备上先能看gmail?
scrapy or scrapyd
2014-06-03 10:58:44 +08:00
回复了 zrq495 创建的主题 求职 [求实习]暑假 + 大四
有过在线做题数据分析的经验非常好,已经把你简历转发给HR.请耐心等待
2014-06-03 10:21:32 +08:00
回复了 JackyXiong 创建的主题 Python Python 的文档转换模块 docutils 的使用?
2014-05-27 14:20:08 +08:00
回复了 hao1032 创建的主题 Python python 如何获取一个网址的标题??
@dbow 不能同意更多
2014-02-27 16:32:02 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
@yakczh
类似这种页的话一个parser专门把ur,商品信息等可以xpath的信息保存下来,
另外一个parser来抽取相关评论,翻页什么的不是问题,储存时候 评论 和这个商品的ID联系起来.
2014-02-27 15:22:48 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
@yakczh
'多个页面都可能有数据,每个页面有多个数据区域的话,还不知道怎么写'
没看明白你具体问题是什么?
如果担心多个页面多个数据 区域有相同的的数据的话,把你需要的数据区域都爬下来hash一下或者放在一个专门判重redis也可以在scrapy 里的中间件加一道判重过程.
最好你发个子页面的例子给看一下
2014-02-26 13:59:11 +08:00
回复了 WeeTom 创建的主题 上海 上海 明道 www.mingdao.com 招 iOS 工程师
来黑你们公司的么??
2014-02-26 12:22:16 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
看你怎么设计了,我之前是爬到的response.url和 web content压缩一下放在一个数据库里,然后根据需求再做不同的抽取
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2591 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 18ms UTC 07:36 PVG 15:36 LAX 23:36 JFK 02:36
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86