在写一个小程序,目的是采集最新的商品列表,通过scrapy定时采集,但是遇一个问题,从商品发布到最后被抓取到会有一段时间的间隔,希望能尽量缩短这个时间差,还有哪些办法能做一些优化呢? 商品从发布到前台缓存更新有一定的时间,缓存用的MemCache,目前时间设定为一分钟扫描一次。
补充: 比如某个商品14:35发布更新了,我的爬虫14:38才会抓取到(这期间是每分钟整点都在抓取的)但是在我抓到之前,已经有人把商品抢拍了。。。也就是他的爬虫可能在14:36就已经抓到了。很纳闷,该如何优化才能像他那样及时的得到更新呢?
补充: 比如某个商品14:35发布更新了,我的爬虫14:38才会抓取到(这期间是每分钟整点都在抓取的)但是在我抓到之前,已经有人把商品抢拍了。。。也就是他的爬虫可能在14:36就已经抓到了。很纳闷,该如何优化才能像他那样及时的得到更新呢?
