经常有人建议在 settings.py 中不使用 ITEMS_PIPLINES 里的 RedisPipline,这样提提高性能,可是如果这样做的话,分布式的意义在哪里,下次获取数据没有一个共有的数据库获取了
1 Codewj OP 有大佬可以帮忙解释一下吗 |
![]() | 2 wizardoz 2018-01-24 13:38:44 +08:00 ![]() 一脸蒙蔽的进来,一脸蒙蔽的走了 |
3 yangzhezjgs 2018-01-24 13:45:40 +08:00 问题都没说清楚。。。 |
4 Codewj OP @wizardoz 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么 |
5 Codewj OP @yangzhezjgs 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么 |
6 Codewj OP 或者说不配置的话,分布式体现在哪里 |
7 ilovebaicai 2018-01-24 15:38:32 +08:00 这个是存储数据的配置,需要。不过你可以将生成的 item 存储到任何地方:mysql,hbase,文件一类,当然也包括存到 redis。分布式并不是体现配置 ITEMS_PIPLINES,分布式是体现爬虫共享 redis 队列。 |
8 Codewj OP @ilovebaicai 理解了,谢谢哥 |
![]() | 9 beforeuwait 2018-01-25 11:34:45 +08:00 分布式应该体现在队列或者消息框架上,数据并不一定要放在一起啊 |
10 Codewj OP @beforeuwait 谢谢 |
![]() | 11 zyy1245367562 2018-01-28 10:57:24 +08:00 所谓分布式其实是人多好干活儿,通过队列利用多台机器来提高抓取速度,获取的数据如何存放,不是其根本要解决的痛点。 |
12 Codewj OP @zyy1245367562 戳到痛处了 |