使用 scrapy 框架爬一些数据,大概上千万,但是是不是的会出现问题,导致中断,不知道有没有什么办法能够实现断点续爬。爬的类型就是典型的新闻列表,然后进入详情页抓取新闻内容。
感谢
1 NoOneNoBody 2024-09-18 13:47:24 +08:00 你没有记录已经爬过的 link 么?重启任务得到 link 的时候去掉爬过的就是了 |
![]() | 2 Phant0m 2024-09-18 14:04:58 +08:00 Jobs: pausing and resuming crawls https://docs.scrapy.org/en/latest/topics/jobs.html |