如题,小弟在一家公司做爬虫,老大安排任务,让我自动完成爬虫爬取的url范围扩充,小弟经验浅薄,实在没什么好的办法了,希望各位大大指点一二,在此谢过了。

1 jason52 Nov 11, 2014 深度优先?广度优先? 布隆过滤器? 题目没说清楚,没法下手啊 |
2 blond OP @jason52 哦,不好意思,是广度优先,在爬虫爬取url的过程中自动发现现有url库中没有的url,但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢 |
3 Melodic Nov 12, 2014 另设path关键字,域名+path分层级比对,没有就加入? |