1
jason52 2014-11-11 21:56:34 +08:00
深度优先?广度优先?
布隆过滤器? 题目没说清楚,没法下手啊 |
2
blond OP @jason52 哦,不好意思,是广度优先,在爬虫爬取url的过程中自动发现现有url库中没有的url,但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢
|
3
Melodic 2014-11-12 19:56:22 +08:00
另设path关键字,域名+path分层级比对,没有就加入?
|