求1牛逼网站爬取框架

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4129 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT。求推荐，Lucene+、utch 太老了

爬取

utch

5 条回复 • 1970-01-01 08:00:00 +08:00

marchtea

2013-11-22 23:39:40 +08:00

关注,同求解答

9hills

2013-11-22 23:48:30 +08:00

定向抓取，问问Spider的RD就好了。

不过自己搞的话量不大的用Scrapy不错，有个参考
https://github.com/gnemoug/distribute_crawler

用Mongodb做存储，Redis做分布式队列

binux

2013-11-23 00:13:26 +08:00

我开源一个吧，特性：
* web方式写脚本+调试（甚至支持webdav通过外部编辑器编辑）
* web管理查看进度，调整抓取速度，异常监控（用于监控模板变化）
* 脚本支持定时，完全的抓取控制
* 多种调度方式（时间，etag，前链特殊标记调度）
* 单机或分布式部署方式
* 支持多种底层存储方式，多种QUEUE方案，多下游

richiefans

2013-11-23 00:39:37 +08:00

@binux 太支持了

jiankangxin

2014-01-20 11:09:02 +08:00

最后自己写了个简单的spider