1
imink 2014-07-30 10:18:24 +08:00
如果自己爬虫写的话,有没有相关教程推荐呢?
|
2
qmqy OP @imink
自己写爬虫需要考虑很多问题:重复文章检测、数据存储、定时任务、定时删除等等.....我就是觉得这些加起来太耗时了,就不重复造轮子了........不过如果你有时间挑战下,可以看看这里: http://blog.csdn.net/wxg694175346/article/category/1418998 或者去搜索编程语言+爬虫,也会有很多结果的。 祝你顺利! |
3
imink 2014-07-30 10:41:27 +08:00
@qmqy 原来是汪海,这个博主年纪不大,爬虫博客写的多,我之前有看过。给楼主贴图写文章的精神鼓励。能这么认真写都挺不容易。 我去研究看看爬虫。
|
5
ccbikai 2014-07-30 11:28:13 +08:00
|
6
qmqy OP @ccbikai
1.动态加载的问题,我是通过缩短抓取周期解决(8分钟抓一次)。 2.“鼠标悬停头像上面都有加载新东西”是指? 3.目前我方案有个缺点就是没办法抓取知乎专栏,不过我用你提供的东东解决了~ 4.http://www.zhihu.com/rss,我以前也是用这个来订阅,可是有两个缺点: a.会重复出现以前看过的问题。 b.它是针对所有人的,无法做到定制化,也就是意味着你不喜欢、不关注的话题或人(太多了,相当烦人)它也会推进来,污染时间线,降低效率,这也是我放弃的最大原因。 5.我看你的博客有个新浪微博点赞脚本,其中一个半自动化的方案可以直接在邮件里点赞,不知道你这个方案能否用到这里呢?直接在rss阅读器里面点赞。 |