有关于目前正在做的新闻数据流程的架构-构想，大神指教!!

不知道楼主的数据源多不多哈，爬虫采集的话，200w+ 量不是很大，有需要登录或者动态渲染的页面要抓的吗？如果有的通用爬虫都搞不定，nutch 感觉不好用，可能爬虫用 python 会开发起来好一些，数据清洗之后可能不需要关系数据库存，我这边也是公司在做类似的东西，金融舆情监控系统，跟你写的这个有一些相似的地方，有机会可以交流下

linhanqiu

2018-02-24 16:01:11 +08:00

@w0000 好的，好的，那太好了

Xrong

2018-02-24 16:03:06 +08:00

文档 404 ？？？

linhanqiu

2018-02-24 16:04:36 +08:00

@w0000 数据源是挺多的，大概有三四万左右，需要登陆和动态的网站确实都是交给我们自己开发的 python 框架来解决，通用的 nutch 来解决大部分市政的新闻网站，因为他们确实没有太多反爬，哈哈。数据存储的话，之后打算放在 HBase 来做，看来我们确实有挺多相似的地方，舆情的话我们也是打算在做，做新闻舆情的东西，不过本质是差不多的哈哈，

linhanqiu

2018-02-24 16:05:36 +08:00

不好意思，刚才在修改文档，链接失效了，https://www.evernote.com/shard/s658/sh/2e40366f-70a0-45b6-8498-12acd0d653a5/02f95ff571e0f28598e84aecf85fda5f

linhanqiu

2018-02-24 16:05:51 +08:00

@Xrong 现在好了，https://www.evernote.com/shard/s658/sh/2e40366f-70a0-45b6-8498-12acd0d653a5/02f95ff571e0f28598e84aecf85fda5f

looplj

2018-02-24 16:42:39 +08:00

感觉什么都没说啊。。
以前做过类似的吧，资讯基本可以用正文抽取解决。复杂点的也可以很容易的用配置解决。
需要登录的就每个都有单独做了，这个反爬太容易了。
用 kafka 做流处理，还是很不错的。

linhanqiu

2018-02-24 16:59:38 +08:00

@ZSeptember 多谢大神指教

linhanqiu

2018-02-24 17:01:42 +08:00

@ZSeptember 还想问一下，资讯正文提取可以，反爬太容易了是指什么，kafka 做流处理是在什么部分做比较上，是在新闻上传业务场景的时候吗

looplj

2018-02-24 17:16:49 +08:00

@linhanqiu。渣渣一个。只是我觉得你的那个文档只涉及到技术选型而已，还没有到什么架构这个程度。
需要登录的当然别人想做反爬就可以做，你换 IP 都没用啊，现在很多需要手机号，如果会封号，成本很高的。
Kafka 在这种业务中可以作为架构基础，解耦爬虫，清洗，统计分析业务，爬虫就只管爬数据，把爬取到的数据打到 Kafka 就不用管了，后续的什么服务都可以很方便的接入。

linhanqiu

2018-02-24 17:28:14 +08:00

@ZSeptember 哦哦，懂了，这个方面打算用微服务来做，每个模块做成服务