就是实时抓取其它网站上的内容实现的吗?
1
newtonisaac 2015-09-12 11:04:28 +08:00
难道是打电话问的?
|
2
liangguan5 2015-09-12 11:14:43 +08:00 via iPhone
@newtonisaac 哈哈哈
|
3
alexapollo 2015-09-12 11:20:20 +08:00
抓取+优质内容筛选+推荐系统
|
4
colorsand OP |
5
colorsand OP @newtonisaac 我想是不是通过 api 获取的数据
|
6
vstar 2015-09-12 11:40:08 +08:00
我更关注是否会造成侵权等法律问题
|
8
IanPeverell 2015-09-12 11:42:43 +08:00
Python 基础教程里面有一个新闻聚合类的初级教程,可以先用 Python 的 NNTP 把信息下载下来,然后再传到网站里,实时性的话可以通过定时启动脚本更新数据就行吧…
|
9
alexapollo 2015-09-12 12:31:30 +08:00
@colorsand 大部分不是实时的。。但也有实时系统(量非常大),实际上相当于一个用户代理
|
10
em70 2015-09-12 12:43:41 +08:00 via Android
抓取页面,把纯内容提取出来,这个看起来简单,其实算法非常难,各种网站页面结构不一样,要考虑各种奇葩情况。
|
11
mutalisk 2015-09-12 22:54:10 +08:00
TF-IDF
|