V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
colorsand
V2EX  ›  问与答

新闻聚合网站是怎么做的?

  •  
  •   colorsand · 2015-09-12 10:10:59 +08:00 · 3934 次点击
    这是一个创建于 3353 天前的主题,其中的信息可能已经有所发展或是发生改变。

    就是实时抓取其它网站上的内容实现的吗?

    11 条回复    2015-09-12 22:54:10 +08:00
    newtonisaac
        1
    newtonisaac  
       2015-09-12 11:04:28 +08:00
    难道是打电话问的?
    liangguan5
        2
    liangguan5  
       2015-09-12 11:14:43 +08:00 via iPhone
    @newtonisaac 哈哈哈
    alexapollo
        3
    alexapollo  
       2015-09-12 11:20:20 +08:00
    抓取+优质内容筛选+推荐系统
    colorsand
        4
    colorsand  
    OP
       2015-09-12 11:33:51 +08:00
    @alexapollo 有这方面的经验吗?请教一下:
    主动抓取怎么保证实时性?
    内容筛选是不是需要人工完成?
    colorsand
        5
    colorsand  
    OP
       2015-09-12 11:34:54 +08:00
    @newtonisaac 我想是不是通过 api 获取的数据
    vstar
        6
    vstar  
       2015-09-12 11:40:08 +08:00
    我更关注是否会造成侵权等法律问题
    Moker
        7
    Moker  
       2015-09-12 11:41:21 +08:00
    @colorsand 有 api 和 rss 当然最好。。没有就用爬虫了。。。实时的话爬虫频率高点了。。不过有可能会被封
    IanPeverell
        8
    IanPeverell  
       2015-09-12 11:42:43 +08:00
    Python 基础教程里面有一个新闻聚合类的初级教程,可以先用 Python 的 NNTP 把信息下载下来,然后再传到网站里,实时性的话可以通过定时启动脚本更新数据就行吧…
    alexapollo
        9
    alexapollo  
       2015-09-12 12:31:30 +08:00
    @colorsand 大部分不是实时的。。但也有实时系统(量非常大),实际上相当于一个用户代理
    em70
        10
    em70  
       2015-09-12 12:43:41 +08:00 via Android
    抓取页面,把纯内容提取出来,这个看起来简单,其实算法非常难,各种网站页面结构不一样,要考虑各种奇葩情况。
    mutalisk
        11
    mutalisk  
       2015-09-12 22:54:10 +08:00
    TF-IDF
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1102 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:28 · PVG 07:28 · LAX 15:28 · JFK 18:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.