V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
laodao
V2EX  ›  问与答

类似于传送门这些微信内容聚合网站是如何实现抓取文章自动分类的?

  •  
  •   laodao · 2016-05-13 20:04:21 +08:00 · 3342 次点击
    这是一个创建于 3108 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如,里面分类娱乐,科技,体育等等,但是抓取文章本身并没有这些标签。不知道他们是如何实现分类的?
    9 条回复    2016-05-14 10:25:05 +08:00
    Syc
        1
    Syc  
       2016-05-13 20:10:51 +08:00 via Android
    分类好固定的微信号,从某些微信号抓取就是直接入库对应分类
    laodao
        2
    laodao  
    OP
       2016-05-13 21:50:47 +08:00
    @Syc 问题是如何分类微信号,微信号的源也有百万级别了。人工肯定无法实现的,技术上微信号给出的信息太少,也很难自动分类。
    immjun
        3
    immjun  
       2016-05-13 21:57:35 +08:00
    机器学习 中文语义分词
    fenghua1013
        4
    fenghua1013  
       2016-05-13 23:30:52 +08:00 via iPhone
    布隆过滤器可以实现分类
    marenight
        5
    marenight  
       2016-05-14 01:25:46 +08:00
    微信号后台有分类。此外,可以根据微信号简介进行分类(自然语言处理?)
    Rorysky
        6
    Rorysky  
       2016-05-14 02:31:23 +08:00
    JhZ7z587cYROBgVQ
        7
    JhZ7z587cYROBgVQ  
       2016-05-14 08:51:29 +08:00
    @fenghua1013 我一直以为布隆过滤器是去重用的 orz 老司机怎么用这个分类的?
    murmur
        8
    murmur  
       2016-05-14 09:31:19 +08:00
    @fenghua1013 你确定不是贝叶斯过滤器
    ytmsdy
        9
    ytmsdy  
       2016-05-14 10:25:05 +08:00
    传送门的账号在初期估计是一起导入进去的,后期的账号估计就是一个一个手工加上去的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1898 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 16:30 · PVG 00:30 · LAX 08:30 · JFK 11:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.