V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yue5805880
V2EX  ›  问与答

如何爬去yahoo! answer的所有问答数据?

  •  
  •   yue5805880 · 2013-08-22 09:21:39 +08:00 · 2961 次点击
    这是一个创建于 4137 天前的主题,其中的信息可能已经有所发展或是发生改变。
    主要做数据挖掘来用。大致的需求如下:

    1. 要抓去到所有Yahoo!answer的所有问答数据。
    2. 对于每个用户,希望能够获取到该用户在facebook上面的数据(如果该用户使用已将yanghoo mail 账号与facebook绑定,也就是说,该用户使用facebook登陆)。
    3. 可以直接爬,也可以使用api.

    求各种爬虫大神小神帮帮忙。。。。提供一下思路。。。
    2 条回复    1970-01-01 08:00:00 +08:00
    devon
        1
    devon  
       2013-08-22 10:22:00 +08:00
    1,找找有没有综引页,那种按问题分类,或者按字母排序的页面。如果有,从索引页开始爬起,分析索引页中的具体answer页面,再抓具体的页。
    2,从具体的内容页分析用户名,到fb中去取数据。

    这么大的数据量,需要很大的存储空间。还需要注意:

    1,跑多线程,这么大量,需要很多线程才能加快抓的速度。
    2,不要抓太快,可能会被封,具体的速度,需要用脚本去测试一下。
    3,有可能需要很多IP地址,从不同的IP地址去爬。

    细节很多,在做的过程中去摸索。
    yue5805880
        2
    yue5805880  
    OP
       2013-08-22 17:05:09 +08:00
    @devon 谢谢你的思路。但从具体的内容页分析用户名,到fb中去取数据这一步。 这是如何做到的? 如何保证此用户和fb上的用户是一个用户呢? yahoo answer 和fb都是使用email来登陆的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5280 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 08:39 · PVG 16:39 · LAX 00:39 · JFK 03:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.