• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Humbert
V2EX  ›  程序员

请问一下各位,有针对 Github 本身的爬虫吗?

  •  
  •   Humbert ·
    humbertzhang · Jan 28, 2020 · 6134 views
    This topic created in 2309 days ago, the information mentioned may be changed or developed.

    最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
    想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
    没有的话就去自己写了..

    18 replies    2020-01-29 19:32:59 +08:00
    phpfpm
        1
    phpfpm  
       Jan 28, 2020
    你写个脚本注册账号生成 api token 不就得了。。

    另,我记得如果不登录(没 token )访问 api 的话有次数限制,有 token 还会有限制吗?
    JasonEWNL
        2
    JasonEWNL  
       Jan 28, 2020 via iPad
    一个 JS 一个 Ruby 的库,都是 GitHub 上的 GitHub API 库。

    https://github.com/github-tools/github
    https://github.com/piotrmurach/github
    tikazyq
        3
    tikazyq  
       Jan 28, 2020
    自己写吧,很简单的,用 scrapy 的 CrawlSpider,注意反爬限制
    charlieputon
        4
    charlieputon  
       Jan 28, 2020 via Android
    github 不是有 api 吗。。不过是 graphql 的。。
    VDimos
        5
    VDimos  
       Jan 28, 2020 via Android
    github 是公开 api 的吧
    cmqwan
        6
    cmqwan  
       Jan 28, 2020 via iPhone
    github 不让爬,有 robots 协议。
    iYu
        7
    iYu  
       Jan 28, 2020
    5000 次每小时的 Github API 频率完全不够用。 确认是毕业设计么?如果是的话,感觉有点厉害啊。 这是需要多少数据啊。爬个几天几夜都不够么。
    oott123
        8
    oott123  
       Jan 28, 2020   ❤️ 1
    你可以从这两个数据源获取数据:

    GHTorrent: http://ghtorrent.org/downloads.html
    GH Archive: https://www.gharchive.org/

    他们提供了丰富的数据信息,较为方便的查询方式,以及简单的归档下载功能。不用自己爬……
    Humbert
        9
    Humbert  
    OP
       Jan 28, 2020
    @phpfpm 好的,感觉是个办法 hh
    Humbert
        10
    Humbert  
    OP
       Jan 28, 2020
    @charlieputon 也有 RESTful 的,但是次数有点限制
    Humbert
        11
    Humbert  
    OP
       Jan 28, 2020
    @cmqwan 好的,我还是考虑从 API 层面解决吧
    Humbert
        12
    Humbert  
    OP
       Jan 28, 2020
    @iYu 因为这个之后导师要用的,所以得考虑下数据量大的情况..
    Humbert
        13
    Humbert  
    OP
       Jan 28, 2020
    @oott123 !谢谢
    Humbert
        14
    Humbert  
    OP
       Jan 28, 2020
    @phpfpm 是有的,5000 次每小时
    sunwei0325
        15
    sunwei0325  
       Jan 28, 2020
    有个同事把代码传到 github 上, 公司安全部门很快就发现并通报了, 估计是自己实现的吧
    everydaystruggle
        16
    everydaystruggle  
       Jan 28, 2020
    楼主或者楼主导师是做 mining software repository 的么?
    lazygod
        17
    lazygod  
       Jan 29, 2020 via Android
    @sunwei0325 用公司的电脑上床有记录的
    SampleNaive
        18
    SampleNaive  
       Jan 29, 2020
    当然有啊,不然那些动不动几千 star,才几十个 issue 的项目怎么来的?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1023 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 22:35 · PVG 06:35 · LAX 15:35 · JFK 18:35
    ♥ Do have faith in what you're doing.