最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
没有的话就去自己写了..

最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
没有的话就去自己写了..
1 phpfpm Jan 28, 2020 你写个脚本注册账号生成 api token 不就得了。。 另,我记得如果不登录(没 token )访问 api 的话有次数限制,有 token 还会有限制吗? |
2 JasonEWNL Jan 28, 2020 via iPad 一个 JS 一个 Ruby 的库,都是 GitHub 上的 GitHub API 库。 https://github.com/github-tools/github https://github.com/piotrmurach/github |
3 tikazyq Jan 28, 2020 自己写吧,很简单的,用 scrapy 的 CrawlSpider,注意反爬限制 |
4 charlieputon Jan 28, 2020 via Android github 不是有 api 吗。。不过是 graphql 的。。 |
5 VDimos Jan 28, 2020 via Android github 是公开 api 的吧 |
6 cmqwan Jan 28, 2020 via iPhone github 不让爬,有 robots 协议。 |
7 iYu Jan 28, 2020 5000 次每小时的 Github API 频率完全不够用。 确认是毕业设计么?如果是的话,感觉有点厉害啊。 这是需要多少数据啊。爬个几天几夜都不够么。 |
8 oott123 Jan 28, 2020 你可以从这两个数据源获取数据: GHTorrent: http://ghtorrent.org/downloads.html GH Archive: https://www.gharchive.org/ 他们提供了丰富的数据信息,较为方便的查询方式,以及简单的归档下载功能。不用自己爬…… |
10 Humbert OP @charlieputon 也有 RESTful 的,但是次数有点限制 |
15 sunwei0325 Jan 28, 2020 有个同事把代码传到 github 上, 公司安全部门很快就发现并通报了, 估计是自己实现的吧 |
16 everydaystruggle Jan 28, 2020 楼主或者楼主导师是做 mining software repository 的么? |
17 lazygod Jan 29, 2020 via Android @sunwei0325 用公司的电脑上床有记录的 |
18 SampleNaive Jan 29, 2020 当然有啊,不然那些动不动几千 star,才几十个 issue 的项目怎么来的? |