想到的可以爬到的内容有 git 仓库信息、会员信息。
今天突发奇想,想分析各种库的引用情况。
今天突发奇想,想分析各种库的引用情况。

3 DoraJDJ Dec 16, 2016 via Android 直接用 GitHub 的 API 不行吗? |
4 bazingaterry Dec 16, 2016 via iPhone 自己爬自己,噢,无限递归 |
5 upczww Dec 16, 2016 via Android 有 api |
6 imcj OP @< href="/member/DoraJDJ">DoraJDJ 允许频次不够用。 另外我都想法只开发数据库只读权限 |
8 lucifer4he Dec 16, 2016 多注册几个账号。多用几个 token 问题解决 啊哈哈 总比爬起来解析数据好受点 |
9 gdsagdada Dec 16, 2016 不道德, github 现在还在亏损,楼主给它省点带宽 |
10 Mdrights Dec 16, 2016 via iPhone 已有 Telegram 的 bot 了 |
11 nsa Dec 16, 2016 via iPhone 可以先用 ghtorrent 的练 |
12 imcj OP @lucifer4he 从我个人的需求上的确是解决问题了。我觉得弄一个开放的 GITHUB 数据库这件事听起来不错。 @gdsagdada 爬取目标网站数据这件事情不算不道德,算的话,那 google 怎么说? Github 亏损这件事情,我觉得从另外一个角度上来看,这是他们赢取资本的策略。 @nsa 感谢推荐。 |
13 qdk0901 Dec 19, 2016 不好爬,我之前写过一个,挂 vps 上爬了一个月,用 tor 不停切换出口 ip 来绕过限制,只爬了 300 多万用户 /仓库的信息,也不是全部信息,只有一部分,比如只有用户 /仓库前几页的 following/followers/stars 等信息。 这东西还是放弃吧,最终也没什么卵用 |
14 qdk0901 Dec 19, 2016 |
15 holajamc Dec 19, 2016 做过一个,嗯目前已经改成了毕设项目…… HolaJam/github_relationship |
17 holajamc Dec 20, 2016 就是我也在做关羽 github 的一个程序 描述 github 用户之间的关系,用户和 repo 的关系 |
19 holajamc Dec 21, 2016 @imcj github 可以看到项目地址……为了给 github 省带宽就没有写多线程~目前只是做了用户关系,做好了 Neo4j 版本和 MariaDB 版本, MongoDB 正在做,然后就是 repo 的接口也是写好了的包括自己的 repo , star 的 repo 和 fork 的 repo |
25 Codewj Dec 22, 2016 via iPhone 楼主的项目进行的怎么样了 |
29 gaocegege Dec 26, 2016 https://github.com/gaocegege/scala-github-relationship 之前无聊的时候有做过类似的,一开始单机多线程类似事件驱动来爬的, API rate limit 很成问题,后来只能用单线程同步来做。 对于 limit 的问题,比较好的解决方案是用多几个帐号,用 token ,好像用的好的话 20 多个帐号就可以爬全站。 |