![]() | 1 clemente 154 天前 ![]() 6666 |
![]() | 2 newdongyuwei 154 天前 ![]() 赞 |
3 followad 154 天前 via iPhone ![]() 赞 |
![]() | 4 Pipecraft 154 天前 包含评论吗?怎么才有 181 MB ,这么少。 |
![]() | 7 Patrick6 154 天前 ![]() 昨天刚从 X 看到,今天又在 v 站看到了哈哈 |
8 MzM2ODkx 154 天前 ![]() 赞 |
![]() | 10 JJJLG 154 天前 1 |
![]() | 11 mywaiting 154 天前 ![]() Hacker News 的数据库很大程度算公开数据源,很多地方都有下载 1 、官方 API 接口,使用 Firebase 提供,近乎实时更新数据 https://github.com/HackerNews/API 2 、全量数据搜索接口,Algolia 提供,API 提供每 IP 每小时 1w 访问限制(等于无限制) https://hn.algolia.com/api 3 、graphql API 。它将允许您在单个请求中获取所有评论、用户和帖子 https://hngraphql.fly.dev/graphql 由于 HN 的数据本身就是公开的,爬虫抓取到本地意义不大 |
12 ammeto 154 天前 ![]() 赞 |
13 punkerhyde 154 天前 ![]() 66666666666666666 |
![]() | 14 hidev OP ![]() @mywaiting 这里用的就是官方 API ,下载下来目的是可以做一些离线分析,比如词云,比如训练个 Hacker News LLM |
![]() | 15 Akagi201 154 天前 ![]() 评论这么关键的数据没有啊? hn 主要价值就是评论啊 |