
打算构建一个无偏语料库,因此需要爬取各行各业相关的网站,想问一下大家知道哪些主要内容是文本的网站。 目前收集到的网站有大概以下几个分类
这里并没有列全,目前在抓的有 60 个网站左右,每天能获取 300K 个页面,单机。想问问大家有没有什么别的类目、行业、领域以及各分类下的文字类网站可供补充?无所谓内容质量好坏。
1 mushan099 2018-04-25 02:19:56 +08:00 via iPhone 其他类别不知道,影视那一栏我倒是了解不少(^-^)/ |
2 rock_cloud OP @mushan099 来几个例子? |
3 fstab 2018-04-25 07:39:51 +08:00 via Android @rock_cloud t66y sixinsix 91 avgle 大哥只能帮你这么多了。 |
4 jiangnanyanyu 2018-04-25 07:42:03 +08:00 via Android 我来一个吧,javbus,javlib |
5 ob 2018-04-25 07:46:35 +08:00 via Android cnbeta |
6 aice114 2018-04-25 07:54:35 +08:00 via Android v2ex |
8 huluhulu 2018-04-25 08:31:05 +08:00 via iPhone 不是 1024 最值得吗? |
9 jasonyang9 2018-04-25 08:42:34 +08:00 nytimes arstechnica slashdot |
10 x86 2018-04-25 09:19:29 +08:00 avmoo |
11 fengyj 2018-04-25 09:22:53 +08:00 via Android 影视竟然没有 douban |
12 chroming 2018-04-25 09:23:13 +08:00 via Android 单机爬这么多是用了代理池? |
13 logOo 2018-04-25 09:23:33 +08:00 pxxnhub |
14 rock_cloud OP @huiyifyj 有,在论坛分类里,抓全站 |
15 rock_cloud OP @chroming 没有代理池,因为站点多,所以每个站慢慢爬,也不是问题 |
16 rock_cloud OP @aice114 我居然忘了 V 站,话说 V 站是不是有访问频次限制? |
17 akira 2018-04-25 10:33:07 +08:00 3l 老司机 |
18 mhycy 2018-04-25 10:35:17 +08:00 |
19 torbrowserbridge 2018-04-25 10:43:57 +08:00 91 |
20 yense 2018-04-25 11:02:01 +08:00 煎蛋站长瑟瑟发抖... |
21 rock_cloud OP @yense jandan 已加入豪华午餐,放心,速度非常慢,大约一分钟一个请求,不会占用很多流量的 |
22 rock_cloud OP @yense 额。。错了,应该是 20 秒一个请求。。。 |
23 greatghoul 2018-04-25 11:08:31 +08:00 via Android pornhub |
25 F1024 2018-04-25 13:22:40 +08:00 91 哈哈哈哈 |
26 yunye 2018-04-25 13:54:05 +08:00 via Android 抓谷歌比较划算,抓一个站啥都有了 |
27 rock_cloud OP @yunye Google 反爬做得好,不好抓,费时费力 |