爬 tumblr 遇到问题,不同站不同子域名,要怎么改 hosts 呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
oh
V2EX    问与答

爬 tumblr 遇到问题,不同站不同子域名,要怎么改 hosts 呢?

  oh 2017-07-22 21:46:19 +08:00 9418 次点击
这是一个创建于 3079 天前的主题,其中的信息可能已经有所发展或是发生改变。
最近 $$ 不太好使,所以用了改 hosts 的方法,速度还不错。
问题是,无论 api 网址还是图片网址,都是个性域名,也就是每个子站的域名都不一样。
我看 V2 上爬汤不热的人挺多的,都怎么解决这个下载速度的问题呢?
17 条回复    2017-07-23 11:36:53 +08:00
xx998
    1
xx998  
   2017-07-22 21:52:23 +08:00 via Android
dnsmasq
pq
    2
pq  
   2017-07-22 21:53:37 +08:00
dnscrypt
oh
    3
oh  
OP
   2017-07-22 22:00:10 +08:00
@xx998 @pq 境外解析的地址在境内不一定能访问啊… 如果还是要挂 $$ 那就没区别了,现在主站改 hosts 能直接访问也是在网上找到的 hosts 列表…
just1
    4
just1  
   2017-07-22 22:04:10 +08:00 via Android
@oh 用 dnscrypt 做 host 的效果
xx998
    5
xx998  
   2017-07-22 22:06:48 +08:00 via Android
在路由器上使用 dnsmasq 即可解决。
LosLord
    6
LosLord  
   2017-07-22 22:11:05 +08:00 via Android
爬虫放到国外服务器
xx998
    7
xx998  
   2017-07-22 22:12:33 +08:00 via Android   1
我维护的 dnsmasq 规则,其中汤不热部分:
address=/97.media.tumblr.com/192.229.237.98
address=/api.tumblr.com/119.161.8.100
address=/assets.tumblr.com/119.161.8.100
address=/media.tumblr.com/119.161.8.100
address=/mx.tumblr.com/192.229.237.97
address=/srvcs.tumblr.com/66.6.32.162
address=/static.tumblr.com/119.161.8.100
address=/t.umblr.com/66.6.32.162
address=/tumblr.com/66.6.33.21
address=/vt.tumblr.com/119.161.8.100
address=/vtt.tumblr.com/119.161.9.100
address=/www.tumblr.com/119.161.8.100

这样全局域网都能用了,同时支持网页视频播放,进入个人主页等。
oh
    8
oh  
OP
   2017-07-22 22:19:22 +08:00
@xx998 个人主页不是 sitename.tumblr.com 格式的吗,我尝试把 sitename.tumblr.com 解析到 66.6.32.31 打开主页是没问题,但视频下载就失败了
pq
    9
pq  
   2017-07-22 22:32:43 +08:00
@oh 子域名太多了,还是直接 dnscrypt 更省事。

tumblr 只有域名污染,并没有封锁 ip 段,我从来没遇到过无法访问的现象,不过呢,不同国家的节点解析到的地址,速度肯定有很大差异,最好通过亚太地区的节点来解析,比如新加坡、香港。。。
oh
    10
oh  
OP
   2017-07-22 22:36:13 +08:00
@pq 明白了,比如在香港解析得到 IP 地址,境内直接本地解析就没问题咯
Lax
    11
Lax  
   2017-07-23 01:04:57 +08:00
不太明白你的代码逻辑,用了什么库。但是你可以考虑在请求时设置代理的,curl 和 requests 的参数文档都有提到
oh
    12
oh  
OP
   2017-07-23 01:31:37 +08:00
@Lax 跟什么语言什么库没关系,如果指定 IP 可以直接访问的话,不要代理那肯定是最快的,这也是我在主帖中提到的目的,如果还要经过代理,那无论是普通代理,还是 $$ 还是其它,肯定是没有直连来得快。

PS. 问题已经解决,按 @pq 说的先用香港的主机查询出 IP 地址,然后请求的时候请问 https://ip/api/xxx,并把域名作为 Host 参数一起带上,速度杠杠的。
wangxiaoer
    13
wangxiaoer  
   2017-07-23 07:26:55 +08:00 via Android
@oh 不同域名的博主可能用了不同的主题,怎么定位内容的?
Hucai
    14
Hucai  
   2017-07-23 08:07:27 +08:00
难道没老司机分享一波 lists 吗
JasperYanky
    15
JasperYanky  
   2017-07-23 10:31:43 +08:00
注意身体啊
oh
    16
oh  
OP
   2017-07-23 11:00:19 +08:00 via iPhone
@wangxiaoer 有 api 啊……
wangxiaoer
    17
wangxiaoer  
   2017-07-23 11:36:53 +08:00 via Android
@oh Api 知道,但是没有发现关于限制之类,所以不确定搞一个抓人家内容的网站会不会不允许。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     905 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 25ms UTC 19:56 PVG 03:56 LAX 11:56 JFK 14:56
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86