致最近在用十多台机器通过 python-requests/2.3.0 CPython/3.3.5 Linux/2.6.32-431.29.2.el6.x86_64 爬 V2EX 的某位同学 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
55.8D
471.05D
V2EX    V2EX

致最近在用十多台机器通过 python-requests/2.3.0 CPython/3.3.5 Linux/2.6.32-431.29.2.el6.x86_64 爬 V2EX 的某位同学

  •  
  •   Livid
    PRO
    2014-12-10 16:38:37 +08:00 7884 次点击
    这是一个创建于 3962 天前的主题,其中的信息可能已经有所发展或是发生改变。
    抱歉我们现在用的机器还不够高大上,你的这种爬法,确实会影响到目前我们网站的访问质量。

    所以,只能把你的 10 几个 IP 全部封了。

    今天早些时候,我们还封了 YisouSpider 的另外 10 几个 IP。

    我可以理解你们想要从这里开采资源的心情,但是就算是开采,请用一些可持续的方式。不可持续的方式,是在浪费所有人的时间和你的资源。

    36 条回复    2014-12-17 23:28:44 +08:00
    abelyao
        1
    abelyao  
       2014-12-10 16:41:28 +08:00
    抵制一切爬站采集的行为!
    我愿意在 v2ex 发帖交流,但我不愿意我发表的内容,被复制到一个我不知道的网站去!
    Livid
        2
    Livid  
    MOD
    OP
    PRO
       2014-12-10 16:43:48 +08:00
    @abelyao 我们的回复一直在被很多网站用各种方式搬运。

    不过,这些用偷懒的方式做起来的东西,一般都无法持续。

    Karma 上的瑕疵,会让任何一件事情都很难持续。
    tinyhill
        3
    tinyhill  
       2014-12-10 16:45:15 +08:00
    被爬了说明有价值,只能这么安慰自己。
    whicily
        4
    whicily  
       2014-12-10 16:46:26 +08:00
    @Livid 请问一下 v2ex 是如何 block ip 的,iptables 么?
    kurtrossel
        5
    kurtrossel  
       2014-12-10 16:48:20 +08:00
    爬到数据也不会珍惜的,真能发掘出更大价值也算,各种滥用
    Devin
        6
    Devin  
       2014-12-10 16:49:49 +08:00
    @Livid good job!
    abelyao
        7
    abelyao  
       2014-12-10 16:50:07 +08:00
    @Livid 真蛋疼,这些站就该倒闭光了才好。
    之前在自己的网站 或 cnblogs 写过几篇热门博客,也都 “被发表” 到一些大论坛大网站去,有些好点的在角落里留个署名,大多数什么来源都没标注。
    kmvan
        8
    kmvan  
       2014-12-10 16:50:15 +08:00 via Android
    并发略吊…

    话说Karma是…?
    jiang42
        9
    jiang42  
       2014-12-10 16:53:15 +08:00
    就是说之前v2ex不稳定是爬虫的原因?
    mortal
        10
    mortal  
       2014-12-10 17:09:51 +08:00
    @kmvan 业?
    Showfom
        12
    Showfom  
    PRO
       2014-12-10 17:31:52 +08:00
    这爬虫太明显了吧。。。。
    learnshare
        13
    learnshare  
       2014-12-10 17:34:02 +08:00
    垃圾站:我们不生产内容,我们只是内容的搬运工。

    互联网的内容不应该复制来复制去,有必要的话,一个链接过来就好了。<a> 不是互联网的核心?
    lincanbin
        15
    lincanbin  
       2014-12-10 17:43:30 +08:00
    这写爬虫都不知道换个baiduspider的header
    xieguobihaha
        16
    xieguobihaha  
       2014-12-10 17:55:09 +08:00
    good job
    abelyao
        17
    abelyao  
       2014-12-10 18:31:53 +08:00
    @kmvan @mortal @raincious
    话说有这么高大上的含义吗…?
    我的理解还是简单的 “前因后果” 之类的,例如接上老大那句话就是 “根源上的瑕疵,会让任何一件事情都很难持续。”
    matrix67
        18
    matrix67  
       2014-12-10 18:57:39 +08:00 via Android
    不过贵站那个收藏回复值应该开放出来
    Livid
        19
    Livid  
    MOD
    OP
    PRO
       2014-12-10 19:02:29 +08:00
    @matrix67 收藏回复值是指什么东西?
    Ansen
        20
    Ansen  
       2014-12-10 19:46:38 +08:00
    @abelyao 通俗点就是节操……
    matrix67
        21
    matrix67  
       2014-12-10 20:03:32 +08:00 via Android
    @Livid 我就感觉发现历史沉淀有价值信息很难发现。有没有系统的方法得到某一帖子多少人收藏这类的信息?

    以此还可以计算帖子的价值。
    Livid
        22
    Livid  
    MOD
    OP
    PRO
       2014-12-10 20:04:12 +08:00
    @matrix67 明白了 :)
    ming2050
        23
    ming2050  
       2014-12-10 20:11:53 +08:00 via Android
    @matrix67 matrix67大侠?
    matrix67
        24
    matrix67  
       2014-12-10 20:17:30 +08:00 via Android
    不是 哎,不用这个小号了。
    aheadlead
        25
    aheadlead  
       2014-12-10 20:25:01 +08:00
    @matrix67 再次膜拜Matrix67大神(假装我不知道)
    liechan
        26
    lifechan  
       2014-12-10 20:52:31 +08:00
    国内环境如此,比技术比创意,都是在比剽窃,不脚踏实地早晚掉到深沟。
    v2014
        27
    v2014  
       2014-12-10 22:06:45 +08:00
    @Livid http://v2ex.com/my/nodes/sorted ,打印traceback了
    vincentqi
        28
    vincentqi  
       2014-12-10 23:00:58 +08:00
    @Livid 贵站的收藏已经是一个不小的功能了,如果在收藏的同时能够打标签就好了,要不然收藏的多就不好找了。
    MonkLuf
        29
    MonkLuf  
       2014-12-11 00:48:27 +08:00 via Android
    @v2014 再次发现一个用tornado写网站的站点,好激动!
    MonkLuf
        30
    MonkLuf  
       2014-12-11 00:50:34 +08:00 via Android
    @Livid 这么高的并发量应该不是个人所为吧
    ericls
        31
    ericls  
       2014-12-11 00:52:09 +08:00 via Android
    有一天我发现我的博客全部发到了百度文库 还分好了类 排好了版
    karma
        32
    karma  
       2014-12-11 09:17:36 +08:00
    咋感觉....躺枪_(:з」∠)_....
    mengzhuo
        33
    mengzhuo  
       2014-12-15 20:32:18 +08:00 via iPhone
    @MonkLuf 买十台do的机子 爬个几天就差不多了 个人也可以哈哈哈
    MonkLuf
        34
    MonkLuf  
       2014-12-17 10:00:49 +08:00
    @mengzhuo do在国外的话,速度快不起来啊,应该不会选择do吧?另:有vps推荐吗?或者do的哪些区域在中国访问会快一点?
    mengzhuo
        35
    mengzhuo  
       2014-12-17 10:11:47 +08:00
    @MonkLuf
    DO 在国外 问题是V2也在国外啊,如果挑美国的机子,速度更是快
    MonkLuf
        36
    MonkLuf  
       2014-12-17 23:28:44 +08:00
    @mengzhuo
    @Livid

    v2为什么选择将机器放在美国呢?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5824 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 01:54 PVG 09:54 LAX 18:54 JFK 21:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86