听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
mdzz
V2EX    程序员

听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解

  •  
  •   mdzz 2017 年 10 月 30 日 13100 次点击
    这是一个创建于 3049 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。


    下面是抓取过程中一组共 50 个请求的网络流量图

    流量图

    约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。


    总共爬了三个版块,妹子图、无聊图和段子

    • 妹子图:有 241 页共 5 组
    • 无聊图:有 294 页共 6 组
    • 段子:有 132 页共 3 组

    共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。


    下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小) 数据库


    我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?

    73 条回复    2017-11-01 20:02:05 +08:00
    takanasi
        1
    takanasi  
       2017 年 10 月 30 日
    又不是只有一个人爬,况且首页你还没爬呢
    Keyblade
        2
    Keyblade  
       2017 年 10 月 30 日
    花式自挂
    green15
        3
    green15  
       2017 年 10 月 30 日 via iPhone
    不理解就好好读书,别乱爬,脏!
    zjyl1994
        4
    zjyl1994  
       2017 年 10 月 30 日   1
    我就不明白了,我就双十一买一件衣服怎么就把淘宝买崩了。(全国又不是你一个人在爬,好多新手都折腾煎蛋。。。)
    NLL
        5
    NLL  
       2017 年 10 月 30 日 via iPhone
    能否分享下爬虫代码?
    siyemiaokube
        6
    siyemiaokube  
       2017 年 10 月 30 日 via iPhone   33
    大概是五楼这种比较多
    bigtwo
        7
    bigtwo  
       2017 年 10 月 30 日
    @siyemiaokube 哈哈
    hugee
        8
    hugee  
       2017 年 10 月 30 日 via Android
    煎蛋技术能力有限吧,2333
    pynix
        9
    pynix  
       2017 年 10 月 30 日 via iPhone
    你们把人家爬挂了
    zlfzy
        10
    zlfzy  
       2017 年 10 月 30 日 via iPhone   1
    爬这些老图不如爬汤
    stebest
        11
    stebest  
       2017 年 10 月 31 日 via Android   3
    有多少人梦想过全国人民给他捐一块钱
    changwei
        12
    changwei  
       2017 年 10 月 31 日 via Android
    热图访问人数多,cdn 有缓存应该会稍微好一点吧,老图的话没有缓存都是要回源的,可能更容易爬跨人家网站。
    bxb100
        13
    bxb100  
       2017 年 10 月 31 日 via Android
    额,什么时候请求数和网络流量关联在一起了
    Perry
        14
    Perry  
       2017 年 10 月 31 日
    楼主你要是分享了代码,煎蛋说不定就真的要挂
    opengps
        15
    opengps  
       2017 年 10 月 31 日 via Android
    都不能好好的看图嘛?
    taresky
        16
    taresky  
       2017 年 10 月 31 日 via Android   1
    ID 贴切
    kaifeii
        17
    kaifeii  
       2017 年 10 月 31 日
    你们天天这么搞,干脆煎蛋做个开放 api 卖钱得了,或者做个延迟同步的共享读库
    cyn
        18
    cyn  
       2017 年 10 月 31 日 via Android
    煎蛋是什么
    Ryosan
        19
    Ryosan  
       2017 年 10 月 31 日 via Android   7
    id 如本人
    chnyang
        20
    chnyang  
       2017 年 10 月 31 日 via Android
    @cnyang。。。你好混 ID 的同志
    opengps
        21
    opengps  
       2017 年 10 月 31 日
    @Ryosan 特意看了一眼,确实是
    mcds
        22
    mcds  
       2017 年 10 月 31 日
    19 楼好评~
    toono
        23
    toono  
       2017 年 10 月 31 日
    @cyn 原以为“煎蛋”是京东,谁知道,煎蛋就是煎蛋网
    Acebiu
        24
    Acebiu  
       2017 年 10 月 31 日 via Android
    被随便带带节奏喊技术无罪的是不是也是你们?
    knva
        25
    knva  
       2017 年 10 月 31 日   1
    求你了,别爬煎蛋了.
    Januser
        26
    Januser  
       2017 年 10 月 31 日   2
    “我就是踹了他一脚,他怎么就能死了?”

    楼主和其他千千万万踹了煎蛋一脚的垃圾都这么说。
    momocraft
        27
    momocraft  
       2017 年 10 月 31 日
    爬虫门槛太低了。
    讲真比脚本小子还低,又有妹子图形成正反馈。可怜这些做内容的网站。
    malkavia
        28
    malkavia  
       2017 年 10 月 31 日
    我没记错的话,好多新手教程都是爬煎蛋爬糗百的
    lingo
        29
    lingo  
       2017 年 10 月 31 日
    赞 19L
        30
    7654  
       2017 年 10 月 31 日
    楼主该看看煎蛋的 PV 什么的
    一个 WP 博客站能有这个数据已经很了不起了
    Xrong
        31
    Xrong  
       2017 年 10 月 31 日
    楼主这种爬虫算好的了,有些入门的新手连个延迟都不加一顿瞎搞。CDN 请求大量回源,源站也很蛋疼。。。再说一些小破资源站哪里有那么多资源去弄些反爬措施。
    Felldeadbird
        32
    Felldeadbird  
       2017 年 10 月 31 日
    把代码分享出来吧。让全国都去爬就体验了威力。233333
    bsidb
        33
    bsidb  
       2017 年 10 月 31 日
    煎(jian)蛋(dan)
    8023
        34
    8023  
       2017 年 10 月 31 日 via Android
    No individual raindrop ever considers itself responsible for the flood.
    smgui
        35
    smgui  
       2017 年 10 月 31 日
    设计爬虫尽量温和,杀鸡取卵不是一个文明人正常的做法
    croz
        36
    croz  
       2017 年 10 月 31 日   1
    @bsidb #33 是 jandan,(手动滑稽)
    laqow
        37
    laqow  
       2017 年 10 月 31 日 via Android   1
    因为刚学编程 2 小时的傻子也能写出煎蛋的爬虫
    lyhapple
        38
    lyhapple  
       2017 年 10 月 31 日
    我想爬汤, 奈何网络太渣渣, 没有威屁恩
    logOo
        39
    logOo  
       2017 年 10 月 31 日
    @lyhapple 看了你的回复,好像打了新的世界。。
    wfd0807
        40
    wfd0807  
       2017 年 10 月 31 日
    @zlfzy
    @lyhapple
    爬汤是什么?
    zlfzy
        41
    zlfzy  
       2017 年 10 月 31 日
    @wfd0807 tumblr

    @lyhapple 用海外的 vps 爬,快如闪电
    onlyhot
        42
    onlyhot  
       2017 年 10 月 31 日 via iPhone
    能耐这么大去爬淘宝,煎蛋这垃圾网站也不能显示你技术多牛,你说是不?
    hxndg
        43
    hxndg  
       2017 年 10 月 31 日
    @wfd0807 汤不热,上面有各种少儿不宜的东西,有的还有联系方式.....
    huang5587783
        44
    huang5587783  
       2017 年 10 月 31 日 via iPhone
    煎蛋的作用就是训练爬虫?
    slgz
        45
    slgz  
       2017 年 10 月 31 日
    @laqow 真的吗, 我是小学生别骗我
    yu099
        46
    yu099  
       2017 年 10 月 31 日 via Android   3


    你看看这请求次数,流量大小
    corcd
        47
    corcd  
       2017 年 10 月 31 日
    心疼煎蛋
    sheng9632
        48
    sheng9632  
       2017 年 10 月 31 日
    心疼
    SaltedFish12138
        49
    SaltedFish12138  
       2017 年 10 月 31 日 via Android
    抵制所有爬煎蛋的行为
    expy
        50
    expy  
       2017 年 10 月 31 日   1
    数据库给你们自己下吧,都别折腾了。
    yuxuan
        51
    yuxuan  
       2017 年 10 月 31 日   1
    就不能换个网站折腾。。。每次看见爬虫 几乎都是煎蛋 我一次都没上过煎蛋 光看你们写爬虫 都了解了煎蛋
    timothyye
        52
    timothyye  
       2017 年 10 月 31 日




    看来煎蛋与爬虫一直就有不解之缘……
    xiejc
        53
    xiejc  
       2017 年 10 月 31 日
    var cheerio = require('cheerio');
    var request = require('request-promise');
    var icOnv= require('iconv-lite');
    var EventProxy = require('eventproxy');
    var fs = require("fs");
    var PATH = '/Users/xie/Documents/images/';
    var ep = EventProxy.create();
    var total = 160;
    var result = {
    list: []
    }
    ep.on('finish', function(page) {
    total = total - 1;
    if (total > 0) {
    matches(total);
    } else {
    fs.writeFile('images.json', JSON.stringify(result), function(error) {
    if (error) {
    console.log(error);
    } else {
    console.log('save');
    }
    process.exit(1);
    });

    }
    })
    matches(total);
    function matches(page) {
    //var url = `http://jandan.net/pic/page-${page}#comments`;
    var url = `http://jandan.net/xxoo/page-${page}#comments`;
    request({
    method: 'GET',
    url: url,
    encoding: null
    }).then(function(body) {
    var cOntent= iconv.decode(body, 'utf-8');
    $ = cheerio.load(content);
    var matchListRow = $('.view_img_link');
    $(matchListRow).each(function(i, element) {
    var item = $(element).attr('href');
    var res_url = 'http:' + item;
    // var name = PATH + item.slice(item.lastIndexOf('/') + 1);
    result.list.push(res_url);
    // request(res_url).on('response', function(response) {
    // console.log(response.statusCode) // 200
    // }).pipe(fs.createWriteStream(name));
    });
    ep.emit('finish');
    }).catch(function(err) {
    if (err)
    return console.error(err);
    });
    }
    gutu
        54
    gutu  
       2017 年 10 月 31 日
    反正大家就喜欢挑软柿子捏,

    煎蛋这种小站,能存活到现在也算难得了。
    z0z
        55
    z0z  
       2017 年 10 月 31 日
    说的我也想学学如何造一个爬虫了
    Plsea
        56
    Plsea  
       2017 年 10 月 31 日
    煎蛋太惨了 爬汤吧 2333
    helica
        57
    helica  
       2017 年 10 月 31 日 via iPhone
    我开始爬的 h 网和 p 站…
    joker2015
        58
    joker2015  
       2017 年 10 月 31 日 via Android
    恭喜楼主又吸引了一波仇恨(ω)
    skylancer
        59
    skylancer  
       2017 年 10 月 31 日   1
    我的天 你流量小就代表资源小了?
    我建议搜搜什么是 CC 和 DrDOS
    Chappako
        60
    Chappako  
       2017 年 10 月 31 日
    Nostalgiaaaa
        61
    Nostalgiaaaa  
       2017 年 10 月 31 日   1
    爬虫教程尽量就别发出来的。。人一多就相当于 DDoS 了
    xiejc
        62
    xiejc  
       2017 年 10 月 31 日   1
    我能不能把上边的代码删了,感觉不太好
    silencefent
        63
    silencefent  
       2017 年 10 月 31 日   4
    我实在他妈不明白,爬虫这种含量的事儿还有人炫耀?写个爬虫的不行了?听人家说了这样不好还爬?这些年教育都到狗肚子里去了?
    justtery
        64
    justtery  
       2017 年 10 月 31 日
    上满的去搜 知乎爬虫。。豆瓣电影。。豆瓣读书的爬虫。。一堆一堆的。。。
    iFlicker
        65
    iFlicker  
       2017 年 10 月 31 日   1
    第一,煎蛋是个小站,真的是个小站,不是百度腾讯阿里巴巴谷歌亚马逊非死不可。
    第二,你一个人流量小了,一千个人呢?一万个人呢?十万个人呢?,你知道控制频率,新手们可不知道。
    第三,你们就饶了煎蛋吧,已经是少有的摸鱼净土了。。。。。
    glacier2002
        66
    glacier2002  
       2017 年 10 月 31 日
    欢迎来扒 btstar.info 数据
    wangxiaohao
        67
    wangxiaohao  
       2017 年 10 月 31 日
    哈哈哈哈 心疼煎蛋 1s
    Karblue
        68
    Karblue  
       2017 年 11 月 1 日
    你家里这么多电器,我搬台电视机也没拿多少东西嘛…再说了,皇军吃你几个西瓜怎么了…… 来自 jandan。
    自己作恶还觉得理所当然。
    ajan
        69
    ajan  
       2017 年 11 月 1 日
    求楼主的 jandan.db
    z1154505909
        70
    z1154505909  
       2017 年 11 月 1 日
    练手找招聘,租房的网站练啊,别找煎蛋,一个小站不容易,
    还有就是新手写爬虫大多都不知道控制频率,
    只知道爬爬爬.不知道手下留情

    心疼煎蛋...
    forcecharlie
        71
    forcecharlie  
       2017 年 11 月 1 日
    爬的人多了如果服务器资源有限就成了 DDOS 攻击了。前几年 12306 抢票插件拖垮 Github 历历在目。
    rswl
        72
    rswl  
       2017 年 11 月 1 日
    练功房
    newworld
        73
    newworld  
       2017 年 11 月 1 日
    明明还有很多人去爬豆瓣 哈哈哈 没人说么!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2573 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 42ms UTC 15:38 PVG 23:38 LAX 07:38 JFK 10:38
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86