手把手教你写煎蛋妹子图爬虫。。。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
jason52
V2EX    分享创造

手把手教你写煎蛋妹子图爬虫。。。

  •  
  •   jason52 2015-02-16 13:21:14 +08:00 24007 次点击
    这是一个创建于 3941 天前的主题,其中的信息可能已经有所发展或是发生改变。
    缘起
    ====

    爬虫从妹子图练起最好了,煎蛋防护系统比较弱,你要一开始上手大众点评,豆瓣,那好了,先上淘宝买代理吧。。。。

    而且这个例子好好啊,可以直接从正则表达式匹配技术讲起,在用bs,再到pyquery。。。。

    顺带讲讲fiddler,firebug之类的。。。

    @jookr 大叔 @ 你了!!!
    ===

    第一次录screencast,真是巨麻烦。而且质量还不高。。演练没到位。。。

    destroy all software能在15分钟左右制作出质量这么高的视频真心不容易,自己做一次就知道了。

    视频链接: http://pan.baidu.com/s/1i3mXwBN

    效果链接: http://v2ex.com/t/171077
    这是无聊图的,妹子图现在都很黄很暴力了,不和谐~~
    41 条回复    2016-08-26 11:59:36 +08:00
    kungfuchicken
        1
    kungfuchicken  
       2015-02-16 13:59:40 +08:00
    煎蛋防护比较弱...
    zqjilove
        2
    zqjilove  
       2015-02-16 14:26:42 +08:00
    近期正好想了解python爬虫。看了视频,有些收获。谢了
    jason52
        3
    jason52  
    OP
       2015-02-16 14:53:44 +08:00
    @zqjilove 欢迎提问,我觉得后面讲的有点快了,有网上教人画马那个梗的感觉,是个圈圈画好,下一步,直接就是一匹栩栩如生的马出来了。

    不过有没法讲的太详细,必须假设有一定的html基础和python基础。边界的确定有点麻烦。。。

    另外,在制作过程后期压制视频的时候,(之前没弄过),真心体会到 码率叫你做人这句话。第一个版本压制出来3G多。经过我多次试验,已经找到比较合适的参数,可以在20min下90m以内,比这个版本更加清晰,比较适合screencast。

    另外视频托管,优酷土豆之类都嫌贫爱富,上传上去转压的一塌糊涂,还是直接发布视频文件最为清晰。

    同时不知道斗鱼用了什么黑科技,竟然这么清晰。。。烧钱吧
    jimmy66
        4
    jimmy66  
       2015-02-16 15:04:41 +08:00
    虽然之前看过这个了http://blog.fishc.com/3646.html,但是还是要感谢了
    Sylv
        5
    Sylv  
       2015-02-16 15:11:57 +08:00 via iPhone
    @kungfuchicken 看这头像应该是 @colt ?呵,lz 小心 @colt 封你 ip,你就没妹子图看了。
    jason52
        6
    jason52  
    OP
       2015-02-16 15:18:44 +08:00
    @Sylv 还没上多线程呢~~~哈哈
    jookr
        7
    jookr  
       2015-02-16 15:21:12 +08:00
    谢了 谢了
    caixiexin
        8
    caixiexin  
       2015-02-16 15:33:39 +08:00
    看到好多人写爬虫第一个作品就是爬煎蛋23333
    SquirrelMAN
        9
    SquirrelMAN  
       2015-02-16 15:42:23 +08:00
    说话中气不足啊,要多运动了。。

    视频内容不错,有帮助
    jason52
        10
    jason52  
    OP
       2015-02-16 16:06:43 +08:00
    @SquirrelMAN 大概早上debug妹子图时间长了()~~~所以拿无聊图来演示~~
    doomgiant
        11
    doomgiant  
       2015-02-16 16:12:52 +08:00
    非常感谢,mark回去看!
    reticentfat
        12
    reticentfat  
       2015-02-16 16:20:09 +08:00
    谢谢,下班回家练练
    xiaket
        13
    xiaket  
       2015-02-16 17:41:26 +08:00
    看了两三分钟后觉得用Linux下的工具抓会更方便, 于是又花几分钟测试写脚本, 在第八分钟前就能跑了...

    新人入手玩爬虫还是入Linux的坑更合适, curl/sed/awk做这个事情比pyquery方便太多了, 而且方便多进程提高效率. 顺便慰问下在Windows下开发的同学们, 你们真是辛苦了...
    zhangchioulin
        14
    zhangchioulin  
       2015-02-16 18:15:50 +08:00
    有空就把视频看了,谢谢
    66beta
        15
    66beta  
       2015-02-16 18:18:07 +08:00
    煎蛋把全文RSS给关了,楼主有兴趣做一个不?
    ZHenJ
        16
    ZHenJ  
       2015-02-16 18:59:50 +08:00
    应该加个帅选,只要NSFW的(跑
    ETiV
        17
    ETiV  
       2015-02-16 19:26:33 +08:00 via iPhone
    我只想知道淘宝上卖代理的关键词是啥
    Earthman
        18
    Earthman  
       2015-02-16 20:16:01 +08:00 via Android
    楼主试试传bilibili,可以直传,免二压
    mozutaba
        19
    mozutaba  
       2015-02-16 21:32:44 +08:00
    难道不是先抓1024?
    jason52
        20
    jason52  
    OP
       2015-02-16 22:48:34 +08:00
    @ETiV 我一直以为他不是独立托管的。。。没有邀请码呀~~
    @xiaket 简单的是shell方便,要带cookie,代理起来就麻烦一点了。而且正则表达式技术完全是对字符串的解析嘛~~~库还是要用用的。。import 在手,天下我有耶shahua(`^)
    @mozutaba 出门左转hard--seed走起 O(∩_∩)O哈哈~
    @kungfuchicken 站长你好~~摸摸头~~~站长不要改版~~~放新人一条生路~~~阿门~~~
    @66beta 雅虎不有个管道啥的。。。专门搞这个~~~
    lightryanking
        21
    lightryanking  
       2015-02-16 23:12:28 +08:00
    = =你们玩的太高级了。。。不会python啊
    以前火车头采过1024
    Twinkle
        22
    Twinkle  
       2015-02-16 23:13:48 +08:00
    写的第一个爬虫也是爬妹子图,可谓动力十足 >.>
    aaaa007cn
        23
    aaaa007cn  
       2015-02-17 01:17:06 +08:00
    @jason52
    我觉得简单的用用 urllib、urllib2 差不多
    要是 cookie、referer、ua、代理一起上
    我宁可在 python 中调用 curl 也不想和各种 opener 去搅
    直到遇到了 requests
    但是 curl 直接支持 socks 代理在某些情况下还是要比 python 方便点
    gyorou
        24
    gyorou  
       2015-02-17 16:54:09 +08:00
    http://blog.nigbee.pink:3000/ 这个行么。

    打开前先确定周围没人特么。
    url
        25
    url  
       2015-02-17 21:15:19 +08:00 via Android
    @gyorou 你好厉害
    yepinf
        26
    yepinf  
       2015-02-18 08:49:26 +08:00
    “先上淘宝买代理吧。。。。” 求个靠谱链接
    jimmy66
        27
    jimmy66  
       2015-02-20 19:42:41 +08:00
    re.findall 返回的是list不是元组。。原谅我的强迫症吧
    jason52
        28
    jason52  
    OP
       2015-02-20 20:58:48 +08:00
    @jimmy66 对对对,偶想当然了~~~
    Delbert
        29
    Delbert  
       2015-02-26 10:40:40 +08:00
    你视频里面是 cat pic |sed 's/"/\n/g'| grep 'http.*(gif|jpg)'
    但是我需要改成 cat pic |sed 's/"/\n/g'| grep 'http.*[gif|jpg]'
    才可以正常正则筛选。
    是我和你grep的版本不同吗?
    wind3110991
        30
    wind3110991  
       2015-04-01 19:49:25 +08:00
    mark下先~
    mingyun
        31
    mingyun  
       2015-04-05 18:00:39 +08:00
    @gyorou 就等你了,哈哈
    ivanchou
        32
    ivanchou  
       2015-04-21 12:32:50 +08:00
    百度云链接失效了?
    plantparknet
        33
    plantparknet  
       2015-07-12 03:56:48 +08:00
    现在这种方法失效了,必须要用header~~
    plantparknet
        34
    plantparknet  
       2015-07-12 04:21:55 +08:00
    jandan增加反爬虫了。。。
    jason52
        35
    jason52  
    OP
       2015-07-12 08:12:38 +08:00 via Android
    @plantparknet 大概练手的家伙太多了。。。
    plantparknet
        36
    plantparknet  
       2015-07-12 12:58:13 +08:00
    @jason52 终于有机会需要把教程更新下啦~~
    jason52
        37
    jason52  
    OP
       2015-07-12 14:06:30 +08:00 via Android
    @plantparknet 最近忙成狗,应该暂时不更新啦~~~不过要加个header你可以仿照后面几课试试。~~~
    Want
        38
    Want  
       2016-08-15 23:29:47 +08:00
    你的视频链接掉了

    快点更新啊
    ibiner
        39
    ibiner  
       2016-08-16 04:09:23 +08:00
    不错。
    1 呢?
    kela
        40
    kela  
       2016-08-16 23:27:10 +08:00 via Android
    求视频
    Dye8
        41
    Dye8  
       2016-08-26 11:59:36 +08:00 via Android
    视频链接挂了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4188 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 00:12 PVG 08:12 LAX 16:12 JFK 19:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86