也来一发,豆瓣害羞组读图版 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
binux
V2EX    分享创造

也来一发,豆瓣害羞组读图版

  •  4
     
  •   binux
    binux 2014-10-26 21:16:15 +08:00 26439 次点击
    这是一个创建于 4049 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到有人专名写一个爬虫,于是用手上的东西,做了一个这个东西。
    先直接上地址: https://f.binux.me/haixiuzu.html

    pyspider DEMO版 + 多说 做数据库 + 前端渲染一个瀑布流

    嘿,还真像那么回事有没有。

    那么问题来了,还有哪些免费的 KV 数据库,有 HTTP API 的,能公开读取数据的。
    多说老是转义导入的数据。。

    44 条回复    2018-12-04 07:18:38 +08:00
    oojiayu
        1
    oojiayu  
       2014-10-26 21:44:01 +08:00
    赞一个
    ihacku
        2
    ihacku  
       2014-10-26 22:03:00 +08:00
    CouchDB?
    ChiangDi
        3
    ChiangDi  
       2014-10-26 22:08:39 +08:00
    豆瓣好奇怪,为什么那么多妹纸晒。。
    can
        4
    can  
       2014-10-26 22:09:33 +08:00
    不是说晚上管理员一下班,这组就……?
    binux
        5
    binux  
    OP
       2014-10-26 22:11:20 +08:00
    @ihacku 不想要自己搭啊
    Shared
        6
    Shared  
       2014-10-26 22:15:19 +08:00
    为什么有css和js文件不能加载,主页裸奔了
    jprovim
        7
    jprovim  
       2014-10-26 22:37:20 +08:00   2
    Firebase, 被google收. @binux
    shoumu
        8
    shoumu  
       2014-10-26 22:38:30 +08:00
    看不到图啊
    binux
        9
    binux  
    OP
       2014-10-26 22:40:54 +08:00
    @Shared 反正我就是单文件,加载的CDN,打不开找又拍云
    @shoumu 你用 https 了吗
    shoumu
        10
    shoumu  
       2014-10-26 22:42:49 +08:00
    @binux 直接点的你给的那个地址
    shoumu
        11
    shoumu  
       2014-10-26 22:43:30 +08:00   1
    @binux
    控制台信息

    Failed to load resource: net::ERR_SSL_VERSION_OR_CIPHER_MISMATCH https://static.duoshuo.com/embed.unstable.js
    Uncaught ReferenceError: DUOSHUO is not defined haixiuzu.html:62
    douban
    binux
        12
    binux  
    OP
       2014-10-26 22:45:54 +08:00
    @shoumu 你浏览器的问题
    shakoon
        13
    shakoon  
       2014-10-26 22:47:02 +08:00
    不能翻页&说好的瀑布流呢?是因为采集数据还太少么
    flyphy
        14
    flyphy  
       2014-10-26 22:48:29 +08:00   1
    试试撸女神
    http://lunvshen.com
    binux
        15
    binux  
    OP
       2014-10-26 22:58:03 +08:00
    @shakoon 是兼容性bug吧,chrome是没问题的
    kmvan
        16
    kmvan  
       2014-10-26 23:21:36 +08:00
    是啥语言采集的?
    binux
        17
    binux  
    OP
       2014-10-26 23:25:56 +08:00
    gipsymoth
        18
    gipsymoth  
       2014-10-27 09:18:42 +08:00
    这个好
    muziyue
        19
    muziyue  
       2014-10-27 09:51:33 +08:00
    有没有能判断性别的图像处理方案……
    jacob
        20
    jacob  
       2014-10-27 17:24:55 +08:00
    害羞组是啥玩意,这些图看得我都害羞了- -
    lubuwei
        21
    lubuwei  
       2014-10-27 18:21:22 +08:00
    呃,下班再打开看看......
    shakespark
        22
    shakespark  
       2014-10-29 08:50:05 +08:00
    为啥里面还有丁丁...
    shakespark
        23
    shakespark  
       2014-10-29 08:54:14 +08:00
    理解了...各种晒10分钟的图被lz抓取了啊哈哈哈
    hydyy
        24
    hydyy  
       2014-10-29 09:31:21 +08:00
    。。。
    chilaoqi
        25
    chilaoqi  
       2014-10-29 10:42:58 +08:00
    这么多丁丁 大丈夫?
    binux
        26
    binux  
    OP
       2014-10-29 10:47:11 +08:00
    @chilaoqi 别人要发,而且不是发我这,数据也不存我这。。我有什么办法。。
    axe
        27
    axe  
       2014-10-29 15:29:25 +08:00
    害羞组是用来约约约的吗。。
    yangkeao
        28
    yangkeao  
       2014-10-29 17:34:45 +08:00
    我想知道多说做数据库是什么情况。。
    binux
        29
    binux  
    OP
       2014-10-29 18:46:42 +08:00
    @yangkeao 抓到一条数据之后,往多说上发一条评论,评论内容就是抓到数据。
    然后页面取最新评论就行了。
    gkuchan
        30
    gkuchan  
       2014-10-29 19:17:27 +08:00
    …… 能不能把女人删掉 搞一个只有男人的版本……
    Qulyf
        31
    Qulyf  
       2014-10-30 17:25:31 +08:00
    @gkuchan ←← 好像暴露了什么...
    alsotang
        32
    alsotang  
       2014-11-01 20:52:13 +08:00
    碉堡了
    2232588429
        33
    2232588429  
       2014-11-02 00:49:20 +08:00
    这个数据库是采到26号的?上限怎么定的?
    binux
        34
    binux  
    OP
       2014-11-02 00:55:21 +08:00
    @2232588429 我只采集了第一页,我是从26号开始采集的。
    wh1100717
        35
    wh1100717  
       2014-11-20 22:33:20 +08:00   1
    其实你这个还可以加以下功能:
    1. 定时check你抓下来的帖子是否删除,如果删除,则高亮显示(原因你懂的)
    2. 想办法用算法把广告过滤掉...
    3. 增加手动点击发豆油功能(原因你懂的)
    4. 增加几个组一起check好了==!

    我也写了个一个类似的东西...不过写完就觉得无趣懒得完善了,哈哈
    binux
        36
    binux  
    OP
       2014-11-20 22:39:28 +08:00
    @wh1100717 我就试试我的爬虫,一个晚上做的,我也懒得完善
    mnhkahn
        37
    mnhkahn  
       2015-02-25 08:50:41 +08:00
    大哥你这个有些图多说那边没给你处理么?
    binux
        38
    binux  
    OP
       2015-02-25 17:57:21 +08:00 via Android
    @mnhkahn 处理什么
    lukew
        39
    lukew  
       2016-01-15 14:03:34 +08:00
    @binux
    好项目 最近需要搭建一个爬虫系统 果断上手!
    想问下 这个项目还是活的吧?
    binux
        40
    binux  
    OP
       2016-01-15 18:25:15 +08:00
    @lukew 没死
    lukew
        41
    lukew  
       2016-01-18 18:25:55 +08:00
    @binux 关于网站或者 app 的登录貌似文档中没有具体的描述
    能否加个微信?
    lukew
        42
    lukew  
       2016-01-19 11:05:42 +08:00
    @binux 如果要抓去 app 客户端,纯 http 的 api 接口,需要 https 的支持,登录这些操作
    是否合适用 pyspider ?
    binux
        43
    binux  
    OP
       2016-01-19 19:23:38 +08:00
    @lukew 没有跨任务会话管理, 需要你手动管理 cookie 保持登陆.
    zkeeper
        44
    zkeeper  
       2018-12-04 07:18:38 +08:00
    妈的来晚了, 啥都看不见
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1066 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 23:23 PVG 07:23 LAX 15:23 JFK 18:23
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86