为什么爬一些简单的福利站总能引起巨大关注量? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
LastingTime
V2EX    程序员

为什么爬一些简单的福利站总能引起巨大关注量?

  •  2
     
  •   LastingTime 2017-11-06 10:14:44 +08:00 12133 次点击
    这是一个创建于 2896 天前的主题,其中的信息可能已经有所发展或是发生改变。
    没有贬低的意思, 只是好奇一从些简单的公开的网站上爬下来些妹子图、福利图等
    然后发在 V2EX 就这么受欢迎和关注..
    尤其是程序员版块, 这不是稍微会点 HTTP 相关技能就能做到的事情吗?
    73 条回复    2022-12-21 13:05:17 +08:00
    Immortal
        1
    Immortal  
       2017-11-06 10:17:01 +08:00   4
    这和技术没啥关系
    rocksolid
        2
    rocksolid  
       2017-11-06 10:17:21 +08:00   2
    talk is cheap, show me the code
    Devmingwang
        3
    Devmingwang  
       2017-11-06 10:17:51 +08:00 via Android
    色心的驱使。
    ssshooter
        4
    ssshooter  
       2017-11-06 10:18:11 +08:00
    切,男人.jpg
    holajamc
        5
    holajamc  
       2017-11-06 10:18:48 +08:00
    我写了一个汤不热的爬虫= =根据 following 和 follower 继续抓取,写的太菜没发
    Luckyray
        6
    Luckyray  
       2017-11-06 10:20:01 +08:00
    技术不是一切
    zrj766
        7
    zrj766  
       2017-11-06 10:21:58 +08:00 via Android
    都喜欢看漂亮妹子,滑稽
    shuaige
        8
    shuaige  
       2017-11-06 10:23:44 +08:00 via Android
    1、这和技术没关系
    2、性是第一生产力
    likuku
        9
    likuku  
       2017-11-06 10:25:57 +08:00
    建议楼主作个爬各种漂亮汉子图的爬虫站...反响也不会差
    XiaoFaye
        10
    XiaoFaye  
       2017-11-06 10:28:29 +08:00 via Android
    食色性也,几千年前的人都知道,楼主没理由不知道啊!
    LastingTime
        11
    LastingTime  
    OP
       2017-11-06 10:29:08 +08:00
    @shuaige
    @Immortal
    @Devmingwang
    @Luckyray
    然而即使拿到源码或拿到那几个 G 的图片, 真的会一张张翻吗?
    我觉得跟之前裸贷的接近 10 个 G 下载下来随便看几张就全删了会是同一个结果吧..
    mooncakejs
        12
    mooncakejs  
       2017-11-06 10:29:29 +08:00   1
    楼主要是知道互联网超过一半以上流量是色情相关,会不会惊讶
    LastingTime
        13
    LastingTime  
    OP
       2017-11-06 10:31:54 +08:00
    @mooncakejs
    并不惊讶, 但是跟这个问题 性质好像不太一样. 毕竟咱们这波人是自己可以根据自己的喜好定制抓取..
    另外你应该想表达,人为流量的一半以上是色情吧, 互联网 9.7 成流量是机器干的..
    tscat
        14
    tscat  
       2017-11-06 10:39:54 +08:00
    互联网上,大部分社交软件,发家的时候往往伴随着 色 这个字眼。
    马化腾还在 qq 上假装少妇和人聊天呢,什么微信摇一摇,陌陌。然后直播,除了游戏,还有很大一部分还是色流。
    testcount
        15
    testcount  
       2017-11-06 10:44:39 +08:00 via Android   1
    想多了,关注这种东西的大多数都是刚开始学编程的小娃娃,而且觉得“这个东西对我好像有点用,照着抄一下,成就感爆棚”。V 站大多数编程老鸟根本不会点开链接看的,点开了最多看下实现有啥猫腻。
    LastingTime
        16
    LastingTime  
    OP
       2017-11-06 10:52:03 +08:00
    @testcount 明白人
    stephenyin
        17
    stephenyin  
       2017-11-06 11:54:19 +08:00   1
    程序员就一定会 html 和爬虫么?我不会爬,所以别人爬到我会看的很开心。BTW,看起来 v2 已被前端占领。。。
    HeyWeGo
        18
    HeyWeGo  
       2017-11-06 12:06:14 +08:00
    除了食色性也,君不见,很多人还有收藏的心理,不看放着也挺好~
    gamexg
        19
    gamexg  
       2017-11-06 12:34:42 +08:00 via Android
    @LastingTime 别说翻了,爬虫也只是看一眼加个星标就完事,根本不会下载爬虫。
    LastingTime
        20
    LastingTime  
    OP
       2017-11-06 12:53:21 +08:00
    @stephenyin 哈哈哈 也有道理
    LastingTime
        21
    LastingTime  
    OP
       2017-11-06 12:53:51 +08:00
    @HeyWeGo
    @gamexg
    恩跟 15 楼朋友一个意思
    nuansediao
        22
    nuansediao  
       2017-11-06 13:00:12 +08:00
    曲高和寡~~~你跟我谈流体力学,我也得能接的上话呀。
    coderluan
        23
    coderluan  
       2017-11-06 13:05:00 +08:00   1
    你以为是发爬虫?其实是在发网站!!!

    发个不知名小福利网站才会被点赞,发煎蛋这种烂大街只能被鄙视和吐槽。
    ZYX0819
        24
    ZYX0819  
       2017-11-06 13:12:36 +08:00
    @holajamc 不翻墙的话能看你的内容吗。。可以的话跪求啊
    woscaizi
        25
    woscaizi  
       2017-11-06 13:20:42 +08:00
    其实也没那么受欢迎吧。
    x86
        26
    x86  
       2017-11-06 13:24:48 +08:00
    煎蛋福利图那种叫养眼,色?
    jin5354
        27
    jin5354  
       2017-11-06 13:37:51 +08:00   1
    跟做 vue 高仿美团外卖饿了么 能拿好多 star 是一个道理
    『这个东西我好像能看懂,照着抄一下,成就感爆棚』
    stzz
        28
    stzz  
       2017-11-06 13:45:48 +08:00
    @LastingTime 不要代表所有人,10 个 G 的图片我就都看了
    没错,我这种人就是这些图片的目标群体~
    holajamc
        29
    hlajamc  
       2017-11-06 13:46:58 +08:00
    @ZYX0819 前置条件是有一个前端= =我不会
    akira
        30
    akira  
       2017-11-06 14:02:03 +08:00
    整天讨论代码很无聊的。。
    ylsc633
        31
    ylsc633  
       2017-11-06 14:32:38 +08:00
    以前入行时候, 随手爬了一下 达盖尔.. 到现在还有人找我要那一段代码呢.....

    可能是市场需要吧..

    最近几个公众号推送几个直播给我...

    全是 肉色表演..

    一个房间同时观看的有好几千... 而且这些软件,隔个两三天就换证书(ios),几乎每天就会更新一次,且 一个星期左右就会换 logo 和名字... 然后一个月后,app 就会停了... 换新的!

    还是市场需要....
    8355
        32
    8355  
       2017-11-06 14:40:43 +08:00
    大家都是写代码 为什么工资有高低?
    linuxchild
        33
    linuxchild  
       2017-11-06 14:43:10 +08:00
    @ylsc633 老司机不开个车?
    linuxchild
        34
    linuxchild  
       2017-11-06 14:43:26 +08:00
    楼主只看见了技术,没看见人性。
    oldmenplus
        35
    oldmenplus  
       2017-11-06 15:03:12 +08:00 via Android
    程序员。。。( Д`)=3
    chenhaifeng
        36
    chenhaifeng  
       2017-11-06 15:06:20 +08:00   1
    这就是为什么做的比抨击的厉害的原因。
    wangfei324017
        37
    wangfei324017  
       2017-11-06 15:10:42 +08:00
    Python 爬虫确实太牛了,GitHub 上发现个爬某位 tumblr 博主的全部视频照片代码,买了搬瓦工 vps 做中转,一个月 1T 流量都被我用光了……
    helica
        38
    helica  
       2017-11-06 15:12:23 +08:00 via iPhone
    (当人们发现手机可以看黄片)
    yuhr123
        39
    yuhr123  
       2017-11-06 15:15:53 +08:00
    性是科技发展的主要驱动力 原话不是这么说的,但就是这意思。
    LastingTime
        40
    LastingTime  
    OP
       2017-11-06 15:30:49 +08:00
    @stzz 好的吧...
    LastingTime
        41
    LastingTime  
    OP
       2017-11-06 15:32:02 +08:00
    @coderluan 我就是看到那个爬煎蛋的, 技术也不难, 网站也没墙, 关注的人还不少, 所以很奇怪
    LastingTime
        42
    LastingTime  
    OP
       2017-11-06 15:32:44 +08:00
    @jin5354 懂你意思
    Sain
        43
    Sain  
       2017-11-06 15:33:22 +08:00
    @ylsc633 求公众号
    LastingTime
        44
    LastingTime  
    OP
       2017-11-06 15:34:48 +08:00
    @ylsc633 确实, 能生存说明有需求有市场, 有对应的受众, 倒是我想多了
    LastingTime
        45
    LastingTime  
    OP
       2017-11-06 15:35:56 +08:00
    @chenhaifeng 没明白, 什么意思?
    pq
        46
    pq  
       2017-11-06 15:40:49 +08:00
    @LastingTime 可能多数人懒得自己动手吧,你自己东扒一点西抓一把多费事,这下人家给你一下子给了你一箩筐现成的,肯定就吸引人了。

    比如你弄个 app,将各种福利直播整合到一起,肯定有市场(不过,这种玩意现在已经有很多了,不过还没有免费的)。。。:D
    surv2ex
        47
    surv2ex  
       2017-11-06 15:57:57 +08:00
    好色之心,人皆有之
    coderluan
        48
    coderluan  
       2017-11-06 16:01:04 +08:00
    @LastingTime #41 那个没受欢迎啊,大多数吐槽和鄙视的
    tdstevelx333
        49
    tdstevelx333  
       2017-11-06 16:03:41 +08:00 via Android
    @wangfei324017 能请教下那个代码的地址?
    hanxiaoqiang
        50
    hanxiaoqiang  
       2017-11-06 16:05:56 +08:00 via iPhone
    话说,从哪里开始爬的呢?
    Tunar
        51
    Tunar  
       2017-11-06 16:44:43 +08:00
    看妹子而已
    rswl
        52
    rswl  
       2017-11-06 17:58:13 +08:00
    跟技术无关 两个同标题的帖子一个封面有小姐姐一个没有你猜哪个点击率高
    zcc0810
        53
    zcc0810  
       2017-11-06 18:11:21 +08:00
    心之所向,性之所往
    woshinide300yuan
        54
    woshinide300yuan  
       2017-11-06 18:16:51 +08:00
    哈哈~ 纯属凑热闹嘛。毕竟其他领域可能还涉及到有没有兴趣的问题。福利谁会没兴趣哦~~~~~~
    stcasshern
        55
    stcasshern  
       2017-11-06 18:18:23 +08:00
    开个不好笑的玩笑,露珠有点像进入贤者时间了哈哈。
    ii4Rookie
        56
    ii4Rookie  
       2017-11-06 18:52:59 +08:00
    这种东西一个人看是没意思的,要一起分享 大家才会觉得有意思
    momocraft
        57
    momocraft  
       2017-11-06 18:54:26 +08:00
    门槛低。更复杂的事,哪怕更有价值,这些人未必看得懂。
    c4fun
        58
    c4fun  
       2017-11-06 19:16:09 +08:00
    都是来看网址的
    sola97
        59
    sola97  
       2017-11-06 20:47:46 +08:00 via Android
    @holajamc 我按照这个规则,爬了 tumblr 的上万个视频,精品要百里挑一,人工筛选吃不消,最后就按标题挑了一些来看然后就没兴致了
    idblife
        60
    idblife  
       2017-11-06 21:41:44 +08:00
    让我来上个网址吧
    爬虫保证不了质量啊

    https://qingbuyaohaixiu.com/
    ryd994
        61
    ryd994  
       2017-11-07 02:08:28 +08:00 via Android
    重点在福利而不在简单
    你要有能力爬复杂的福利站,一样有流量
    zjlin1984
        62
    zjlin1984  
       2017-11-07 08:24:15 +08:00
    @ryd994 这个见解比较好。
    fish19901010
        63
    fish19901010  
       2017-11-07 09:25:26 +08:00
    重点在福利不在简单+1,我相信就算人工保存下来过来发帖,一样能够很高人气。。。关键在于分享的快乐,以及聚众看片的那种感觉。
    holajamc
        64
    holajamc  
       2017-11-07 09:34:51 +08:00
    @sola97 嗯我也没有细细看过,不如抽出来关键帧去阿里鉴别一下?
    yuxuan
        65
    yuxuan  
       2017-11-07 09:55:11 +08:00
    最大的乐趣还是 “卧槽 我在办公室直接打开了 XXX 就在我旁边”
    jijiwaiwai
        66
    jijiwaiwai  
       2017-11-07 10:55:04 +08:00
    #encoding=utf8
    import re
    import os
    import urllib
    import requests
    import download_progress
    from pyquery import PyQuery

    httplib = requests.Session()
    # httplib.proxies = {
    # "http": "127.0.0.1:1080",
    # "https": "127.0.0.1:1080",
    # }
    httplib.proxies = None

    BASE_URL = "http://www.91porn.com"
    # BASE_URL = "http://email.91dizhi.at.gmail.com.7h4.space"
    HOST = BASE_URL.replace("http://", "")
    headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, sdch",
    "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6,ja;q=0.4",
    "Cache-Control": "max-age=0",
    "Connection": "keep-alive",
    "Upgrade-Insecure-Requests": "1",
    "Cookie": "__cfduid=db012482c270fa1f5ded2903a6e23bc7c1489314005; CLIPSHARE=mkfverli1mp659s49rklg7s4c6; watch_times=1; evercookie_cache=undefined; evercookie_etag=undefined; show_msg=3; 91username=dfdsdfdgfgdfgf; DUID=51a2l
    wwqvsbLKLuC8GzQhovxkJIoz3nOTQ3cXXjR4w31%2FFE; USERNAME=18f7vcdO6LmTdVWCgMCD1L0IVQqGLjL0BWT%2FxBYxbXDXzFxQRSnfKsKTVg; user_level=1; EMAILVERIFIED=no; level=1; __utma=69831812.144777271.1489314006.1489314006.1489322790.2; __utmb=69
    831812.0.10.1489322790; __utmc=69831812; __utmz=69831812.1489314006.1.1.utmcsr=91dizhi.space|utmccn=(referral)|utmcmd=referral|utmcct=/; AJSTAT_ok_pages=8; AJSTAT_ok_times=2",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"
    }

    def get_vids_v1():
    url = "%s/v.php?category=top&viewtype=basic" %BASE_URL
    data = httplib.get(url, headers=headers).content
    DOM = PyQuery(data)
    a_list = DOM("div.listchannel a")
    urls = []
    for i in range(len(a_list)):
    href = a_list.eq(i).attr("href")
    if "viewkey" in href:
    urls.append(href)
    # print href

    urls = list(set(urls))
    # print "\n".join(urls)
    return urls

    def get_vids():
    url = "%s/index.php" %BASE_URL
    data = httplib.get(url, headers=headers).content
    DOM = PyQuery(data)
    a_list = DOM("div#tab-featured a")
    urls = []
    for i in range(len(a_list)):
    href = a_list.eq(i).attr("href")
    if "viewkey" in href:
    urls.append(href)
    # print href

    urls = list(set(urls))
    # print "\n".join(urls)
    return urls

    def get_video_url_v1(url):
    data = httplib.get(url, headers=headers, timeout=10).content
    data = data.replace("\n", "")
    data = data.replace(" ", "")
    # print data
    """
    <title> xxxx-Chinese homemade video</title>
    so.addVariable('file','201812');
    so.addVariable('max_vid','202377');
    so.addVariable('seccode' , '842fa039535238905a93ccb961e21183');
    """
    # print re.findall("so.addVariable.+?so.write", data)

    title = re.findall("<title>(.+?)-(.+?)</title>", data)[0]
    VID = re.findall("so.addVariable\('file','(\d+)'\);", data)[0]
    max_vid = re.findall("so.addVariable\('max_vid','(\d+)'\);", data)[0]
    seccode = re.findall("so.addVariable\('seccode','(.+?)'\);", data)[0]

    getfile_url = "%s/getfile.php?VID=%s&mp4=0&seccode=%s&max_vid=%s" %(BASE_URL, VID, seccode, max_vid)
    # print getfile_url
    """
    file=http%3A%2F%2F192.240.120.2%2Fmp43%2F202132.mp4%3Fst%3DeGVzsftsOLn7pxPgdeV-dg%26e%3D1489306723&domainUrl=http://91porn.ro.lt&imgUrl=http://img.file.am/91porn/>
    """
    headers["Referer"] = url
    headers["X-Requested-With"] = "ShockwaveFlash/23.0.0.207"
    headers["Accept"] = "*/*"
    headers["Host"] = "*/*"
    headers["Connection"] = "keep-alive"

    data = httplib.get(getfile_url, headers=headers, timeout=10).content
    # print data.strip()
    video_url = data.split("&domainUrl=")[0].split("file=")[-1]
    video_url = urllib.unquote(video_url)
    # print video_url
    print VID, title, video_url
    return VID, video_url

    def get_video_url(url):
    data = httplib.get(url, headers=headers, timeout=10).content
    data = data.replace("\n", "")
    data = data.replace("\r", "")
    video_url = re.findall('<source src="(.+?)"', data)[0]
    title = re.findall('<div id="viewvideo-title">(.+?)</div>', data)[0]
    # print video_url
    print title.decode("utf8")
    print video_url
    return title, video_url


    def download_video(video_url, file_name):
    if os.path.exists(file_name):
    return True

    cOnn= urllib.urlopen(video_url)
    data = download_progress.chunk_read(conn, report_hook=download_progress.chunk_report)
    f = open(file_name, "wb")
    f.write(data)
    f.close()



    urls = get_vids()
    for url in urls:
    print "=" * 60
    print url
    try:
    title, video_url = get_video_url(url)
    title = title.replace("/", "-")
    title = title.replace("?", "-")
    title = title.replace(":", "-")
    title = title.replace("\\", "-")
    title = title.replace("(", "")
    title = title.replace(")", "")
    title = title.replace("&", "-")
    title = title.replace(" ", "-")
    title = title.replace("\"", "")
    title = title.replace("'", "")

    file_name = "downloads/%s.mp4" %(title)
    # file_name = "%s.mp4" %(url.split("viewkey=")[-1].split("&")[0])
    # print video_url
    download_video(video_url, file_name)

    os.system("echo 11111 >> %s" %file_name)

    except Exception as e:
    # print e
    pass
    ic3z
        67
    ic3z  
       2017-11-07 11:01:55 +08:00 via Android
    为什么讨论爬福利站的帖子的帖子也能引起巨大关注量
    sola97
        68
    sola97  
       2017-11-07 12:27:51 +08:00
    @holajamc #64 阿里要是能鉴别是欧美的还是亚洲的就好了哈哈
    holajamc
        69
    holajamc  
       2017-11-07 14:22:41 +08:00
    @sola97 我觉得根据音频嗯说不定可以(滑稽.png
    LastingTime
        70
    LastingTime  
    OP
       2017-11-08 11:50:49 +08:00
    @holajamc six six six
    holajamc
        71
    holajamc  
       2017-11-08 12:29:51 +08:00
    @LastingTime 设想是这样的根据音频识别文字然后 testrank 算出来关键文本最后 ngram 推测语言 2333
    wangfei324017
        72
    wangfei324017  
       2017-12-05 10:27:22 +08:00
    5ipapa
        73
    5ipapa  
       2022-12-21 13:05:17 +08:00
    嘟嘟嘟 发车了
    t.9217lu.com/t8k2c8
    收藏不迷路
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2663 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 00:19 PVG 08:19 LAX 17:19 JFK 20:19
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86