疫情区间没什么事情做,抓了一些抖音的数据 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
dhlwing
V2EX    程序员

疫情区间没什么事情做,抓了一些抖音的数据

  •  4
     
  •   dhlwing 2020-02-24 14:49:11 +08:00 13693 次点击
    这是一个创建于 2107 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有兴趣的可以访问这里:https://dds.lookeridea.com/admin/douyin/authors

    2 月 16 号到现在抓了 50 多万的作者信息,接下来准备做一些热点的视频分析,比如作者的归类,视频热度监控等。 不知道还有什么可玩性。

    另外请教下各位这种类型的数据分析如果做商用的话有什么法律风险吗?我看到一些其他网站比如飞瓜也在做类似的业务。不知道他们怎么规避相关的风险

    第 1 条附言    2020-02-24 18:38:03 +08:00
    暂时不对外开放,有兴趣访问的可以单独私信我
    第 2 条附言    2020-02-26 09:47:32 +08:00
    感谢各位老铁的良言相劝
    v2 上的高人很多,有人上去后不断的测试数据,之前的分页没有设置最大数值,有人一次分页使用几百条到几万页,数据库差点崩掉,感谢你们的测试。

    另外说吃牢饭的朋友们,尤其感谢你们,我主贴就是在问风险问题,感谢你们的不吝赐教,但是我还是想多说一句,在中国乃至全球,商业行为都没有什么高尚与不高尚的道德可言,你们大概忘记了你们日常使用的百度或者 google 的数据是从哪里来的。再说今日头条,他的内容一开始是怎么来的,这不用我多说了吧?放眼整个中国互联网发展史,哪些大厂,曾经的 bat,某些时候他们的手段也依然有人不齿的一面。因为这就是商业,这就是商业生存的法则
    95 条回复    2020-02-26 17:53:47 +08:00
    3K1yf6UvnVz5w008
        1
    3K1yf6UvnVz5w008  
       2020-02-24 14:52:23 +08:00
    我想问问这是怎么抓的呢
    dhlwing
        2
    dhlwing  
    OP
       2020-02-24 14:54:27 +08:00
    @gebishushu 做了一些 app 的逆向
    miao666
        3
    miao666  
       2020-02-24 15:06:25 +08:00 via Android
    。。。
    herozzm
        4
    herozzm  
       2020-02-24 15:09:13 +08:00
    layer 玩的 666,用了啥数据库?
    andylsr
        5
    andylsr  
       2020-02-24 15:11:40 +08:00 via Android
    做 app 逆向已经明确触犯条款了
    taotaodaddy
        6
    taotaodaddy  
       2020-02-24 15:11:46 +08:00 via Android
    已经踩进了灰色地带?
    Vegetable
        7
    Vegetable  
       2020-02-24 15:22:31 +08:00
    有意思,网站名字也是抄来的,UI 也是复制的,还不是一家,大哥你这一下子侵犯多少家?
    dhlwing
        8
    dhlwing  
    OP
       2020-02-24 15:24:55 +08:00
    @Vegetable 有抖大师这个网站吗?不好意思真不知道啊。。。。ui 是开源的 layer 啊
    dhlwing
        9
    dhlwing  
    OP
       2020-02-24 15:27:31 +08:00
    @Vegetable 搜了下 还真的有。。。不过好像网站并不能打开?
    lscho
        10
    lscho  
       2020-02-24 15:28:40 +08:00 via iPhone
    真不怕死啊,抓信息已经违法了。
    hackshen
        11
    hackshen  
       2020-02-24 15:30:38 +08:00
    老哥 很强大
    houlin
        12
    houlin  
       2020-02-24 15:38:10 +08:00 via Android   4
    数据很好,楼上说的别怕,可以看看新榜的数据监控的盈利模式,你这个数据我看了下,可以监控哪些作者在刷数据,对广告主,品牌商还是很有价值的,他们投广告,或者换量,就怕遇到数据作假的,你这个做成收费的,一次一查询或者包月
    Vegetable
        13
    Vegetable  
       2020-02-24 15:40:54 +08:00
    @dhlwing #8 你详情页左边那部分不是和飞瓜一毛一样的文案吗,监控下次发文这种都没改一下
    dhlwing
        14
    dhlwing  
    OP
       2020-02-24 15:44:20 +08:00
    @houlin 谢谢,很有启发

    @Vegetable 顶楼也说了飞瓜,详情是参照了他的
    IMCA1024
        15
    IMCA1024  
       2020-02-24 15:51:04 +08:00
    这数据我也想学习一下 有点意思
    psirnull
        16
    psirnull  
       2020-02-24 15:52:21 +08:00   1
    面向监狱开发
    TimPeake
        17
    TimPeake  
       2020-02-24 15:54:54 +08:00
    6 啊
    kissazi2
        18
    kissazi2  
       2020-02-24 16:30:50 +08:00
    看了用户名和密码,没有注册的地方,怎么搞?
    ersic
        19
    ersic  
       2020-02-24 16:32:57 +08:00
    @dhlwing #8 有个抖大大
    dhlwing
        20
    dhlwing  
    OP
       2020-02-24 16:34:27 +08:00
    @kissazi2 上面的几位大佬说的吓得我战战兢兢,赶紧把网页暂时关了
    asche910
        21
    asche910  
       2020-02-24 16:39:44 +08:00
    逆向做得好,牢饭吃到老(狗头
    2kCS5c0b0ITXE5k2
        22
    2kCS5c0b0ITXE5k2  
       2020-02-24 16:47:45 +08:00
    @houlin 官方本身就有假数据... 而且广告主找抖音不就行了
    SjwNo1
        23
    SjwNo1  
       2020-02-24 16:55:15 +08:00
    自投罗网还行
    EarthChild
        24
    EarthChild  
       2020-02-24 17:30:36 +08:00
    我想着你这有啥 json 接口呢。找了半天啥也没!啥也不是!!!
    feiniu
        25
    feiniu  
       2020-02-24 17:33:47 +08:00
    ????需要登录?
    shenjixiang
        26
    shenjixiang  
       2020-02-24 17:39:04 +08:00
    居然没搜到我的抖音号。。。
    EarthChild
        27
    EarthChild  
       2020-02-24 17:41:12 +08:00
    @shenjixiang #26 收到了 东北人(酱)在洛杉矶的抖音号。
    dhlwing
        28
    dhlwing  
    OP
       2020-02-24 17:47:13 +08:00
    @EarthChild 哈哈哈 你想干啥呢
    dhlwing
        29
    dhlwing  
    OP
       2020-02-24 17:48:8 +08:00
    @shenjixiang 少侠抖音多少,我收录观摩一下
    shenjixiang
        30
    shenjixiang  
       2020-02-24 17:52:10 +08:00
    @dhlwing 算了,算了,人红是非多。。
    Vegetable
        31
    Vegetable  
       2020-02-24 17:53:31 +08:00
    https://starsp.toutiao.com/ 官方的给大家看看
    h123123h
        32
    h123123h  
       2020-02-24 17:54:28 +08:00 via iPhone
    你还好意思发出来。。。。v 站不少字节的吧
    littlewing
        33
    littlewing  
       2020-02-24 18:13:44 +08:00
    律师函警告
    dhlwing
        34
    dhlwing  
    OP
       2020-02-24 18:22:24 +08:00
    @Vegetable 官方也不可能面面俱到,总有差异化的地方
    wangyzj
        35
    wangyzj  
       2020-02-24 18:52:47 +08:00
    我更好奇逆向代码
    c0py7hat
        36
    c0py7hat  
       2020-02-24 19:53:14 +08:00 via iPhone
    能帮助上热门不……
    netChen
        37
    netChen  
       2020-02-24 19:58:15 +08:00
    去年已经有一波爬虫公司被请去喝茶了,楼主明确说的是爬的抖音的,抖音背后是谁啊?况且去年的公司都是把爬虫美名成客户定制、潜在客户挖掘、定向客户获取等等,商业化??楼主还是玩玩算了,别想太多。
    rety2008
        38
    rety2008  
       2020-02-24 19:58:20 +08:00
    LZ 可以给个账号看一下吗?
    pyengwoei
        39
    pyengwoei  
       2020-02-24 20:01:16 +08:00
    留个联系方式哇
    tanghongkai
        40
    tanghongkai  
       2020-02-24 20:12:41 +08:00   3
    @rety2008 你猜猜账号密码是啥,拿出你们的社工经验,我一次就进去了
    yunxue
        41
    yunxue  
       2020-02-24 20:18:26 +08:00
    怎么私信,有联系方式吗
    Elethomdog
        42
    Elethomdog  
       2020-02-24 20:44:06 +08:00
    留个联系方式,聊一聊
    dhlwing
        43
    dhlwing  
    OP
       2020-02-24 21:10:38 +08:00
    @rety2008
    @pyengwoei
    @yunxue
    @Elethomdog
    联系微信同 v 站 id
    JerryCha
        44
    JerryCha  
       2020-02-24 21:47:41 +08:00
    楼主留个联系方式吧,待会头条的 HR 看到了就会邀你去面试了。
    exploreexe
        45
    exploreexe  
       2020-02-24 21:58:10 +08:00
    想知道 LZ 是怎么逆向的 有啥参考资料吗?之前一直想抓 不知道怎么玩。
    EarthChild
        46
    EarthChild  
       2020-02-24 21:59:01 +08:00
    @dhlwing #43 我能说我已经猜出来账号密码了吗?你别改就行。我加你微信聊一下。
    dhlwing
        47
    dhlwing  
    OP
       2020-02-24 22:01:11 +08:00
    @EarthChild 还真有人进去之后改了。。。
    hantsy
        48
    hantsy  
       2020-02-24 22:01:51 +08:00
    @netChen 这几年的确很多人靠这些数据赚大钱了。
    但是太危险,现在条子对计算机也不懂,爬数据在去年被抓的,判刑太多了。
    maitiantuzi
        49
    maitiantuzi  
       2020-02-24 22:06:57 +08:00
    这就是闲的
    hantsy
        50
    hantsy  
       2020-02-24 22:08:01 +08:00
    @dhlwing 想做这些数据应用,找个比他还大的靠山吧。
    yueshang1
        51
    yueshang1  
       2020-02-24 22:15:49 +08:00
    律师函警告
    linvaux
        52
    linvaux  
       2020-02-24 22:59:33 +08:00
    楼主吃牢饭前合影留念
    bolianlai
        53
    bolianlai  
       2020-02-24 23:05:37 +08:00 via iPhone
    我对代码逆向部分有点兴趣看看
    bengol
        54
    bengol  
       2020-02-24 23:09:47 +08:00 via Android
    祝你好运
    weiziyan
        55
    weiziyan  
       2020-02-24 23:23:50 +08:00 via Android   1
    认真的吗 双 admin ??
    dym
        56
    dym  
       2020-02-25 01:32:03 +08:00
    @tanghongkai 听你这么一说,我也一次性进去了!
    tanghongkai
        57
    tanghongkai  
       2020-02-25 01:42:39 +08:00 via iPhone
    @dym @weiziyan 我今天早上手贱随便改了个密码,想不到作者又给改回去了,属实
    laoyuan
        58
    laoyuan  
       2020-02-25 07:27:00 +08:00
    这个领域的法律和司法还不成熟,基本上只要你拿来赚钱了,就可以把你送进去。
    LinStar
        59
    LinStar  
       2020-02-25 08:15:51 +08:00
    果断盲猜居然进去了....
    devtk
        60
    devtk  
       2020-02-25 08:18:37 +08:00
    对母猪,我是警察
    benzzz
        61
    benzzz  
       2020-02-25 09:02:18 +08:00
    @tanghongkai #40 切回帖子看楼主有没有发个测试账号,看到你这条就懂了
    1rror
        62
    1rror  
       2020-02-25 09:29:16 +08:00
    0.0 弱密码进去了
    Nicoco
        63
    Nicoco  
       2020-02-25 09:31:22 +08:00
    老哥走好,app 逆向有点危险,保重!
    darknoll
        64
    darknoll  
       2020-02-25 09:48:46 +08:00
    楼主能不能教教我?
    CoderGeek
        65
    CoderGeek  
       2020-02-25 09:50:11 +08:00
    自己偷摸着玩还凑合 人家主要做内容 你爬了还明目张胆的散出来玩 也是厉害 v2 上不少头条的人 LZ 注意
    RouJiANG14
        66
    RouJiANG14  
       2020-02-25 09:50:35 +08:00
    @tanghongkai 看到这条,突然明白!
    samfan
        67
    samfan  
       2020-02-25 10:31:36 +08:00
    www 主站淘小铺 也 copy 过来的~ lz 强大
    goldenalex
        68
    goldenalex  
       2020-02-25 10:32:06 +08:00
    建议下线,自己弄弄可以,别公开出来啊。。。

    这是面向监狱的编程设计。。。
    evernight
        69
    evernight  
       2020-02-25 10:32:38 +08:00
    楼主,我们大厂招人,有意的话私聊
    gabezhao
        70
    gabezhao  
       2020-02-25 10:53:13 +08:00
    恭喜楼主获得限量版金手镯一副
    netChen
        71
    netChen  
       2020-02-25 11:49:53 +08:00
    @hantsy 说的太对了,看来老哥也是经常关注圈内信息啊,如果粗略算下来,去年被请喝茶的不低于十家公司。我认识的一个哥们去年在其中的杭州一家公司做前端,出事儿的那天早上赶巧迟到了,被其他关系好的同事透漏了消息,为了保险直接买火车票回老家了,但是他也是技术部的啊,结果刚两天就被他老家的派出所的同志给“引渡”杭州了,管吃管住了一个月,最后补齐了饭费和伙食费才被放出来了,2019 互联网寒冬,不是没有道理的。现在大家都知道有些信息能值大钱,但是还都不知道怎么合理用它,边界在哪儿
    huayumo
        72
    huayumo  
       2020-02-25 11:55:08 +08:00
    小心进去
    CosimoZi
        73
    CosimoZi  
       2020-02-25 12:00:03 +08:00 via Android
    赶紧收手,逆向 app 已经违法,用户信息更加碰不得,危险至极。
    reus
        74
    reus  
       2020-02-25 12:25:39 +08:00
    缺乏法律常识。
    你还敢给联系方式?
    danmary61
        75
    danmary61  
       2020-02-25 14:02:00 +08:00
    想问下,比如 Youtube 相关数据网站 Socialblade 这种已经精细到每个 Youtuber 的估算收益了,他们的数据是怎么来的?国内似乎刚兴起社交网络的时候还有类似的数据网站,可是后来就没人敢做了,现在已经是敏感地带了。
    deplives
        76
    deplives  
       2020-02-25 14:07:58 +08:00
    逆向完还收集用户数据,然而竟然还有层主建议出了盈利模式,你怕是在赌人家没有法务团队
    jon
        77
    jon  
       2020-02-25 14:16:13 +08:00
    好奇逆向代码
    Msxx
        78
    Msxx  
       2020-02-25 14:27:00 +08:00
    这些东西不都只能悄悄干吗?现在咱们村进步这么快的吗?!
    EminemW
        79
    EminemW  
       2020-02-25 15:02:59 +08:00
    密码又改了?
    fifa666
        80
    fifa666  
       2020-02-25 15:24:40 +08:00
    楼主还好吗?
    yitl666
        81
    yitl666  
       2020-02-25 15:51:42 +08:00
    兄弟你的胆子挺肥啊,还敢发到论坛,真当头条的人不上 v 站啊
    ihciah
        82
    ihciah  
       2020-02-25 16:07:08 +08:00
    入职头条的第一周,就被拉去听了“数据安全刑事风险培训”,主要就是讲爬虫风险。。
    未授权+逆向+绕过反爬+商业盈利,基本稳的。
    bytelee
        83
    bytelee  
       2020-02-25 17:00:58 +08:00
    面向监狱编程
    hikarumx
        84
    hikarumx  
       2020-02-25 17:03:32 +08:00
    估计要出事。、
    polymerdg
        85
    polymerdg  
       2020-02-25 17:06:10 +08:00
    抓包?
    lI7RfFpJ007NWnY1
        86
    lI7RfFpJ007NWnY1  
       2020-02-25 17:10:42 +08:00
    没有回复,估计进去了。lz 保重(狗头
    locoz
        87
    locoz  
       2020-02-25 17:47:49 +08:00
    商用了看人家心情,但是逆向了从接口爬的基本上被搞就必死
    2828kakafa
        88
    2828kakafa  
       2020-02-25 22:34:09 +08:00 via iPhone
    爬虫写的好,牢饭吃饭饱
    shmilypeter
        89
    shmilypeter  
       2020-02-26 02:35:41 +08:00
    @ihciah 我所知的是,如果你搜集了客户生产环境上的个人信息(包括姓名,联系方式,身份证号),一告一个准都是稳稳的,目前涉及到个人数据的,都是十分的敏感
    ihciah
        90
    ihciah  
       2020-02-26 09:33:24 +08:00 via iPhone
    @shmilypeter 嗯,我是说定罪稳的
    dhlwing
        91
    dhlwing  
    OP
       2020-02-26 09:49:14 +08:00
    感谢各位铁的良言相劝
    v2 上的高人很多,有人上去后不断的测试数据,之前的分页没有设置最大数值,有人一次分页使用几百条到几万页,数据库差点崩掉,感谢你们的测试。

    另外说吃牢饭的朋友们,尤其感谢你们,我主贴就是在问风险问题,感谢你们的不吝赐教,但是我还是想多说一句,在中国乃至全球,商业行为都没有什么高尚与不高尚的道德可言,你们大概忘记了你们日常使用的百度或者 google 的数据是从哪里来的。再说今日头条,他的内容一开始是怎么来的,这不用我多说了吧?放眼整个中国互联网发展史,哪些大厂,曾经的 bat,某些时候他们的手段也依然有人不齿的一面。因为这就是商业,这就是商业生存的法则
    liuqiangxi
        92
    liuqiangxi  
       2020-02-26 11:12:21 +08:00
    据我所知抓取用户下的视频是不用逆向的,抖音网页版就能抓取
    xiaoxiao001
        93
    xiaoxiao001  
       2020-02-26 14:38:55 +08:00
    留下联系方式可以聊下,我有资源,缺少技术
    kakeiri
        94
    kakeiri  
       2020-02-26 15:14:21 +08:00
    只要不是恶意攻击,拿来的数据不非法利用,都很正常,说人家非法的,只是你们想的太恶劣了,如果恶意攻击,楼主也不会发这些东西
    dhlwing
        95
    dhlwing  
    OP
       2020-02-26 17:53:47 +08:00
    @xiaoxiao001 联系方式上面有说到
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5288 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 45ms UTC 08:43 PVG 16:43 LAX 00:43 JFK 03:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86