我分析了 42 万字的歌词,为了搞清楚民谣歌手们在唱些什么 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
graetdk
23.15D
V2EX    分享创造

我分析了 42 万字的歌词,为了搞清楚民谣歌手们在唱些什么

  •  
  •   graetdk 2017-02-07 14:53:27 +08:00 11489 次点击
    这是一个创建于 3176 天前的主题,其中的信息可能已经有所发展或是发生改变。

    写了一个爬虫,然后做了一些数据分析

    文章链接: http://www.wdk.pw/1221.html

    当然,我也发在我的微信公众号了,欢迎关注:

    73 条回复    2017-02-09 15:23:43 +08:00
    jy02201949
        1
    jy02201949  
       2017-02-07 14:54:11 +08:00
    反光镜什么时候成民谣的歌手了,这不正儿八经的摇滚乐队么
    graetdk
        2
    graetdk  
    OP
       2017-02-07 14:54:51 +08:00
    @jy02201949 文章里有说明,我选了很多各种类型的做参考
    jy02201949
        3
    jy02201949  
       2017-02-07 14:56:59 +08:00
    @graetdk #2 看到了,我孙海英也入选了
    killerv
        4
    killerv  
       2017-02-07 15:03:22 +08:00
    有意思
    killsting
        5
    killsting  
       2017-02-07 15:06:49 +08:00 via iPhone
    有趣。
    DearTanker
        6
    DearTanker  
       2017-02-07 15:07:00 +08:00
    有意思
    mdaocao
        7
    mdaocao  
       2017-02-07 15:08:56 +08:00
    除了结论分析。。。建议把更直观的数据放出来
    graetdk
        8
    graetdk  
    OP
       2017-02-07 15:10:12 +08:00
    @mdaocao 主要读者是不懂技术的普通人,所以文章里说的都是结论和分析,数据和代码我在考虑完善一下再开源出来
    jiangzhuo
        9
    jiangzhuo  
       2017-02-07 15:10:13 +08:00
    "本次分析使用的是腾讯文智和哈工大社会计算与信息检索研究中心的自然语言处理模块,同时也在测试的时候使用了百度 AI 的自然语言处理,效果不好。"
    我哈工大还是很牛逼的
    graetdk
        10
    graetdk  
    OP
       2017-02-07 15:10:44 +08:00
    @jiangzhuo 几年前就用过了,很厉害
    itqls
        11
    itqls  
       2017-02-07 15:10:58 +08:00
    如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。。。。。
    -----
    哈哈这句有意思
    mdaocao
        12
    mdaocao  
       2017-02-07 15:11:38 +08:00
    @graetdk 可是,这是 v2 阿... 而且直观的结论,不需要什么技术吧。。。

    就比如那个 权重的词表,可惜不全...
    Sharuru
        13
    Sharuru  
       2017-02-07 15:16:51 +08:00
    还挺有趣的。
    graetdk
        14
    graetdk  
    OP
       2017-02-07 15:31:03 +08:00   1
    @mdaocao 下次发 V2 注意一下偏技术实现一点~
    allen0125
        15
    allen0125  
       2017-02-07 15:36:03 +08:00 via Android
    看了一遍之后感觉很棒啊
    mdaocao
        16
    mdaocao  
       2017-02-07 16:11:29 +08:00
    @graetdk 哈,谢谢,谢谢。

    其实我很想看到底从第一个词,到第 100 个词,到底都是些啥
    malagebidi
        17
    malagebidi  
       2017-02-07 16:26:21 +08:00 via iPhone
    会分析其他类型的歌吗
    graetdk
        18
    graetdk  
    OP
       2017-02-07 16:26:40 +08:00
    @malagebidi 比如说?
    yaoxuwang
        19
    yaoxuwang  
       2017-02-07 16:31:13 +08:00
    哈哈哈,好玩。同听民谣的来握个爪
    malagebidi
        20
    malagebidi  
       2017-02-07 16:32:18 +08:00 via iPhone
    @graetdk 摇滚歌曲(主要我蛮迷五月天,其他一众台湾摇滚还挺多的),华语情歌
    starvedcat
        21
    starvedcat  
       2017-02-07 16:39:42 +08:00
    和其他风格的歌词对比一下?
    JackyBao
        22
    JackyBao  
       2017-02-07 16:41:45 +08:00
    有点意思
    Fechin
        23
    Fechin  
    PRO
       2017-02-07 17:08:41 +08:00
    「我拿青春赌下个月 5 号」已笑。
    nareix
        24
    nareix  
       2017-02-07 17:19:10 +08:00
    谢天笑的正面情绪居然高于汪峰!!
    graetdk
        25
    graetdk  
    OP
       2017-02-07 17:27:48 +08:00
    @nareix 我猜是谢天笑的情绪很多时候并不是用歌词本身来表达的
    nareix
        26
    nareix  
       2017-02-07 17:44:13 +08:00
    @graetdk 歌词也有表达,没有明显负面的词汇,但情绪上非常负面。。
    torbrowserbridge
        27
    torbrowserbridge  
       2017-02-07 17:49:33 +08:00
    黄易小编也被吸引了
    graetdk
        28
    graetdk  
    OP
       2017-02-07 17:52:36 +08:00
    @nareix 这个只能期待以后人工智能能够处理音频中的情绪了
    EdwardC
        29
    EdwardC  
       2017-02-07 18:22:04 +08:00
    kaneg
        30
    kaneg  
       2017-02-07 18:46:59 +08:00 via iPhone   1
    这个分析很有趣,只是简单的用分词来提取情绪是有局限性的,因为词语只有在上下文才能体现其真正的意义,比如,“不要退缩”,“不高兴”,如果只提取退缩和高兴则与歌手表达的意思完全相反
    lavande
        31
    lavande  
       2017-02-07 19:18:13 +08:00   2
    数数春末南方的城市唱了多少个“心慌”。。。。
    zhouxuchen
        32
    zhouxuchen  
       2017-02-07 19:26:02 +08:00 via iPhone
    楼主的文章被别人被转到虎扑步行街了,不知道有没有得到楼主同意
    https://bbs.hupu.com/18424818.html
    fffflyfish
        33
    fffflyfish  
       2017-02-07 19:30:35 +08:00
    lz ,类似这种项目都是有监督的机器学习进行分类的吧?请问您用的语料库是什么?正好最近在看 nlp 的东西,无奈英文类似 movie_reviews 等语料库
    graetdk
        34
    graetdk  
    OP
       2017-02-07 19:37:40 +08:00
    @fffflyfish 我直接用的腾讯文智和哈工大的接口,语料库和机器学习不断优化都是他们做的事,也很感谢这些基础工作,我们这些底子薄一些的才能做出想做的东西
    graetdk
        35
    graetdk  
    OP
       2017-02-07 19:39:27 +08:00
    @zhouxuchen 不知道这件事,不过他注明了微博,我觉得没啥。不过虎扑流量真是大啊,我擦
    cfans1993
        36
    cfans1993  
       2017-02-07 19:44:55 +08:00
    好玩
    trythebest
        37
    trythebest  
       2017-02-07 20:21:27 +08:00
    不错 支持!
    iyaozhen
        38
    iyaozhen  
       2017-02-07 20:36:14 +08:00 via Android
    支持楼主,朋友圈已经开始火起来了
    davidqw
        39
    davidqw  
       2017-02-07 21:32:25 +08:00
    厉害了我的哥,帮转到音乐圈去
    Rorysky
        40
    Rorysky  
       2017-02-07 21:33:19 +08:00
    @jiangzhuo 语义分析,老本行了,当年 windows 刚进来,自带中文输入法就是和哈工大合作的,记得好像直到 windows 7 ?
    bluecrow
        41
    bluecrow  
       2017-02-07 22:40:16 +08:00 via iPhone
    “似曾相识”四个字已经够了。数据分析也就图个乐呵。
    eyp82
        42
    eyp82  
       2017-02-08 05:14:09 +08:00
    看了你的文章, 我感觉楼主的代码应该没什么出奇的, 就是用 Python 和相应的库爬数据然后分析一下而已, 估计 V 站很多同学都能做. 但是这创意真是非常的讨巧, 一般程序员想不到这些; 另外楼主文章写得也是读起来很舒服, 总之大写的服字. 综上我建议楼主是不是往网站运营方面发展一下? 估计比你做程序员更有前途啊..
    eyp82
        43
    eyp82  
       2017-02-08 05:19:27 +08:00
    另外感觉现在语义分析的方向应该是深度学习, 单独分析词汇会比较牵强. 比如你文章里说永远是积极的词汇, 其实不然. 比如"我为什么永远这么苦逼", "永远也没有明天" 之类, 不同的组合, 则情绪大变. 又比如, 如果一首写失恋的歌, 如果有诸如"我微笑着目送你离开"之类句子, 看起来十分阳光, 实际要表达的意思是很苦涩和灰暗的. 这也是语言的令人着迷之处.
    graetdk
        44
    graetdk  
    OP
       2017-02-08 07:02:22 +08:00
    @eyp82 我在自己创业,目前的工作主要是做产品,还真没有写代码,不过写代码一直是我的兴趣
    IdJoel
        45
    IdJoel  
       2017-02-08 09:24:39 +08:00
    可恶啊!!!! 把我的十三名字改回来!!!!!!!!!!!!!!!!!! 是尧尧尧尧尧尧尧尧尧尧尧尧尧!!!!!!!!
    g0thic
        46
    g0thic  
       2017-02-08 09:28:09 +08:00
    jr 你好
    KyrieJoshua
        47
    KyrieJoshua  
       2017-02-08 09:28:33 +08:00
    厉害了…李志的正面情绪最低完全没毛病~
    est
        48
    est  
       2017-02-08 09:29:08 +08:00
    歌手们最喜欢的城市郑州。。。。。

    这是说明郑州人多乐队多么。。
    murmur
        49
    murmur  
       2017-02-08 09:50:58 +08:00
    有意义么?最后分析出来春夏秋冬的各 1/4
    别人分析个古诗词排个词频搞出个自动作诗软件
    你这个分析出来啥都没有啊
    murmur
        50
    murmur  
       2017-02-08 09:53:49 +08:00
    另外我感觉你的分析结论或者数据有错,民谣本身小清新都偏苦情歌,哪里有那么乐观的情绪
    乐观情绪你分析小沈阳啥还差不多。。
    anibear
        51
    anibear  
       2017-02-08 10:26:42 +08:00
    不愧为三克 感觉那个图标里他在说 睡你麻痹 起来 high ~
    graetdk
        52
    graetdk  
    OP
       2017-02-08 10:27:19 +08:00
    @IdJoel 对不起!(鞠躬 我当时输入法看走眼了
    Wongzigii
        53
    Wongzigii  
       2017-02-08 10:32:18 +08:00
    jr 你好
    xiaoxiuaoliang
        54
    xiaoxiuaoliang  
       2017-02-08 10:35:28 +08:00
    杰作~ 朋友圈已出现
    wintercoder
        55
    wintercoder  
       2017-02-08 10:43:27 +08:00
    喜马拉雅 FM 公众号转了,不过有说明来源,然后朋友圈就见到这个了..
    enenaaa
        56
    enenaaa  
       2017-02-08 11:08:51 +08:00
    这个分析挖掘太流于表面了
    luoer
        57
    luoer  
       2017-02-08 11:14:46 +08:00
    楼主 介意把爬虫源码 share 一下么
    IdJoel
        58
    IdJoel  
       2017-02-08 11:25:51 +08:00
    @graetdk 快改回来 ~~~~
    graetdk
        59
    graetdk  
    OP
       2017-02-08 12:19:12 +08:00
    @luoer 太丑陋了,还想完善一下
    SourceMan
        60
    SourceMan  
       2017-02-08 12:49:22 +08:00
    taresky
        61
    taresky  
       2017-02-08 12:50:29 +08:00
    真棒
    hcymk2
        62
    hcymk2  
       2017-02-08 12:55:22 +08:00
    对牛弹琴
    imcocc
        63
    imcocc  
       2017-02-08 13:26:11 +08:00 via iPhone
    在技术认同楼主,可情感上,你还是不懂民谣,更别说小众民谣了。
    crazycabbage
        64
    crazycabbage  
       2017-02-08 13:29:32 +08:00 via Android
    感觉这就统计了一下词频,要往下的话估计就是输入一首歌词判断是那个歌手的风格,但感觉没啥用
    gongbaodd
        65
    gongbaodd  
       2017-02-08 13:39:55 +08:00
    有意思
    zke1e
        66
    zke1e  
       2017-02-08 14:03:47 +08:00
    很有意思,楼主很有想法。
    murmur
        67
    murmur  
       2017-02-08 14:29:50 +08:00 via Android
    @enenaaa 我以前也做过情感分析,后来我同学提醒我一句,新闻本身都是不加情绪的报道,哪里也有什么情感?
    一下打醒了
    中文最大的特点就是没特点,我可以笑着骂你全家,何况还有各种敏感词要规避,单从词语分辨情绪 too young
    enenaaa
        68
    enenaaa  
       2017-02-08 14:47:38 +08:00
    @murmur 有同感。 我甚至激进地认为基于统计的自然语言处理没有出路, 中文处理从 mmseg 分词开始就已经走歪了。
    linxl
        69
    linxl  
       2017-02-08 15:30:05 +08:00
    最终沦为讨论 "什么是民谣"
    27149
        70
    27149  
       2017-02-08 17:38:17 +08:00
    如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。。。。。

    ld0905 (英式没品笑话)
    iSlow
        71
    iSlow  
       2017-02-08 17:50:08 +08:00
    喜欢多一点民谣和摇滚的对比
    tangdw
        72
    tangdw  
       2017-02-08 22:32:29 +08:00
    分析一下民谣曲子的规律,听说下一个人工智能就是作曲了
    trythebest     73
    trythebest  
       2017-02-09 15:23:43 +08:00
    朋友圈已火 只用两天
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2539 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 11:20 PVG 19:20 LAX 04:20 JFK 07:20
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86