自己基于影视剧字幕建设了一套三千多万近 1G 的高质量聊天语料库,求一起玩耍 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
warmheartli
V2EX    程序员

自己基于影视剧字幕建设了一套三千多万近 1G 的高质量聊天语料库,求一起玩耍

 1  
  •   warmheartli
    lcdevelop 2016-09-18 08:38:03 +08:00 10177 次点击
    这是一个创建于 3342 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我用了洪荒之力,想到了这个办法,并用半个月时间才建成,绝对有用,我的聊天机器人有戏了,大家轻拍哈 http://www.shareditor.com/blogshow/?blogId=112

    第 1 条附言    2016-09-18 11:25:28 +08:00
    这份数据的主要用途是作为聊天机器人的训练语料库,用于聊天机器人技术的学习和研究,随便抽了语料中的几行(数据一共 33042896 行),如下,
    ……
    这是什么
    是寄给医院的
    井崎…为什么?
    是为了小雪的事情
    怎么回事?
    您不记得了吗
    在她说小雪…就是在这种非常时期和我们一起舍弃休息时间来工作的护士失踪时…
    医生 小雪她失踪了
    你不是回了一句「是吗」吗
    是吗…
    不 对不起
    跟我道歉也没用啊
    而且我们都知道您是因为夫人的事情而操劳
    但是 我想小聪是受不了医生一副漠不关心的样子
    事到如今再责备医生也没有用了
    是我的错吗…
    我就是这个意思 您听不出来吗
    我也难以接受
    因为同情医生 所以才没有说要辞职
    的确 死亡在村子里蔓延
    正因为如此 今年的霜月神乐才应该办得盛大而庄严
    我赞成田茂的话
    正是在这种非常时期才应该办好祭神仪式 驱除晦气
    ……
    32 条回复    2016-09-19 11:03:36 +08:00
    cctvsmg
        1
    cctvsmg  
       2016-09-18 08:40:53 +08:00   2
    有意思,我以前有个 idea 是,做个微信和 qq 插件,然后可以分析出和妹子聊天,哪儿说错话了,比如从对方反应时间分析,从聊天话题分析等等,这在相亲市场估计很有用
    jhaohai
        2
    jhaohai  
       2016-09-18 08:57:30 +08:00 via iPhone
    好思路,不知道只抓香港局的话会不会说话一股 tvb 味道
    YvesX
        3
    YvesX  
       2016-09-18 09:12:06 +08:00 via iPhone
    很有意思。
    mdyh
        4
    mdyh  
       2016-09-18 09:22:23 +08:00
    @cctvsmg 这种分析有意思,求认识。加个 Q1348284898
    shakespaces
        5
    shakespaces  
       2016-09-18 09:40:23 +08:00 via Android
    666 ,已 mark
    northisland
        6
    northisland  
       2016-09-18 09:43:14 +08:00
    ==

    是瞎侃式的对话么~~

    正好最近想玩玩那个 conversational model ,马克
    jy01264313
        7
    jy01264313  
       2016-09-18 10:06:14 +08:00
    给力啊,攒一个
    soland
        8
    soland  
       2016-09-18 10:33:16 +08:00
    拿这个收钱,会有版权上面的问题吧?
    wocao5566
        9
    wocao5566  
       2016-09-18 10:34:16 +08:00
    卖就卖
    别求啥玩耍了 真诚点
    hinkal
        10
    hinkal  
       2016-09-18 10:43:28 +08:00
    字幕拿来做翻译机器人更有用吧
    tony1016
        11
    tony1016  
       2016-09-18 10:59:48 +08:00
    没有在线体验吗?
    21grams
        12
    21grams  
       2016-09-18 11:05:56 +08:00
    这有啥用啊,说说有啥用途我考虑下值不值得花 9 块 9
    demoxu
        13
    demoxu  
       2016-09-18 11:19:55 +08:00
    什么都没看到啊,起码来电 sample 啊
    直接 9 块 9 ,下手的人少啊
    SeptimusX
        14
    SeptimusX  
       2016-09-18 11:27:41 +08:00
    应该搞个老译制片风格的语料库…
    h3nng
        15
    h3nng  
       2016-09-18 11:33:22 +08:00
    @cctvsmg
    之前有个 APP 也是类似的 idea ,和机器人妹纸聊天玩耍,如果你说错话或者做的事情不对,就会扣减分数受惩罚啥的。
    DionChan
        16
    DionChan  
       2016-09-18 12:41:23 +08:00
    @cctvsmg 这个很厉害啊,相亲训练师
    warmheartli
        17
    warmheartli  
    OP
       2016-09-18 14:38:03 +08:00
    @hinkal 没有做平行语料,单纯搞中文了,因为想做一个中文的聊天机器人
    warmheartli
        18
    warmheartli  
    OP
       2016-09-18 14:38:34 +08:00
    @tony1016 很快就会上线,请多关注我的分享
    warmheartli
        19
    warmheartli  
    OP
       2016-09-18 14:38:52 +08:00
    @21grams 谢谢提醒,补充上了
    warmheartli
        20
    warmheartli  
    OP
       2016-09-18 14:39:27 +08:00
    @demoxu 谢谢提醒,补充上了
    menc
        21
    menc  
       2016-09-18 15:04:11 +08:00
    看 sample ,觉得语义并不强啊。。。电影字幕的 context 还是过多的通过表演表达出来了,单看字幕什么都看不出。。。
    bearqq
        22
    bearqq  
       2016-09-18 15:18:12 +08:00
    我取了某群聊天记录 2012 年到 2016 年训练, telegram 机器人在, https://telegram.me/the_BB_bot
    其实我想说的是效果很差,试试就知道了。。
    hinkal
        23
    hinkal  
       2016-09-18 15:30:44 +08:00
    @warmheartli 哦哦,如果能搞一份中英对照的,估计我及某些人会感兴趣拿来训练机器翻译
    ooh
        24
    ooh  
       2016-09-18 15:38:16 +08:00
    想法很 ok 啊
    muziki
        25
    muziki  
       2016-09-18 15:46:18 +08:00 via iPhone
    Google 新出来的 Allo 用机器学习预测,可以敷衍式对话
    gladuo
        26
    gladuo  
       2016-09-18 16:14:27 +08:00
    可能还得认真过滤一下,字幕好多都是听译,不好的数据再多也 train 不出来好 model
    kepenj
        27
    kepenj  
       2016-09-18 16:57:29 +08:00   1
    二营长!你他娘的意大利炮呢
    sunchen
        28
    sunchen  
       2016-09-18 17:03:52 +08:00
    和楼主有相同想法,也怕了几个站的字幕。但是有个问题,对话边界在字幕文件里是没有的,又不好识别
    mozutaba
        29
    mozutaba  
       2016-09-18 20:48:16 +08:00
    @cctvsmg 报名内测
    GentleSadness
        30
    GentleSadness  
       2016-09-18 20:53:10 +08:00 via Android
    我记得美国有个最大的用于科研的语料库,好像是免费的
    dreamtrail
        31
    dreamtrail  
       2016-09-19 09:28:36 +08:00
    楼主能不能放个片段出来听听?
    warmheartli
        32
    warmheartli  
    OP
       2016-09-19 11:03:36 +08:00
    @dreamtrail 这个不是听的哈,是文本(前面列了一些),跟影视剧基本没有关系了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5008 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 09:41 PVG 17:41 LAX 01:41 JFK 04:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86