使用 NLP 从书中提取各个角色的台词 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Yut
V2EX    自然语言处理

使用 NLP 从书中提取各个角色的台词

  •  
  •   Yut 2021-05-04 00:00:20 +08:00 via Android 4197 次点击
    这是一个创建于 1624 天前的主题,其中的信息可能已经有所发展或是发生改变。

    身边有个富二代开了家有声读物的工作室,想用软件来替代人工分句,不知道大哥们有没有好想法。(或者愿意写一个就更了,有偿,准确度高的话个把万没问题

    13 条回复    2023-06-06 15:48:42 +08:00
    xiangyuecn
        1
    xiangyuecn  
       2021-05-04 00:04:46 +08:00
    既然是富二代,那么给个 100 万报价,应该小意思吧 个把玩就不要写富二代这 3 个字了,应景
    Yut
        2
    Yut  
    OP
       2021-05-04 00:06:19 +08:00 via Android
    @xiangyuecn 那只能说还不够富吧。。。
    xiangyuecn
        3
    xiangyuecn  
       2021-05-04 00:07:48 +08:00
    @Yut
    Yut
        4
    Yut  
    OP
       2021-05-04 00:10:04 +08:00 via Android
    @xiangyuecn 嗨,人家找我我要整论文没空,放到 v2 上看看有没有老哥愿意接吧没有就算了
    MakeItGreat
        5
    MakeItGreat  
       2021-05-04 00:10:24 +08:00 via Android
    经典情况:我很有钱唉,我很牛逼
    但是我给你钱的时候我就是扣扣嗖嗖
    Yut
        6
    Yut  
    OP
       2021-05-04 00:11:28 +08:00 via Android
    @MakeItGreat 人还是挺 generous 的,而且都找着周围朋友话放出来了到时候给少了怕不是抬不起头
    lithiumii
        7
    lithiumii  
       2021-05-04 00:14:47 +08:00 via Android
    标点符号规范的书是不是正则就够了?
    Yut
        8
    Yut  
    OP
       2021-05-04 00:19:00 +08:00 via Android
    @lithiumii 先期确实有这个想法,不过最终肯定还是上 NLP 的嘛
    Yut
        9
    Yut  
    OP
       2021-05-04 00:20:17 +08:00 via Android
    假如想接的话可以贴个相关的 repo 谢谢老哥们了
    privapps
        10
    privapps  
       2021-05-04 09:34:27 +08:00   1
    我看了看,说难不难,说容易不容易

    如果是标准书,用引号啥的,可以把对话提出来,这个容易

    不容易的是怎么把人物对应上,简单方法是找对话前后面句子 , 用结巴 或者 https://github.com/baidu/lac,把名词提出来,然后对应。

    但问题是有的对话是没有人物的,这就需要 自己写一些 规则,比如 两人对话,一定是一人一句等等,然后用 machine learning, tenserflow 去学习,然后提高准确度。简单来说就是用 ML 做 classification, 这个就有点玄学的味道了

    我估计做出来容易,能够有 60%或以上的准确率,但提高准确率蛮难的
    rpman
        11
    rpman  
       2021-07-30 11:25:20 +08:00
    我司做 TTS 的,也有面对有声读物的相关业务
    我们有说话人判别和指代消解相关技术,要不要考虑对接一下,钱到位了都好说
    Yut
        12
    Yut  
    OP
       2021-08-01 10:23:40 +08:00 via Android
    @rpman 老哥来晚了呀,他们已经做的差不多开始用了,以后加入他们想 scale 的话我再来找你
    TransAM
        13
    TransAM  
       2023-06-06 15:48:42 +08:00 via Android
    一般来说一个人的台词占一整段,为啥还要分句?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5463 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 07:29 PVG 15:29 LAX 00:29 JFK 03:29
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86