现在是否已经有文本阅读达到真人效果的技术 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
davinci21s
V2EX    分享发现

现在是否已经有文本阅读达到真人效果的技术

  •  
  •   davinci21s 2022-10-16 09:17:52 +08:00 4137 次点击
    这是一个创建于 1139 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刷抖音看到很多不同的内容解说,但是音听起来像是同一个人,猜测是用了文本阅读技术,解说的很自然,听起来

    就是真人发音,但是以往的印象文本阅读都是很有机器人味道的,不自然,没有感情。

    所以说现在是技术进步了?

    第 1 条附言    2022-10-16 11:26:56 +08:00
    第 2 条附言    2022-10-16 11:54:54 +08:00
    自媒体利器,好好利用吧。
    18 条回复    2022-10-17 16:44:04 +08:00
    superrichman
        1
    superrichman  
       2022-10-16 09:20:58 +08:00 via Android   2
    用的是微软的 tts ,你用 edge 浏览器就能体验到。
    vbs
        2
    vbs  
       2022-10-16 09:25:48 +08:00
    你试试这个页面里面的 demo ,自然就知道了: https://azure.microsoft.com/zh-cn/products/cognitive-services/text-to-speech/#features
    vbs
        3
    vbs  
       2022-10-16 09:26:54 +08:00
    而且可以更换说话风格哟,比如可以用“惊恐”得语调阅读
    cmdOptionKana
        4
    cmdOptionKana  
       2022-10-16 09:27:21 +08:00
    是,番茄小说的 AI 朗读技术真的吓到我了,可以有男女老少不同角色,可以选择东北话、四川话之类的发音习惯,而且每句话还可以有愤怒、愉悦、冷漠等不同的语气,而这些,都是用 AI 做的(不知道其中人工标记工作量大不大)。

    但是,只有少量书有多角色 AI ,我猜高质量的 AI 阅读渲染成本比较高,但能做出来,而且已经商用了。

    但是也有难点没有克服,主要就是中文里的多音字,这个是重灾区,经常念错。
    davinci21s
        5
    davinci21s  
    OP
       2022-10-16 09:28:21 +08:00
    @superrichman thx
    @vbs 刚刚试了一下,确实很像。
    LZSZ
        6
    LZSZ  
       2022-10-16 09:44:31 +08:00
    见过手动设置角色语音的 demo , 但是小说要是手动设置的话那也太痛苦了。
    kingjpa
        7
    kingjpa  
       2022-10-16 09:49:00 +08:00
    除了生僻字,多音字, 其他已经远超你的想象了。远比 siri 和小爱哪这种强得多
    zlzhdark
        8
    zlzhdark  
       2022-10-16 10:00:31 +08:00
    你听到的绝对是微软文本转语音,声优还必须是云希
    GuuJiang
        9
    GuuJiang  
       2022-10-16 10:19:26 +08:00 via iPhone   6
    注意看,这个男人叫小帅
    eason1874
        10
    eason1874  
       2022-10-16 10:27:04 +08:00
    角色选播音主持人,已经可以做到听不出来跟真实主持人的区别

    其他角色还是不太行,单摘几句出来可以说跟真人一模一样,但是一大段还是能听出来是 AI ,因为 AI 很稳定,而普通人讲话久了是时快时慢的,前后语速和停顿有差异,AI 没有差异就过于完美就缺少真实感了
    TimePPT
        11
    TimePPT  
    PRO
       2022-10-16 10:28:50 +08:00 via Android
    看标题以为讨论的是机器阅读理解,结果是 TTS

    中文 TTS 的话,其实大多数厂商就是可用水平。效果好的也就是微软和阿里。主要这玩意想调教好烧钱。
    ho121
        12
    ho121  
       2022-10-16 10:33:31 +08:00 via Android
    还记得上学时的英语磁带么?
    tqyq88
        13
    tqyq88  
       2022-10-16 10:37:04 +08:00
    机器人?
    啊,怎么会呢,肯定是员工给你打电话的啦。
    我们联通都是经过统一严格的培训的。
    zagfai
        14
    zagfai  
       2022-10-16 13:56:00 +08:00
    @ho121 那个是真人的吧?
    ZE3kr
        15
    ZE3kr  
       2022-10-16 14:02:33 +08:00 via iPhone
    现在每次接到推销电话,我第一句话就问“你是真人吗?”,有时候图省事就直接问“你是人吗?”,不知道有没有冒犯到真的人主要还是 AI 太强了
    intelmd
        16
    intelmd  
       2022-10-16 14:12:55 +08:00 via Android
    哈哈,果然是云希!
    dobelee
        17
    dobelee  
       2022-10-16 14:14:09 +08:00
    某音上见过挺过非常好的 AI ,有的已经几乎听不出机器感,并且音色还非常个性,不过不清楚哪个平台的服务。
    dxgfalcongbit
        18
    dxgfalcongbit  
       2022-10-17 16:44:04 +08:00 via Android
    我觉得 edge 那个阅读就不错,edge 改内核后这个功能停了一段时间,记得不久前才续上。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1040 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 23:40 PVG 07:40 LAX 15:40 JFK 18:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86