微软 AI 语音合成效果炸裂,进来体验体验 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lemonTreeTop
V2EX    推广

微软 AI 语音合成效果炸裂,进来体验体验

  •  4
     
  •   lemonTreeTop 2024-04-11 08:47:28 +08:00 7999 次点击
    这是一个创建于 552 天前的主题,其中的信息可能已经有所发展或是发生改变。

    微软 Azure 新增 9 款逼真 AI 语音,包括中文等多种语言,合成的语音不仅有情绪,还有自然的停顿和语气变化

    中文合成语音试听

    以下从微软博客复制出来的文本和音频链接

    但我现在对这个职业的热爱还是非常的,呵呵,非常的,嗯,怎么说呢?日月可鉴的,哈哈,嗯还是希望可以把这个职业做下去或者做这个声音相关领域的工作,嗯,就是把自己的优势发挥的大一点,尽可能能用到自己擅长的东西,而不是说为了工作,为了挣钱而工作。

    https://ttspublic.blob.core.windows.net/nickzhao/conversation.wav

    我们需要加的是生抽、老抽、料酒、白糖还有一点点的醋、盐,然后把它翻炒均匀就可以了。接下来就是收汁的阶段了哈,我们加入适量的水淀粉翻炒到这个鸡丁上色,而且汤汁呢,稍稍已经比较浓稠,啊不会轻易的滑落。

    https://nerualttswaves.blob.core.windows.net/nttssamples2024/XiaoxiaoML_recipe.wav

    体验

    微软 Azure 账号注册有一定门槛,为了方便用户简单上手体验,用小程序套壳做了微软这个效果炸裂的语音合成

    体验方式:

    • 微信搜索小程序 [七彩工具箱] ,点击底部"微软语音"

    • 或微信内点击链接 #小程序://七彩工具箱/yox3tTy2XGHkA6m

    • 或直接扫码

    微软语音体验.png

    52 条回复    2024-05-21 21:40:20 +08:00
    kingofzihua
        1
    kingofzihua  
       2024-04-11 08:50:33 +08:00
    第二个确实可以,和真人一样, 第一个就不行了,明显的断裂感,
    lemonTreeTop
        2
    lemonTreeTop  
    OP
       2024-04-11 08:58:46 +08:00
    文案中可以适当加一些表达情感的词,如哇、吗、啊等,效果会更好
    Goooooos
        3
    Goooooos  
       2024-04-11 09:18:36 +08:00
    第一个前面几个字开口就听出机器人味道,每个字之间的停顿都那么均匀
    AthensBird
        4
    AthensBird  
       2024-04-11 09:25:40 +08:00 via Android
    能不能提供 9 个声音
    iOCZS
        5
    iOCZS  
       2024-04-11 09:36:37 +08:00
    的确很逼真,跟真人似的
    lemonTreeTop
        6
    lemonTreeTop  
    OP
       2024-04-11 09:37:20 +08:00
    @AthensBird 目前中文只支持了一个声音,其他的非中文语言
    ColoThor
        7
    ColoThor  
       2024-04-11 09:54:50 +08:00
    晓晓? api 现在能用吗,https://speech.microsoft.com/portal/xxxxxxxxxxxxxxx/voicegallery 好像还是旧的
    zmqking
        8
    zmqking  
       2024-04-11 10:06:22 +08:00
    第二段确定是 AI 合成?
    lemonTreeTop
        9
    lemonTreeTop  
    OP
       2024-04-11 10:08:32 +08:00
    @ColoThor 上面新发布的是微软 Azure 商用的,有一定免费额度,按字符计费,名字是 zh-CN-XiaoxiaoMultilingualNeural

    (Female)
    lemonTreeTop
        10
    lemonTreeTop  
    OP
       2024-04-11 10:09:07 +08:00
    @zmqking 是的,你可以用小程序自己合成下
    qinfengge
        11
    qinfengge  
       2024-04-11 10:28:25 +08:00
    这个语句间的停顿,太真实了吧
    sunziren
        12
    sunziren  
       2024-04-11 10:33:24 +08:00
    哇偶,好逼真呀。哈哈。
    SurgaOrange
        13
    SurgaOrange  
       2024-04-11 10:38:24 +08:00
    试了一下,完全没有第二段那个效果,明显听得出来是 AI 合成的
    OliverLee
        14
    OliverLee  
       2024-04-11 10:38:52 +08:00
    试听了一下,很逼真啊!如果能用来听电子书就好啦
    adsltsee94
        15
    adsltsee94  
       2024-04-11 10:45:28 +08:00
    我合成出来是第一个效果。。第二个声音是哪里搞的?
    amon
        16
    amon  
       2024-04-11 10:57:27 +08:00
    nice ,前阵子做过一个语音产品用的也是 xiaoxiao 。
    lemonTreeTop
        17
    lemonTreeTop  
    OP
       2024-04-11 11:03:02 +08:00   1
    微软 Azure 的 9 款新语音包括:

    美式英语 - en-US-AvaMultilingualNeural:明亮、富有感染力的女性声音,音色优美。

    美式英语 - en-US-AndrewMultilingualNeural:温暖、富有感染力的男性声音,让人感觉平易近人。

    美式英语 - en-US-EmmaMultilingualNeural:友善、轻快、悦耳的女性声音,适用于教育和讲解场景。

    美式英语 - en-US-BrianMultilingualNeural:年轻、开朗、多才多艺的声音,非常适合各种各样的环境。

    德语 - De-DE-FlorianMultilingualNeural

    德语 - De-DE-SeraphinaMultilingualNeural

    法语 - Fr-FR-RemyMultilingualNeural

    法语 - Fr-FR-VivienneMultilingualNeural

    中文 - zh-CN-XiaoxiaoMultiligualNeural
    ColoThor
        18
    ColoThor  
       2024-04-11 11:04:26 +08:00
    @lemonTreeTop #9 可以了,谢谢
    roding
        19
    roding  
       2024-04-11 11:08:09 +08:00
    如果 edge 的大声朗读能用就好了。
    lemonTreeTop
        20
    lemonTreeTop  
    OP
       2024-04-11 11:43:24 +08:00
    @roding 哈哈,我也想,希望微软以后可以支持
    shakespark
        21
    shakespark  
       2024-04-11 12:13:28 +08:00
    试了一下,晓晓多语言不错
    ColoThor
        22
    ColoThor  
       2024-04-11 13:04:07 +08:00
    有 Azure 账号的安卓用户,可以试试我写的 Demo
    https://github.com/Colo-Thor/AzureTextSpeech
    JayZXu
        23
    JayZXu  
       2024-04-11 13:10:58 +08:00
    确实效果比原版的 Xiaoxiao 有了巨大进步
    本听书用户已经用微软的 xiaoxiao 两年多了,确实比离线的 TTS 有非常大的差距

    不过 azure 国内价格确实是有点贵了,舍不得
    atalas
        24
    atalas  
       2024-04-11 13:23:57 +08:00
    体验了以下,确实不错! 想直到现在克隆出的语音,如何进行进行部署!
    lemonTreeTop
        25
    lemonTreeTop  
    OP
       2024-04-11 13:42:15 +08:00
    @atalas 得在微软 Azure 注册账号,有点小麻烦
    lemonTreeTop
        26
    lemonTreeTop  
    OP
       2024-04-11 13:43:01 +08:00
    @JayZXu 长文本合成时间有点长
    hauibojek
        27
    hauibojek  
       2024-04-11 14:23:17 +08:00
    第一段前面不太行,后面部分效果不错,第二段基本听不出来是 ai 了。
    shilyx
        28
    shilyx  
       2024-04-11 16:14:19 +08:00
    我早先用过,感觉完全超过了国内的几个提供商,某度和某飞

    微软的支持情绪,支持方言,支持各国语言

    每月 50 万字的免费额度完全够用

    更重要的是他给的 demo 真的能用,而不是编译不过或配置有问题
    WilliamZuo
        29
    WilliamZuo  
       2024-04-11 16:16:49 +08:00
    效果惊人,比目前 B 站虚拟主播 AI 唱歌的那些更加自然。
    6NCQWh99X46kZv6x
        30
    6NCQWh99X46kZv6x  
       2024-04-11 16:41:54 +08:00
    当时我看到的第一反应想的是:如果拿来读 《少妇白洁》 会是什么感觉。。
    Andnot
        31
    Andnot  
       2024-04-11 16:49:28 +08:00
    微软有离线语音包吗?
    jinxjhin
        32
    jinxjhin  
       2024-04-11 19:58:43 +08:00
    @shilyx #28 国产最好的应该是 minimax 的
    dumbass
        33
    dumbass  
       2024-04-11 21:37:37 +08:00 via iPhone
    惊了,像极了 Eva 的科技生活这个测评博主的声线
    click
        34
    click  
       2024-04-11 22:16:07 +08:00
    想用来做视频配音,Azure 怎么搞免费额度?
    chiu
        35
    chiu  
       2024-04-12 00:19:16 +08:00
    还能加 BGM?
    lemonTreeTop
        36
    lemonTreeTop  
    OP
       2024-04-12 12:20:59 +08:00
    @click 注册就有了
    lemonTreeTop
        37
    lemonTreeTop  
    OP
       2024-04-12 12:21:18 +08:00
    @chiu 不会
    chiu
        38
    chiu  
       2024-04-12 13:06:16 +08:00
    @lemonTreeTop #37
    因为我听你 post 的第二段, 好像是有 BGM 的
    zhousir5071
        39
    zhousir5071  
       2024-04-20 18:20:26 +08:00 via iPhone
    op ,有没有可以单独长期使用的?可以朗读文章,书籍。目前在用讯飞有声,感觉没有微软这个自然。
    lemonTreeTop
        40
    lemonTreeTop  
    OP
       2024-04-21 16:17:42 +08:00
    @zhousir5071 我做的小程序目前支持了公众号文章朗读,书籍还没支持
    roding
        41
    roding  
       2024-04-30 18:05:45 +08:00
    我注册了微软 Azure 账号,语音库里面找不到这个新的 xiaoxiao 语音,选择来源 openai,一个都没有,界面显示美国中北部支持?我的资源区域是美国中北部,也不到,为什么呢。
    lemonTreeTop
        42
    lemonTreeTop  
    OP
       2024-05-01 10:28:10 +08:00
    @roding 晓晓多语言,地区选美国东部、西欧和东南亚的其中一个,测试东南亚延迟比较低
    wyd011011daniel
        43
    wyd011011daniel  
       2024-05-14 19:42:45 +08:00
    @zhousir5071 #39 安卓手机 安装 阅读 、TTS Server 。然后配置一下密钥就可以了。
    zhousir5071
        44
    zhousir5071  
       2024-05-14 20:26:26 +08:00 via iPhone
    @wyd011011daniel 我用的是苹果手机
    wyd011011daniel
        45
    wyd011011daniel  
       2024-05-14 21:34:50 +08:00
    @zhousir5071 #44 我刚刚搞明白,大概流程是
    1:美区下载 爱阅记
    2:azure 申请密钥( visa 自己注册或者闲鱼买个号)
    3: 将 Azure 密钥导入爱阅记 https://tts-importer.yfi.moe/

    使用爱阅记就可以听书了
    txt equb 都支持

    可以去 tts 设置里修改请求以添加风格强度
    wyd011011daniel
        46
    wyd011011daniel  
       2024-05-14 21:37:00 +08:00
    zhousir5071
        47
    zhousir5071  
       2024-05-14 22:32:40 +08:00 via iPhone
    @wyd011011daniel 感谢你的耐心指导,我已经根据你说的链接把我申请的 azure 密钥填入 API key 了,但是在爱阅记里面,还是没有找到如何调用微软 tts
    zhousir5071
        48
    zhousir5071  
       2024-05-14 23:04:37 +08:00 via iPhone   1
    @wyd011011daniel 已经会了,非常感谢你,这个爱阅记,超级好用! so nice of you !
    wyd011011daniel
        49
    wyd011011daniel  
       2024-05-14 23:10:14 +08:00   1
    @zhousir5071 #47

    如果你完成了 https://tts-importer.yfi.moe/help/ireadnote 这里所说的复制链接导入爱阅记

    那么你在爱阅记中打开一本书,点击右下角耳机按钮,然后点击左下角语音库管理,在上方有在线语音库,选择你导入的那个格式就可以。

    下面是三张截图可以提供一些参考




    zhousir5071
        50
    zhousir5071  
       2024-05-21 09:06:05 +08:00 via iPhone
    @wyd011011daniel 这个爱阅记有一个很烦人的缺点,读着读着他就自动切到系统机器人的声音了。不知道有没有什么办法解决,或者联系开发者。或者还有更好的软件吗?
    wyd011011daniel
        51
    wyd011011daniel  
       2024-05-21 19:15:52 +08:00
    @zhousir5071 #50 目前没有遇到过,我一般听半小时以内,再长就睡着了。联系开发者可以试试 appstore ? 具体不太清楚 其他软件 如果接受安卓就用阅读

    我的博客写了安卓用法可以看看 https://daniel011011-cdn.gitblog.xyz/posts/5
    zhousir5071
        52
    zhousir5071  
       2024-05-21 21:40:20 +08:00 via iPhone
    @wyd011011daniel 好的,我试了这个“语音中心”不错,没有自动切换到机器人的声音。也有一个小问题,就是起步播放时,反应迟钝。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2625 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 15:31 PVG 23:31 LAX 08:31 JFK 11:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86