现阶段最优的语音转文本,文本转语音的方案是不是这两个呀 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
momomoi
V2EX    程序员

现阶段最优的语音转文本,文本转语音的方案是不是这两个呀

  •  
  •   mommoi 86 天前 3240 次点击
    这是一个创建于 86 天前的主题,其中的信息可能已经有所发展或是发生改变。

    GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧

    23 条回复    2025-07-17 09:02:11 +08:00
    tommyshelbyV2
        1
    tommyshelbyV2  
       86 天前
    生产环境下不是
    zoharSoul
        2
    zoharSoul  
       86 天前
    并发能支持多少呀?
    momomoi
        3
    momomoi  
    OP
       86 天前
    @zoharSoul 我在确认最优方案啊
    zoharSoul
        4
    zoharSoul  
       86 天前
    @momomoi #3 我就是问问这个方案性能怎么样呀
    tool2dx
        5
    tool2dx  
       86 天前
    "最优的语音转文本"

    我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.
    FlashEcho
        6
    FlashEcho  
       86 天前
    GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3
    Suinn
        7
    Suinn  
       86 天前
    @chesha1 CosyVoice 3 好像还没开源┭┮┭┮
    cq65617875
        8
    cq65617875  
       86 天前
    funasr 那个识别率……
    humbass
        9
    humbass  
       86 天前
    funasr 在开源项目里头算可以的了
    只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi
    w568w
        10
    w568w  
       86 天前
    借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么?
    hmxxmh
        11
    hmxxmh  
       86 天前
    gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts
    312ybj
        12
    312ybj  
       86 天前
    k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理
    Aixtuz
        13
    Aixtuz  
       86 天前
    用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。
    就是多音字和断句,偶尔有点问题。
    Aixtuz
        14
    Aixtuz  
       86 天前
    语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。
    除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。
    jadeborner
        15
    jadeborner  
       86 天前
    跟 minimax 比怎么样
    Oats
        16
    Oats  
       86 天前
    tts 的话 indextts 个人感觉不错
    cccssss
        17
    cccssss  
       86 天前
    铜币送上,学习了
    hurrytospring
        18
    hurrytospring  
       86 天前
    线上服务有比较好的吗
    chenzi0103
        19
    chenzi0103  
       86 天前
    可以看下我写的 实现了你说的 而且识别率和播放都还可以
    https://github.com/chengzi0103/SoulSpeak

    用的是 funasr + cosyvoice2
    momomoi
        20
    momomoi  
    OP
       86 天前
    @chenzi0103 好的 感谢
    kamikaze472
        21
    kamikaze472  
       86 天前
    没人推荐飞书吗, 我一直觉得飞书很好用了
    zinco
        22
    zinco  
       86 天前
    funasr 最近项目用了一下,生产上的实时语音识别,识别准确率 90%?总有一两个字识别不对,现在准备换线上的服务了
    z4zr
        23
    z4zr  
       85 天前
    我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高,速度和并发没有太大或者即时性太高的要求 是可玩的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3938 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 10:14 PVG 18:14 LAX 03:14 JFK 06:14
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86