GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧
1 tommyshelbyV2 86 天前 生产环境下不是 |
![]() | 2 zoharSoul 86 天前 并发能支持多少呀? |
![]() | 5 tool2dx 86 天前 "最优的语音转文本" 我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高. |
6 FlashEcho 86 天前 GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3 |
8 cq65617875 86 天前 funasr 那个识别率…… |
9 humbass 86 天前 funasr 在开源项目里头算可以的了 只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi |
10 w568w 86 天前 借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么? |
11 hmxxmh 86 天前 gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts |
![]() | 12 312ybj 86 天前 k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理 |
![]() | 13 Aixtuz 86 天前 用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。 就是多音字和断句,偶尔有点问题。 |
![]() | 14 Aixtuz 86 天前 语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。 除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。 |
15 jadeborner 86 天前 跟 minimax 比怎么样 |
16 Oats 86 天前 tts 的话 indextts 个人感觉不错 |
17 cccssss 86 天前 铜币送上,学习了 |
18 hurrytospring 86 天前 线上服务有比较好的吗 |
19 chenzi0103 86 天前 |
![]() | 20 momomoi OP @chenzi0103 好的 感谢 |
21 kamikaze472 86 天前 没人推荐飞书吗, 我一直觉得飞书很好用了 |
![]() | 22 zinco 86 天前 funasr 最近项目用了一下,生产上的实时语音识别,识别准确率 90%?总有一两个字识别不对,现在准备换线上的服务了 |
23 z4zr 85 天前 我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高,速度和并发没有太大或者即时性太高的要求 是可玩的 |