低成本 tts 方案 - V2EX

低成本 tts 方案 - V2EX

Home Sign Up Sign In

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 257 days ago, the information mentioned may be changed or developed.

自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
1. 推理时间尽量实时(100 字符/10s)
2. 多音色支持
目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
有没有比较低成本的方案推荐?

34 replies 2025-08-30 14:37:25 +08:00

1

knva

Aug 29, 2025

基本没有。

2

letking

Aug 29, 2025

买个显卡自己部署模型，加内网穿透

3

AoEiuV020JP

Aug 29, 2025

你到底是要克隆音色还是要 tts ？
tts 最低成本的应该就是直接调用系统的 tts ，
克隆音色需要 AI 算力，就没有便宜的，一个小工具搞什么克隆音色，

4

8820670

Aug 29, 2025

#3 说的对调用系统 TTS 是最方便的。
前段时间才做过： t/1153662#reply0
不过移动端支持其实挺一般的，具体得自己试试

5

8820670

Aug 29, 2025

@8820670 另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
搜 edge_tts

6

yulon

Aug 29, 2025

我是 Mac mini 4 当副机，跑 GPT-SoVITS ，也就 3G 显存左右吧，看你要不要并行，并行还会多一点

7

chengz

OP

Aug 29, 2025

@AoEiuV020JP @8820670 我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜

8

chengz

OP

Aug 29, 2025

@AoEiuV020JP 自定义音色的 tts, 单纯 tts 是很便宜

9

Leon6868

Aug 29, 2025

1

fish speech 、cosyvioce （ vllm ），本地部署，3060

10

glouhao

Aug 29, 2025 via Android

我的显卡是 A770 16g 然后调整不好一直是 cpu

11

zenghx

Aug 29, 2025 via iPhone

[VibeVoice 实现 90 分钟、多角色播客生成，拓展语音合成新边界]( https://www.microsoft.com/en-us/research/articles/vibevoice/) 这个怎么样

12

zenghx

Aug 29, 2025 via iPhone

@zenghx 没看到自定义的需求，打扰了

13

aishellphy

Aug 29, 2025

用 f5-tts ，在 windows 电脑上跑，自带加速引擎，速度特别香

14

yulon

Aug 29, 2025

@zenghx VibeVoice 听说显存要占十多 G ，没有音色，当普通 TTS 用，成本也太高了，适合公司用吧

15

abersheeran

Aug 29, 2025

自定义音色可以用 fish.audio

16

Latin

Aug 29, 2025

f5-tts 之前实测过太慢了

17

jackOff

Aug 29, 2025

买个有 4G 显存 3050 显卡的二手笔记本，基本上可以稳定高效跑 GPT-SoVITS

18

UnluckyNinja

Aug 29, 2025

https://github.com/RVC-Boss/GPT-SoVITS
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
TTS 用上面的，SVC 用下面的，没上手用过，只是有所耳闻

19

realJamespond

Aug 29, 2025

配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章，多音字直接拼音替换

20

dzdh

Aug 29, 2025

阿里音色克隆免费的吧.

21

rammiah

Aug 29, 2025

minimax 一个音色 10 块钱，合成声音的话 4 元/1w 汉字

22

TQQQ

Aug 29, 2025

StyleTTS+Vocos ，开源的非自回归模型，可以直接部署在 cpu 服务器上，4090 上训练大概要一周左右。但是年头有点久了，效果比不上 cosyvoice/indextts 这些

23

bigtear

Aug 29, 2025

微调 Kokoro TTS 吧，满足你的需求，速度快，可自定义音色（微调音色 pt 文件）

24

Huelse

Aug 29, 2025

自己调模型 https://github.com/benjaminwan/ChineseTtsTflite

25

tcper

Aug 29, 2025

自己搭完就会发现还是云服务便宜

26

looveh

Aug 29, 2025

怎么没有 index-tts

27

looveh

Aug 29, 2025

@looveh RTX 3090 实测 120 字不到 20s

28

pipi32167

Aug 29, 2025

同推荐 minimax ，效果可以的。价格也不贵。

29

pipi32167

Aug 29, 2025

@bigtear 之前 Kokoro 放出来的中文一言难尽。。。不过能微调 Kokoro 的话确实又快又好。

30

DefoliationM

Aug 29, 2025 via Android

chrome 自带的不要钱，直接用 js 的 api 。

31

bigtear

Aug 29, 2025

@pipi32167 #29 你用 1.1 新版的，很不错了已经，达到了 edge tts 的水平

32

cwcc

Aug 29, 2025

我直接用 macOS 自带的个人声音生成自己的声音，也够用了。

33

yulon

Aug 30, 2025

楼上那么多说 minimax ，早上试了下刚用几次就 504 了，没绷住

34

RobinHuuu

Aug 30, 2025 via iPhone

试过手机 app/安卓端，可下载和使用离线模型，效果还行

About Help Advertise Blog API FAQ Solana 3723 Online Highest 6679

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 135ms UTC 04:22 PVG 12:22 LAX 21:22 JFK 00:22
Do have faith in what you're doing.

ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86