低成本 tts 方案 - V2EX
请不要在回答技术问题时复制粘贴 AI 生成的内容
chengz
0.04D

低成本 tts 方案

  •  
  •   chengz Aug 29, 2025 6146 views
    This topic created in 257 days ago, the information mentioned may be changed or developed.
    自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
    1. 推理时间尽量实时(100 字符/10s)
    2. 多音色支持
    目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
    有没有比较低成本的方案推荐?
    34 replies    2025-08-30 14:37:25 +08:00
    knva
        1
    knva  
       Aug 29, 2025
    基本没有。
    letking
        2
    letking  
       Aug 29, 2025
    买个显卡自己部署模型,加内网穿透
    AoEiuV020JP
        3
    AoEiuV020JP  
       Aug 29, 2025
    你到底是要克隆音色还是要 tts ?
    tts 最低成本的应该就是直接调用系统的 tts ,
    克隆音色需要 AI 算力,就没有便宜的,一个小工具搞什么克隆音色,
    8820670
        4
    8820670  
       Aug 29, 2025
    #3 说的对 调用系统 TTS 是最方便的。
    前段时间才做过: t/1153662#reply0
    不过移动端支持其实挺一般的,具体得自己试试
    8820670
        5
    8820670  
       Aug 29, 2025
    @8820670 另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
    搜 edge_tts
    yulon
        6
    yulon  
       Aug 29, 2025
    我是 Mac mini 4 当副机,跑 GPT-SoVITS ,也就 3G 显存左右吧,看你要不要并行,并行还会多一点
    chengz
        7
    chengz  
    OP
       Aug 29, 2025
    @AoEiuV020JP @8820670 我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜
    chengz
        8
    chengz  
    OP
       Aug 29, 2025
    @AoEiuV020JP 自定义音色的 tts, 单纯 tts 是很便宜
    Leon6868
        9
    Leon6868  
       Aug 29, 2025   1
    fish speech 、cosyvioce ( vllm ),本地部署,3060
    glouhao
        10
    glouhao  
       Aug 29, 2025 via Android
    我的显卡是 A770 16g 然后调整不好一直是 cpu
    zenghx
        11
    zenghx  
       Aug 29, 2025 via iPhone
    [VibeVoice 实现 90 分钟、多角色播客生成,拓展语音合成新边界]( https://www.microsoft.com/en-us/research/articles/vibevoice/) 这个怎么样
    zenghx
        12
    zenghx  
       Aug 29, 2025 via iPhone
    @zenghx 没看到自定义的需求,打扰了
    aishellphy
        13
    aishellphy  
       Aug 29, 2025
    用 f5-tts ,在 windows 电脑上跑,自带加速引擎,速度特别香
    yulon
        14
    yulon  
       Aug 29, 2025
    @zenghx VibeVoice 听说显存要占十多 G ,没有音色,当普通 TTS 用,成本也太高了,适合公司用吧
    abersheeran
        15
    abersheeran  
       Aug 29, 2025
    自定义音色可以用 fish.audio
    Latin
        16
    Latin  
       Aug 29, 2025
    f5-tts 之前实测过太慢了
    jackOff
        17
    jackOff  
       Aug 29, 2025
    买个有 4G 显存 3050 显卡的二手笔记本,基本上可以稳定高效跑 GPT-SoVITS
    UnluckyNinja
        18
    UnluckyNinja  
       Aug 29, 2025
    https://github.com/RVC-Boss/GPT-SoVITS
    https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
    TTS 用上面的,SVC 用下面的,没上手用过,只是有所耳闻
    realJamespond
        19
    realJamespond  
       Aug 29, 2025
    配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章,多音字直接拼音替换
    dzdh
        20
    dzdh  
       Aug 29, 2025
    阿里音色克隆免费的吧.
    rammiah
        21
    rammiah  
       Aug 29, 2025
    minimax 一个音色 10 块钱,合成声音的话 4 元/1w 汉字
    TQQQ
        22
    TQQQ  
       Aug 29, 2025
    StyleTTS+Vocos ,开源的非自回归模型,可以直接部署在 cpu 服务器上,4090 上训练大概要一周左右。但是年头有点久了,效果比不上 cosyvoice/indextts 这些
    bigtear
        23
    bigtear  
       Aug 29, 2025
    微调 Kokoro TTS 吧,满足你的需求,速度快,可自定义音色(微调音色 pt 文件)
    Huelse
        24
    Huelse  
       Aug 29, 2025
    tcper
        25
    tcper  
       Aug 29, 2025
    自己搭完就会发现还是云服务便宜
    looveh
        26
    looveh  
       Aug 29, 2025
    怎么没有 index-tts
    looveh
        27
    looveh  
       Aug 29, 2025
    @looveh RTX 3090 实测 120 字不到 20s
    pipi32167
        28
    pipi32167  
       Aug 29, 2025
    同推荐 minimax ,效果可以的。价格也不贵。
    pipi32167
        29
    pipi32167  
       Aug 29, 2025
    @bigtear 之前 Kokoro 放出来的中文一言难尽。。。不过能微调 Kokoro 的话确实又快又好。
    DefoliationM
        30
    DefoliationM  
       Aug 29, 2025 via Android
    chrome 自带的不要钱,直接用 js 的 api 。
    bigtear
        31
    bigtear  
       Aug 29, 2025
    @pipi32167 #29 你用 1.1 新版的,很不错了已经,达到了 edge tts 的水平
    cwcc
        32
    cwcc  
       Aug 29, 2025
    我直接用 macOS 自带的个人声音生成自己的声音,也够用了。
    yulon
        33
    yulon  
       Aug 30, 2025
    楼上那么多说 minimax ,早上试了下刚用几次就 504 了,没绷住
    RobinHuuu
        34
    RobinHuuu  
       Aug 30, 2025 via iPhone
    试过手机 app/安卓端,可下载和使用离线模型,效果还行
    About     Help     Advertise     Blog     API     FAQ     Solana     3723 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 135ms UTC 04:22 PVG 12:22 LAX 21:22 JFK 00:22
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86