V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。 目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。
我目前查下来主要有两条思路:
快速上手路线(生成类)
高可控路线(训练类)
计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。
3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?
如果只做轻量微调(不从零训练),3060Ti 是否足够?
有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?
对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?
能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。
大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议
![]() | 1 weixind 1 天前 ![]() 声音大概可以。 呻吟就不知道了。 |
2 EasonIndie OP @weixind 打错了,不过声音都行了,呻吟也不在话下吧 ![]() |
3 Kg01 1 天前 你这小说正经不 |
![]() | 4 shiny 1 天前 什么什么,听说这里有不正经小说? |
![]() | 5 azwcl 1 天前 @EasonIndie 你这个我咋感觉不太正经,我们可是正人君子,(正经的我不看);[旺柴] |
![]() | 6 xooass 1 天前 细说呻吟 |
![]() | 7 dzdh 1 天前 所以当下哪个模型生成的音频最自然。 |
![]() | 8 manhere 1 天前 声音模型一般要求都比视频的低,如果不要求实时,那要求还可以再低点。 |
![]() | 9 SummerOrange 1 天前 呻吟自然流畅,这这,做完给我听听 |
![]() | 10 SummerOrange 1 天前 能扛住,我这个苹果笔记本之前都跑过一些 |
![]() | 11 klo424 1 天前 复制别人的声音可能会涉及侵权问题。 |
12 renmu 1 天前 via Android 声音克隆简单,语调难 |
13 EasonIndie OP @manhere 嗯嗯,不要求实时的 |
14 EasonIndie OP @renmu 语调是不是也可以通过标注来实现呢。 例如:话说这事儿啊,[break=long]您猜怎么着?[laugh]他居然把鞋穿反了! |
![]() | 15 wyd011011daniel 1 天前 ![]() @EasonIndie #14 可以的 可以了解一下微软的 azure TTS 的 语音合成标记语言 (SSML) https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup 我自己对 TTS 的小说需求很高,我是使用 Azure api 的 xiaoxiao 的 百分之 67 速度的抒情版本听书的。 我的方案在这里 https://daniel011011-cdn.gitblog.xyz/posts/5 我个人认为,如果你需求量不是很大,可以直接用云的 api 实时 TTS ,每个月 50W 字符免费,也可以教育优惠的 100 刀走 api 生成一些 |
![]() | 16 wyd011011daniel 1 天前 @EasonIndie #14 如果是商业化项目 直接购买 Azure 服务是挺好的选择 https://www.bilibili.com/video/BV1y9xfewENN/ 这个是 Azure TTS HD 的案例 |
17 superrichman 1 天前 ![]() 你的输入法让我觉得你这个不是什么正经小说 |
![]() | 18 darkway 1 天前 哈哈哈哈 |
19 EasonIndie OP @SummerOrange #9 哈哈哈,去 p 站找找自制 homemade ,真自制的应该比较自然 ![]() |
20 EasonIndie OP @klo424 打上侵删如何?我主要还是给自己用。 |
![]() | 21 Is0 1 天前 via Android @wyd011011daniel 推荐 multitts,可以离线使用,用在线 tts 网不好的时候总是卡,这个感情没那么细腻,睡前听小说够用了。 http://t.me/MultiTTS_channel |
22 renmu 23 小时 50 分钟前 via Android @EasonIndie 假设一个一百万字小说,你怎么标记?比如说现在是阴阳怪气,你的模型可以反映出来吗? |
23 Ming5Ming 23 小时 47 分钟前 试试 GPT-SoVITS ? |
![]() | 24 airw 21 小时 52 分钟前 临时买算力推荐试试腾讯云的 HAI ,按小时计费,8TFLOPS 算力 16G 显存每小时 1.2 元,16TFLOPS 算力 2*16G 显存每小时 2.4 元,最高还有 30TFLOPS 算力 2*32G 显存 80G 内存的 |