自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
1. 推理时间尽量实时(100 字符/10s)
2. 多音色支持
目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
有没有比较低成本的方案推荐?
1. 推理时间尽量实时(100 字符/10s)
2. 多音色支持
目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
有没有比较低成本的方案推荐?
