请问 ChatGPT 官方移动端的语音输出是用什么实现的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 801 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，我感觉它的语音输出比较自然，想问一下 OpenAI 有没有相关的文字转语音 API ？

10 条回复 2023-10-21 13:32:57 +08:00

em70

2023-10-20 21:49:24 +08:00

是 openai 训练的一个叫 next to audio 的模型提供的服务,API 可能 11 月 6 日会发布

希望这种周边模型像 whisper 一样能开源出来

bywenshu

2023-10-20 22:27:53 +08:00 via Android

@em70 感谢，但我在谷歌上边没找到你说的这个模型的信息啊……你这消息是从哪里来的？

em70

2023-10-20 22:37:51 +08:00

@bywenshu #2 twitter 上看到的,还没发布,可能正式发布不是这个名字.已知信息是.openai 用大模型技术做的语音合成

youthfire

2023-10-20 22:40:26 +08:00 via iPhone

@em70 #1 开源的那个 whisper 快吗？我没跑过，用的 api 速度倒是非常快，就是量大了也费钱

yanyao233

2023-10-21 08:35:25 +08:00 via Android

@youthfire 现在有 whisper jax ，whisper cpp ，这两个比官方的 whisper 开源版快很多，可以试一试。模型 api 用的就是 large v2 ，应该效果是一样的

bywenshu

2023-10-21 09:44:45 +08:00 via Android

@youthfire
@yanyao233 啊？ whisper 不是语音转文字吗？

yanyao233

2023-10-21 09:46:18 +08:00

@bywenshu 我顺着 #4 回复的，whisper 确实就是个语音转文字

youthfire

2023-10-21 09:48:39 +08:00 via iPhone

@bywenshu #6 因为一楼正好提到了 whisper 。它本身就有开源免费又有收费 api 两套方案，就顺便问问速度差距。因为之前在其他网站看到说开源的速度很慢，自己也没跑过。

yiencho

2023-10-21 12:59:45 +08:00

就是文本转语音，api 还没开放给普通用户，我看到开放给 spotify 的新闻了，下面这个

https://newsroom.spotify.com/2023-09-25/ai-voice-translation-pilot-lex-fridman-dax-shepard-steven-bartlett/

spotify 用它来生成多语言的播客

em70

2023-10-21 13:32:57 +08:00

@youthfire #4 有个 whisperX 的分支,就算用 CPU 都非常快,据说比原版快 70 倍,没实测过,量不大还是 API 划算