请教下大家 ChatGPT 里高级语音模式是怎么实现的 有 js 库可以使用吗
之前很早有做过跟 gpt 对话的插件 也加了语音识别 但是做不到戴上耳机后的自由对话 经常会自动中断
![]() | 1 love060701 248 天前 via iPhone 原生语音多模态模型,使用 OpenAI 的 Realtime API 可以实现,或者用开源的 TEN Agent 方案 |
![]() | 2 XTTX 248 天前 https://x.com/thorwebdev/status/1885327180445478952 有语音付费 api , 语音 api 套 AI api. |
3 subtleworks OP @love060701 谢谢回复 我主要是对它怎么实现在浏览器里一边听一边说感兴趣 看到 TEN Agent 里好像用的是 agora? 我以为就是简单的 web speech api 来实现 |
![]() | 4 flyqie 248 天前 via Android 没记错的话方案基本上都是 webrtc 吧? 用户这边语音发出去之后服务端 stt 然后 ai 模型识别最后用 tts 转完发给用户。 |
![]() | 6 TimePPT PRO OpenAI 自家 API ,支持 WebRTC 的 |
![]() | 8 easychen 248 天前 我想你可能找 VAD 。它可以检测用户说话,从而实现打断。 OpenAI 的 Realtime 有 sdk 和 demo ,我记得是用 Websocket 实现的,里边也有可以开启的 vad 功能。 |