
请教一下各位大佬,一位老同学做科研找上门来合作项目,想做一个在线的口译训练系统。
前端需要能够识别 演讲者的语言(耳机),学生的语言(麦克风),还需要实时翻译成目标语言(中英文)。
对这块真的不是很熟悉,请教一下大家怎么实现,或者有没有相关的学习资料。
如果有现成的 demo 可以参考就更好了了。
谢谢大家。
1 paradox8599 2023 年 5 月 11 日 via Android |
2 用 chatgpt ? |
3 ruanimal 2023 年 5 月 11 日 语音转文字,然后调用 chatgpt ? |
4 rsy 2023 年 5 月 11 日 用现成的音频转写翻译服务就可以了 https://sight.youdao.com/service/voice |
5 Alias4ck 2023 年 5 月 11 日 stt 服务,openai 的 whisper( https://github.com/openai/whisper),在官方 github 的 discussion 里面有很多相关的 application(huggingface 上面也有很多),还有可以在 cpu 上跑的比如 这个 https://github.com/ggerganov/whisper.cpp 它的 examples 里面有 https://whisper.ggerganov.com/stream/, 实时翻译的 wasm 应用 我看一楼给的最后一个项目也是基于 c#的 whisper wrapper |
6 rb6221 2023 年 5 月 11 日 TTS ,然后接个翻译 api |
7 metalvest 2023 年 5 月 11 日 上面说的都是很成熟的技术了,但要形成产品还不够,因为这个系统的重点在于训练,关键是要建库塞一堆课程,然后根据学生的成绩制定训练和学习计划,然后搞个收费标准。 |
8 lff0305 2023 年 5 月 11 日 via Android 公司做过类似的,不算复杂 前端调用 API 从麦克风采集音频,拿到音频以二进制形式通过 Web socket 发到后端,后端拿到之后把音频数据发给 ASR 把音频转换成文字,然后就是处理文字,比如翻译之类的 最后把处理过的结果通过 tts 转换成音频数据,从 Web socket 返回, 前端拿到音频数据后播放 Asr tts 主流的云厂商都有提供 |
9 wangtian2020 2023 年 5 月 11 日 win11 马上会加入一个实时字幕 Live Captions 功能 |
10 fionasit007 2023 年 5 月 11 日 科大讯飞不就是做这个的吗,实时口译,之前星火发布会的时候下面的双语字母不就是实时翻译的吗 |
11 wumoumou 2023 年 5 月 11 日 chatgpt 支持语音转文字,如果选择英文输出,直接会帮你翻译 |
12 humbass 2023 年 5 月 11 日 可以直接做一对一的接口,延时在 500 毫秒以内 |
13 fox 2023 年 5 月 11 日 可以看看北语韩老师的科研项目 paratrans ,算是非常解决了业内(翻译学生)痛点的一个服务。 https://paratrans.vip/login.php |
14 fox 2023 年 5 月 11 日 然后 讯飞新发布的产品好像有类似的应用?还没试过,不是很清楚 |
15 javaDo 2023 年 5 月 14 日 蹲一波 |