这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。
最近在寻找比较好的可以做技术类语音识别(会议记录)的工具,主要下面几点诉求:
1比较好的支持 DICITION 自定义字典,例如很多专有名词,语音模型没有训练过
2.需要能够比较好的识别中英文混合,具备识别 SPEAKER 的能力,识别正确率较高,至少能够作为 AI 润色的输入
3.能够监听识别 MAC 上 APP 的语音流,例如微信,腾讯会议等
个人尝试了下述方案:
1.MAC WHISPER 评分 5.0
使用了内置默认模型:openai-whisper-large3 600MB 版本和 Large v3 turbo ,效果不是特别好,英文勉强能识别部分,连中文都识别率不太高,支持 SPEAKER 区分,支持自定义字典,但是自定义字典貌似并未生效
2.讯飞听见 评分 5.5
付费使用了音频上传功能,效果比 MAC WHISPER 略好,自定义字典同样没有生效,脚本的编辑页面相对友好一些,中文仍然存在一些问题,比 MAC WHISPER 略好点
3.通义听悟 评分 6.0
唯一勉强能用的语音识别工具,只是勉强,自定义字典同样没有生效,界面和讯飞听见类似,中文英文效果都比上面两者好,但是离傻瓜式使用仍然有具体,文本仍然要手工调整很多
看看大家有没有什么比较好的工具或者工作流,可以一起讨论一下。
4 条回复 2025-09-06 14:46:54 +08:00  | | 1 yuanxing008 38 天前 其实这类工具最大的问题就是如何有效识别用户的不正确发音导致的识别异常,同一个专业术语单词 让十个人来发音可能会有三四种发音 |
 | | 2 380cc 38 天前 mac whisper 我用了好几年了,感觉这款听写效果越来越好,从一开始的 cpp 到现在用 kit V2,速度有提升,幻听有下降,非中文的听写质量非常不错。中文听写质量不行,可以在这个 app 里自定义国内 AI 运营商的 api 进行修改,诸如 deepseek, 通义千问,这样生成的中文效果还不错的。大模型不要选 v3 ,要选 v2 不含任何后缀的。 |