技术类语音识别（会议记录）的工具推荐和讨论

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 93 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在寻找比较好的可以做技术类语音识别（会议记录）的工具，主要下面几点诉求：
.比较好的支持 DICITION 自定义字典，例如很多专有名词，语音模型没有训练过
2.需要能够比较好的识别中英文混合，具备识别 SPEAKER 的能力，识别正确率较高，至少能够作为 AI 润色的输入
3.能够监听识别 MAC 上 APP 的语音流，例如微信，腾讯会议等

个人尝试了下述方案：
1.MAC WHISPER 评分 5.0
使用了内置默认模型：openai-whisper-large3 600MB 版本和 Large v3 turbo ，效果不是特别好，英文勉强能识别部分，连中文都识别率不太高，支持 SPEAKER 区分，支持自定义字典，但是自定义字典貌似并未生效

2.讯飞听见评分 5.5
付费使用了音频上传功能，效果比 MAC WHISPER 略好，自定义字典同样没有生效，脚本的编辑页面相对友好一些，中文仍然存在一些问题，比 MAC WHISPER 略好点

3.通义听悟评分 6.0
唯一勉强能用的语音识别工具，只是勉强，自定义字典同样没有生效，界面和讯飞听见类似，中文英文效果都比上面两者好，但是离傻瓜式使用仍然有具体，文本仍然要手工调整很多

看看大家有没有什么比较好的工具或者工作流，可以一起讨论一下。

语音识别

会议记录

工具推荐

4 条回复 2025-09-06 14:46:54 +08:00

yuanxing008

93 天前

其实这类工具最大的问题就是如何有效识别用户的不正确发音导致的识别异常，同一个专业术语单词让十个人来发音可能会有三四种发音

380cc

93 天前

mac whisper 我用了好几年了，感觉这款听写效果越来越好，从一开始的 cpp 到现在用 kit V2,速度有提升，幻听有下降，非中文的听写质量非常不错。中文听写质量不行，可以在这个 app 里自定义国内 AI 运营商的 api 进行修改，诸如 deepseek, 通义千问，这样生成的中文效果还不错的。大模型不要选 v3 ，要选 v2 不含任何后缀的。

565656

93 天前

chatgpt 有会议模式？

milestance

92 天前

之前看到在 LINUX.DO 有人推荐 GEMINI 2.5 PRO,这个我还没有测试，看有人反馈长时间音频不支持