技术类语音识别(会议记录)的工具推荐和讨论 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
milestance
V2EX    分享发现

技术类语音识别(会议记录)的工具推荐和讨论

  •  
  •   milestance 38 天前 998 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在寻找比较好的可以做技术类语音识别(会议记录)的工具,主要下面几点诉求:
    1比较好的支持 DICITION 自定义字典,例如很多专有名词,语音模型没有训练过
    2.需要能够比较好的识别中英文混合,具备识别 SPEAKER 的能力,识别正确率较高,至少能够作为 AI 润色的输入
    3.能够监听识别 MAC 上 APP 的语音流,例如微信,腾讯会议等


    个人尝试了下述方案:
    1.MAC WHISPER 评分 5.0
    使用了内置默认模型:openai-whisper-large3 600MB 版本和 Large v3 turbo ,效果不是特别好,英文勉强能识别部分,连中文都识别率不太高,支持 SPEAKER 区分,支持自定义字典,但是自定义字典貌似并未生效

    2.讯飞听见 评分 5.5
    付费使用了音频上传功能,效果比 MAC WHISPER 略好,自定义字典同样没有生效,脚本的编辑页面相对友好一些,中文仍然存在一些问题,比 MAC WHISPER 略好点

    3.通义听悟 评分 6.0
    唯一勉强能用的语音识别工具,只是勉强,自定义字典同样没有生效,界面和讯飞听见类似,中文英文效果都比上面两者好,但是离傻瓜式使用仍然有具体,文本仍然要手工调整很多

    看看大家有没有什么比较好的工具或者工作流,可以一起讨论一下。
    4 条回复    2025-09-06 14:46:54 +08:00
    yuanxing008
        1
    yuanxing008  
       38 天前
    其实这类工具最大的问题就是如何有效识别用户的不正确发音导致的识别异常,同一个专业术语单词 让十个人来发音可能会有三四种发音
    380cc
        2
    380cc  
       38 天前
    mac whisper 我用了好几年了,感觉这款听写效果越来越好,从一开始的 cpp 到现在用 kit V2,速度有提升,幻听有下降,非中文的听写质量非常不错。中文听写质量不行,可以在这个 app 里自定义国内 AI 运营商的 api 进行修改,诸如 deepseek, 通义千问,这样生成的中文效果还不错的。大模型不要选 v3 ,要选 v2 不含任何后缀的。
    565656
        3
    565656  
       38 天前
    chatgpt 有会议模式?
    milestance
        4
    milestance  
    OP
       37 天前
    之前看到在 LINUX.DO 有人推荐 GEMINI 2.5 PRO,这个我还没有测试,看有人反馈长时间音频不支持
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1038 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 22:53 PVG 06:53 LAX 15:53 JFK 18:53
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86