怎么实现纠正语音提取文字后的错别字、同音字,而不改变原文 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
richiewu

怎么实现纠正语音提取文字后的错别字、同音字,而不改变原文

  •  
  •   richiewu 3 月 10 日 1069 次点击
    这是一个创建于 45 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试过两种路线,pycorrector 识别率稍微低 qwen 模型总是要改原文,怎么提要求都不行

    9 条回复    2026-03-12 16:38:31 +08:00
    kifile
        1
    kifile  
       3 月 10 日
    增加 Workflow loop ,逻辑,搞一个比对脚本,QWEN 生成数据之后,必须经过一次比对脚本,不通过,那么将错误信息发回给 QWEN 重新生成,多次迭代。

    想要进一步优化,就考虑切片,返回时给出变化内容行数信息,只调整对应行,做增量变更。
    Meteora626
        2
    Meteora626  
       3 月 10 日
    错别字还能比对,同音字没有字库根本搞不定吧
    richiewu
        3
    richiewu  
    OP
       3 月 10 日
    @Meteora626 大部分同音字大模型能搞定,因为有上下文
    richiewu
        4
    richiewu  
    OP
       3 月 10 日
    @kifile 标点、断句、错字都改了很多,不好对比呢
    qipan0321
        5
    qipan0321  
       3 月 10 日
    提示词写好不会随便改原文吧,我用千问做 ocr 文本识别错误的校正,没怎么见过原文被改的。
    richiewu
        6
    richiewu  
    OP
       3 月 10 日
    @qipan0321 你怎么写的,我这样的
    SYSTEM_PROMPT = """
    你是一名资深图书编辑,负责修复音频转写错误。
    [任务] 修正错别字、人名地名,优化标点,合并破碎短句。
    [重要]
    1. 必须输出完整的修正文本,不要遗漏任何内容。
    2. 如果输入文本很长,请确保输出覆盖全部输入内容。
    3. 直接输出修正后的文本,严禁包含“好的”、“以下是”等废话。
    """
    qipan0321
        7
    qipan0321  
       3 月 10 日
    @richiewu 你的 “合并破碎短句” 和 “如果输入文本很长,请确保输出覆盖全部输入内容” 都很容易触发模型直接修改你的内容,身份也不对, 图书编辑和音频转换没有关系,直接指定任务就好。类似这种

    PROMPT_TEMPLATE = '''
    **任务:** 修复可能因语音识别错误导致有同音字错别字或者不完整句子的音频转换文本. 输出: 校正后文本 + 修改项目记录 + 需人工检查项目

    **非常重要:**
    不要修改任何不必要修改的项目,除非出现了明显的同音字错别字或者不完整的句子

    ...


    **输出:**
    ### 校正后文本
    [校正后文本]

    ### 修改项目记录
    1. 修改项描述(带具体为什么修改的愿意), 例如, "把‘易’ 改为‘1’ - 上下文显示这里应该是个数量词"]
    ...

    ### 需人工检查项目
    1. [需人工检查项目 - 只记录通过上下文分析后还是不能确定的问题]
    ...

    **Text to fix:**
    {content}
    '''
    kifile
        8
    kifile  
       3 月 10 日
    对比相似度呗,也可以增加后置节点,把 diff 信息直接传给 LLM ,写一个 prompt 让他识别是否只针对错字的变更,然后给 LLM 自己做二次 Review ,评价是否满足要求。

    感觉是标准的 ReAct 可以解决的事情,但是精度如果想要达到 100%,最终还是需要演变成 CodeAct
    richiewu
        9
    richiewu  
    OP
       3 月 12 日
    @qipan0321 是的,解决了,谢谢
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3747 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 45ms UTC 04:26 PVG 12:26 LAX 21:26 JFK 00:26
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86