为什么 LLM 无法正确完成这一项看似简单的任务? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Uynaity
V2EX    OpenAI

为什么 LLM 无法正确完成这一项看似简单的任务?

  •  
  •   Uynaity 59 天前 2768 次点击
    这是一个创建于 59 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我们学校社团搞了一个播客谈话,然后搞了一份音频的文字转写稿,现在要让我检查 Proof 。 整份转写稿有快三万字了,人工检查肯定不可行,我就想让 AI 检查。

    我的要求很简单:检查文稿中有没有打错的中文字或是英文单词,以及有没有标点符号使用错误。 例如:

    原文:于事他走了出去。 修改:于**是**他走了出去。 原因:中文用词错误 
    原文:伯克利那边做 reseach 人是很多的。 修改:伯克利那边做**research**人是很多的。 原因:英文拼写错误 
    原文:里面好像还蛮多是 EF,、AF 的 修改:里面好像还蛮多是 EF 、AF 的 原因:标点多余 

    以下是我的 Prompt:

    你现在是一名专业的文稿审查员,任务是检查播客语音转写文稿中的中文字拼写错误英文单词拼写错误标点符号使用错误

    由于这是口语话表达文本,你的审查标准非常宽松,只关注上述三点,严禁纠正任何其他问题,例如语法,用词建议等。

    输出格式

    原文切片:截取原文中包含错误的句子或短语,通常为一句话(在两个逗号之间)。

    修改切片:对原文切片进行修改,并将修改的部分加粗

    修改原因:简要说明修改的原因,如“拼写错误”或“标点错误”。

    如果原文没有严重错误,或仅是非强制性修改的建议,则无需输出任何内容。


    看似很简单,但是各个 AI 的输出效果却不理想,最严重的问题是明明原文的中文/英文并没有任何拼写错误,AI 还是会输出,例如:

    Gemini 2.5 Flash:

    原文切片:感觉要这些全部都连在一起,然后它才会是一个 feasible 的 career path 。

    修改切片:感觉要这些全部都连在一起,然后它才会是一个 feasible 的 career path 。

    修改原因:英文单词拼写错误(实际上没有任何错误)。


    原文切片:我当时刚开始做 NLP 研究的时候,有去 MIT 的 special student program ,相当于有一点 DIY 的一个 exchange 。

    修改切片:我当时刚开始做 NLP 研究的时候,有去 MIT 的 special student program ,相当于有一点 DIY 的一个 exchange 。

    修改原因:英文缩写应为大写(我原文就是大写)。

    GPT 4.1

    原文切片:我们学术之路企划是为香港大学的本科生在申请学术相关的研究生和博士时给予一些经验的分享,已经成功举办了许多年

    修改切片:我们学术之路企划是为香港大学的本科生在申请学术相关的研究生和博士时给予一些经验的分享,已经成功举办了许多年。

    修改原因:句末缺少句号,标点错误(注:原文后面还有一句话的,但是 AI 把逗号忽略了)。

    DeepSeek

    原文切片:外加我觉得国际的 exposure 也非常多。

    修改切片:外加我觉得国际的 exposure 也非常多。

    修改原因:英文单词拼写错误,"exporsure"应为"exposure"(原文是正确的,但是在修改原因中出现幻觉,而且 DeepSeek 几乎全是这种幻觉)。

    GLM 4.5

    原文切片:我当时除了加入了一些当地学校的 club 之外,也有加入实验室。

    修改切片:我当时除了加入了一些当地学校的 club 之外,也有加入实验室。

    修改原因:英文单词"club"拼写错误,应为"club"( GLM 更是不装了,没有任何错误硬是说成错误)。

    以下是我贴上的文稿示例:

    金学姐

    ok 感谢问题,然后我觉得从大陆到香港而言是一个蛮大的转变,然后突然进入一个全英文的环境。港大的生活就是一种完全 DIY 自己的生活,从课程选择到业余生活跟哪些不同的组出去 hang out 。

    外加我觉得国际的 exposure 也非常多。我觉得我在港大最快乐的事了解自己因为什么事情而快乐,然后之后做职业选择的时候就更安定。

    王学长

    好的,谢谢!我这边其实有一个特别好奇的问题,金学姐在港大跟哪个老师的组会交流比较多呢?

    金学姐

    我们当时本科的 bachelor thesis 的时候就是和 Ben Kao 。然后我也很喜欢 bioinformatics ,有很多还蛮有意思的课。

    ……


    每次大概只贴 3k-4k 字,我觉得窗口大小绝对是够的。

    哎,当时和同学说审稿这事情 AI 搞搞毛方便的,结果现在 pia pia 打脸,是我提示词写的不好吗?求教!马上要交差了,在线等,挺急的 QAQ

    13 条回复    2025-08-12 19:08:36 +08:00
    ihainan
        1
    ihainan  
       59 天前
    试试修改 Prompt ,没有错误的时候输出 "无需修改",而不是不输出任何内容。
    linauror
        2
    linauror  
       59 天前
    英文的话,可以用 word 打开,会自动有拼写检查。中文就不好说了
    kuviki
        3
    kuviki  
       59 天前
    深度思考开启了吗?
    eroneko
        4
    eroneko  
       59 天前
    换 T0 模型再试试,比如 Gemini 2.5 Pro ,Claude 4 Opus, GPT 5 Thinking
    superrichman
        5
    superrichman  
       59 天前
    让我们说中文。中英文混合是坏文明。
    pingdog
        6
    pingdog  
       59 天前 via Android
    你要不全中要不全英,中英混合拆解会出幻觉,给词汇表可能会降低一些
    katwalk
        7
    katwalk  
       59 天前
    下面是我的提示词,在 Gemini 2.5 pro 中校对中文的结果,它比你的要求更多一些,除了修改错别字,不通顺的表达也会修正:

    金学姐

    〖 ok → OK 〗,感谢〖+提〗问。我觉得从大陆到香港〖-而言〗是一个蛮大的转变,〖-然后〗突然进入一个全英文的环境。港大的生活就是一种完全 DIY 〖-自己的〗生活,从课程选择到业余生活,〖跟 → 再到跟〗哪些不同的组出去 hang out 。

    〖外加 → 此外,〗我觉得国际〖的 → 化〗 exposure 也〖-非〗非常多。我觉得我在港大最快乐的事〖+是〗了解自己因〖-为〗什么事情而快乐,〖-然后〗之后做职业选择的时候就更〖安定 → 笃定〗。

    王学长

    好的,谢谢!〖我这边 → 我〗其实有一个特别好奇的问题,金学姐在港大跟哪个老师的〖组会 → 组〗交流比较多呢?

    金学姐

    我们当时本科〖的 bachelor thesis 的时候就是 → 做 bachelor thesis 时是〗和 Ben Kao 〖+合作的〗。〖-然后〗我也很喜欢 bioinformatics ,有很多还蛮有意思的课。
    Uynaity
        8
    Uynaity  
    OP
       59 天前
    @ihainan 改善效果不佳
    @linauror 英文确实可以,中文很头疼
    @kuviki 所有模型都关闭了深度思考,主要是深度思考模型要一句句的输出检查,速度超慢
    @eroneko 一直没有开通任何模型的会员,3 万字的文本经费在燃烧
    @superrichman 没办法,留子说话就是这样
    @fuzzsh 哎我也觉得这样会好很多
    @katwalk 请问你的提示词是?直接上下文学习吗?
    jybox
        9
    jybox  
       59 天前
    把你开头的例子加到 prompt 里面试试
    kuviki
        10
    kuviki  
       59 天前
    @Uynaity 用深度思考的小模型,例如 Qwen3-30B-A3B-2507
    kuviki
        11
    kuviki  
       59 天前
    Insolitude
        12
    Insolitude  
       59 天前 via Android   2
    试试把每一句话拆出来,做成 json{id, text},发给大模型,让他返回一个 JSON ,包含 id ,原文,修改后的文本,是否更正。最后写个脚本校验一下,不对的重试一下

    这是我之前类似项目的 prompt
    prompt_template = f"""
    你是一个高度智能、注重细节的中文校对批处理引擎。你的任务是接收一个 JSON 数组,对每个任务进行独立的、多维度的校对分析。

    请严格遵循以下 [核心规则] :
    1. **独立处理**:数组中的每个对象都是一个独立任务,不要让任务之间互相影响。
    2. **严格对应**:返回的 JSON 数组中的每个结果对象,必须通过`id`字段与输入任务一一对应。
    3. **遵守校对规则**:对于每个任务的「待修正片段」,都需遵守“专注修正”、“忠于原意”、“尊重范围(不补全)”的原则。
    4. **全局错误扫描**:在校对「待修正片段」的同时,也请审阅整个「上下文句子」。如果句子中存在明显的、但位于「待修正片段」**范围之外**的错误,请将 `error_outside_snippet` 字段设为 `true`。否则(即句子其他地方无错,或错误就在片段内),一律设为 `false`。
    5. **格式要求**:你的最终输出必须是一个严格的、完整的 JSON 数组。
    6. **无错则返**:如果「待修正片段」没有任何错误,请将`is_corrected`字段设为`false`。

    [重点校对维度与特殊指令]
    在执行校对时,请特别关注并应用以下细则:
    1. 结构助词“的、地、得”辨析:
    - 任务:精确审查并修正结构助词“的”、“地”、“得”的误用。
    - 标准:“的”用于定语后修饰名词;“地”用于状语后修饰动词;“得”用于动词或形容词后连接补语。

    2. 常见错别字来源分析:
    - 任务:识别并修正由常见输入法错误导致的错别字。
    - 重点关注 a (音近致错):由拼音输入法造成的谐音或近音错误。例如:“在”与“再”;“部署”与“部属”。
    - 重点关注 b (形近致错):由五笔等形码输入法造成的字形相近错误。例如:“己”与“已”;“戌”与“戍”。

    3. 技术性错误处理指令:
    - 任务:忽略特定的、由程序处理产生的非内容性错误。
    - 具体指令:若发现前后半角或全角引号(" " 或 “ ”)不匹配,且明显是由程序断句或片段截取造成的,请忽略此问题,不要将其视为需要修正的错误。
    ---

    [输入任务列表 (JSON 数组)]
    INPUT_TASKS_JSON_STRING

    ---

    [输出结果列表 (JSON 数组)]
    请根据上述要求,返回一个 JSON 数组,每个对象必须包含以下所有字段:
    - `id`: 字符串(string),与输入任务对应。
    - `is_corrected`: 布尔值(boolean),表示「待修正片段」本身是否被修正。
    - `error_outside_snippet`: 布尔值(boolean),表示在「待修正片段」范围之外的上下文中是否发现错误。
    - `original_text`: 字符串(string),原始的待修正片段。
    - `corrected_text`: 字符串(string),修正后的文本片段。
    - `explanation`: 字符串(string),简要说明所有发现。如果`error_outside_snippet`为 true ,请在此字段中说明在句子何处发现了何种错误。
    """
    wangcl
        13
    wangcl  
       59 天前
    问题应该出在“文稿审核”这个设定,会导致让 AI 过于敏感严格。这个是改后豆包的回答: https://www.doubao.com/thread/w574e73b948ba9b33

    提示词:

    你是一个高中老师,正在纠正学生的笔误和符号错误,请对以下高中学生的原文进行判定是否存在笔误。输出一段 json ,包含 3 个字段:haveError (是否存在错误) reason (一句话简短交代原因,不存在错误不输出此字段) right (改正后内容,不存在错误不输出此字段),不要输出其他任何多余内容。原文:我当时除了加入了一些当地学校的 club 之外,也有加入实验室。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1024 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 18:31 PVG 02:31 LAX 11:31 JFK 14:31
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86