为什么 NLP 发展这么多年了机器翻译还是经常翻译出狗屁不通的内容?难点在哪里? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
edis0n0
V2EX    程序员

为什么 NLP 发展这么多年了机器翻译还是经常翻译出狗屁不通的内容?难点在哪里?

  •  
  •   edis0n0 2023-02-27 20:04:45 +08:00 3792 次点击 /div>
    这是一个创建于 1037 天前的主题,其中的信息可能已经有所发展或是发生改变。
    25 条回复    2023-03-01 09:09:32 +08:00
    maemual
        1
    maemual  
       2023-02-27 20:25:25 +08:00
    人工翻译都会出现一堆狗屁不通的内容。。。
    cmdOptionKana
        2
    cmdOptionKana  
       2023-02-27 20:37:35 +08:00
    难在没有标准,无法评分。

    比如 AlphaGo 围棋,每下一个子,好歹能看实地有没有变多、外势有没有变强、大龙有没有危险,下完也能清晰判断输赢。这样知道好不好,才能改进。

    但翻译,很难评分啊(说的是机器自己给自己打分),翻译完了,好不好、对不对,这个都极难判断,而无法判断这个,就无法改进了。
    TimePPT
        3
    TimePPT  
    PRO
       2023-02-27 20:45:27 +08:00
    日常翻译还好吧,专业领域翻译不太理想。主要的问题还是在对常识 /知识的处理,以及上下文的理解。
    hhjswf
        4
    hhjswf  
       2023-02-27 20:57:05 +08:00 via Android
    难点在于人类太难懂了。
    laqow
        5
    laqow  
       2023-02-27 21:08:33 +08:00
    机器学习得到的总是某种层面下的最优,人类只会没有最优制造最优
    2xvaHoK2LGxQ29R5
        6
    2xvaHoK2LGxQ29R5  
       2023-02-27 21:11:34 +08:00 via Android
    难点在于机器学习的 golden=>人工翻译 还会翻译出一堆狗屁不通的东西
    cocomiko
        7
    cocomiko  
       2023-02-27 21:41:23 +08:00
    语言是文化一部分,不同文化之间本来就很难理解,思维方式方式也不一样,所以实质还是文化不相通,互相理解可太难了
    mercury233
        8
    mercury233  
       2023-02-27 23:05:25 +08:00
    其实 openai 的翻译已经很强了,包括 chatgpt 和 whisper 内置的翻译,期待成品化的一天
    lrigi
        9
    lrigi  
       2023-02-28 00:22:19 +08:00 via iPhone
    我天天用谷歌翻译,感觉还是挺满意的啊
    现在的谷歌翻译还不够强吗
    有点好奇楼主翻译的什么内容,给个例句么看看
    lslqtz
        10
    lslqtz  
       2023-02-28 00:38:39 +08:00
    即使进行大量数据标注, 翻译这个东西也很看场景. 还是语法的问题.
    em70
        11
    em70  
       2023-02-28 00:42:54 +08:00
    因为缺少语言中间态,字面意思的转换会丢失大量的信息,chatgpt 是目前已知唯一可能得语言中间态
    xxzlll
        12
    xxzlll  
       2023-02-28 00:44:00 +08:00 via Android
    既想要信雅达的翻译效果,有不愿意支付高额的使用费用来支撑翻译软件公司去做数据标注和审核的工作,这世上哪有这么美的事?
    F281M6Dh8DXpD1g2
        13
    F281M6Dh8DXpD1g2  
       2023-02-28 00:46:36 +08:00
    deepl 已经不错了
    你想要达到专业翻译的水平还不如自己学
    edis0n0
        14
    edis0n0  
    OP
       2023-02-28 00:54:49 +08:00
    @liprais #13 DeepL 经常改变原文意思 /t/890408
    @lrigi #9 Google 英文还好,翻译日文经常一句剩半句,另外半句直接没了
    HankLu
        15
    HankLu  
       2023-02-28 01:00:03 +08:00
    翻译,太难了,用现在的机器水平来要求翻译,太难为机器了
    chern9511
        16
    chern9511  
       2023-02-28 02:12:18 +08:00 via Android
    语料,模型,还要挑专业场景,其实就是挺难的吧
    Ocean810975
        17
    Ocean810975  
       2023-02-28 09:47:59 +08:00 via Android
    @edis0n0 deepl 德译英还行,差不多趋于完美了。德译中还是差点,
    opentrade
        18
    opentrade  
       2023-02-28 10:50:59 +08:00
    难点在于你都意识不到它很难
    macscsbf
        19
    macscsbf  
       2023-02-28 14:25:07 +08:00
    我感觉 hybrid 挺不错的
    aloop
        20
    aloop  
       2023-02-28 14:28:38 +08:00 via Android
    @mercury233 whisper 是什么
    mercury233
        21
    mercury233  
       2023-02-28 15:40:54 +08:00
    @aloop https://github.com/openai/whisper
    语音转文本的 AI ,自带任何语言翻译成英文功能
    edis0n0
        22
    edis0n0  
    OP
       2023-02-28 15:53:11 +08:00
    @mercury233 #21 这东西日文识别率稳定 0%,全是乱七八糟的日文出来,其它语言没试
    xiaochen3
        23
    xiaochen3  
       2023-02-28 16:11:07 +08:00
    @edis0n0 不会吧,之前还看到有人用这来识别日综。不过我也只是识别过英文。
    mercury233
        24
    mercury233  
       2023-02-28 17:19:07 +08:00
    @edis0n0 我测试日文还好,但多音字和幻听的问题确实很严重
    9527kf
        25
    9527kf  
       2023-03-01 09:09:32 +08:00
    我也一直有这个一问,chatgpt 的对话,看着很流畅,为啥直接翻译却不流畅呢
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1069 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 23:14 PVG 07:14 LAX 15:14 JFK 18:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86