chatgpt(bing)的中文回答太差了,可以窥知中文网络的谬误和谎言有多夸张了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lefthand2006
V2EX    OpenAI

chatgpt(bing)的中文回答太差了,可以窥知中文网络的谬误和谎言有多夸张了

  •  
  •   lefthand2006 2023-03-04 22:11:01 +08:00 7396 次点击
    这是一个创建于 997 天前的主题,其中的信息可能已经有所发展或是发生改变。

    是啊,可为什么我问你“爱一个人不孤单,想一个人才孤单是什么歌的歌词”,你用英文回答我呢

    Bing, 9:59 PM 这句歌词出自于《想你的夜》,是由郭富城演唱的一首歌曲 。这首歌曲收录在郭富城 1997 年发行的专辑《我愿意》中,是一首抒情的情歌。

    41 条回复    2023-03-07 20:52:44 +08:00
    leimao
        1
    leimao  
       2023-03-05 00:56:04 +08:00
    这个和无标注的中文数据集和有标注人工中文数据集,以及他们在所有数据中的比例有关。有可能是因为中文数据集质量的确不好,也有可能是数据集质量还可以但是比例不够。这个细节只有 MSFT 内部的人才知道了。
    leimao
        2
    leimao  
       2023-03-05 00:57:43 +08:00
    OpenAI ChatGPT 中文质量也一般,我问它一些变形金刚的基本术语的意思,用英文问都是没问题的,用中文问它的回答都是胡编乱造的,而且只有懂变形金刚的人才看的出来。
    lefthand2006
        3
    lefthand2006  
    OP
       2023-03-05 01:38:28 +08:00 via iPhone
    @leimao 所以说现在网上的中文资料应该都已经被污染了
    zictos
        4
    zictos  
       2023-03-05 01:42:56 +08:00 via Android
    难道他不能通过英文资料用中文回答吗?比如很多技术方面的文档在中文互联网都找不到,但是它也一样能回答啊!
    leimao
        5
    leimao  
       2023-03-05 03:14:49 +08:00
    @zictos 这个属于 Cross-lingual learning 的范畴。跟他的学习的过程有关,对于一个训练的例子,问和答在数据集中如果都是中文,那么你在实际使用的时候,他的 attention 只会 attend 到对应的中文 token 上去,回答也一般只会是中文。估计未来模型会慢慢往这个方向上优化。
    chonger
        6
    chonger  
       2023-03-05 03:17:19 +08:00   4
    中文环境是什么样还需要旁证吗?
    stabc
        7
    stabc  
       2023-03-05 03:42:19 +08:00
    我在 new bing chat 用中文提问,它明确显示了搜索了英文内容,然后用中文回答。
    metalvest
        8
    metalvest  
       2023-03-05 03:49:15 +08:00 via Android
    @lefthand2006 变形金刚的术语有啥可污染的?
    XnEnokq9vkvVq4
        9
    XnEnokq9vkvVq4  
       2023-03-05 07:19:24 +08:00   1
    是的,这段时间我在努力和 chatgpt 、bing 练习用英语对话。逆水行舟不进则退吧
    zzm88104
        10
    zzm88104  
       2023-03-05 07:51:16 +08:00   1
    @hanqian #9 三个月来我 99%与 chatgpt 的对话都是英语进行 感觉英语输出进步极大 输入也
    争取今年抽空用它把日语学会( 达到能看懂 youtube 教程的水平)
    XnEnokq9vkvVq4
        11
    XnEnokq9vkvVq4  
       2023-03-05 07:58:41 +08:00   1
    @zzm88104 没错,这是中文的坏时代,但又是学习新语言的好时代,一起加油吧
    x52S60GIsMZHtJPN
        12
    x52S60GIsMZHtJPN  
       2023-03-05 08:21:42 +08:00 via iPhone
    @zzm88104 日语有那么简单么 u
    cmdOptionKana
        13
    cmdOptionKana  
       2023-03-05 08:33:31 +08:00   14
    偏见太严重了,中文内容可能有问题,但就这个事例无法证明这一点。

    chatgpt 是用英语研发的,研发人员可能不懂中文,那么他们自己调试、改进的时候就只能主要使用英语。另外我们也不知道英文中文的训练量是否一致,例如,现在外国网络访问中文资源也不流畅,有反向墙,这个因素是否影响了他们获取中文资源?

    因素有很多,但你都不考虑,只看对自己的偏见有利的一面,这又何尝不是自己给自己建的一堵墙。
    hidemyself
        14
    hidemyelf  
       2023-03-05 09:46:18 +08:00   1
    你这个例子说明不了 “中文网络的谬误和谎言有多夸张”。
    你问 chatGPT 中国历史的相关问题,也是有大量的错误,只能说明数据集的质量不好。
    你可以尝试用非英语语种去问,看能不能得出相同的结论
    zzm88104
        15
    zzm88104  
       2023-03-05 09:47:00 +08:00 via iPhone
    @ViolaH 日语很难 我大学时二外有一些基础 毕业后断断续续也学了一下
    ersic
        16
    ersic  
       2023-03-05 10:14:23 +08:00
    任何语言的网络世界中谬误和谎言都很多
    edinina
        17
    edinina  
       2023-03-05 10:26:11 +08:00 via iPhone
    你这么说是因为你只熟悉中文
    koto
        18
    koto  
       2023-03-05 10:42:05 +08:00
    他用别的语言也是在胡扯的..
    zpf124
        19
    zpf124  
       2023-03-05 10:44:00 +08:00
    实际上英文回答也会有这个问题,要不为什么 stackoverflow 为什么要禁它,就是它只会使用已收录的各种元素拼接一个似是而非的答案,所以在有确定正确结论的问题下它的回答都不准确。

    而中文比英语效果更差的原因应该就是数据量的差距,毕竟这软件就是外国人做的,人家训练肯定还是优先用英语,而且参与它的用户也是英语受众更多,那自然英语效果会与其他语言拉开的差距越来越大。
    LXchienne
        20
    LXchienne  
       2023-03-05 11:17:04 +08:00   1
    你看见的终究限制于你自己的眼界,和中文无关
    su100
        21
    su100  
       2023-03-05 11:26:26 +08:00
    @zpf124 是的,前两天问了一个 kotlin 的问题,让它给个示例代码,结果运行报错,后来发现它的示例是 stackoverflow 上提问者的出错代码
    littleBink
        22
    littleBink  
       2023-03-05 12:15:35 +08:00 via iPhone
    @leimao 纯好奇,真的会把 transformer 叫做变形金刚吗
    snw
        23
    snw  
       2023-03-05 12:27:28 +08:00 via Android   1
    训练用的素材必须用高质量并且做过大量标记的源才行,不然无论中文还是英文都会被内容农场污染。

    1145148964
        24
    1145148964  
       2023-03-05 12:30:58 +08:00 via Android
    这事真的不怪 chatgpt
    YooboH
        25
    YooboH  
       2023-03-05 12:33:24 +08:00
    chatgpt 里面英语训练语料占比超过 90%,而中文语料占比只有 0.1%,900 倍的差距你的论证完全是胡扯
    wqzjk393
        26
    wqzjk393  
       2023-03-05 12:51:19 +08:00 via iPhone
    其实现在的 chatgpt 参数配置感觉更像是一个玩具,以 api 里面 temperature 设置来说感觉在 0.7 0.8 左右,给出的答案看似正确但是有很多漏洞。你可以不断否定他的答案看看他是怎么说的,基本你只要说“你说的不对”,那么他必定会说“你说的对,是我错了”,像这种真的很难拿来作为应用工具,只能做休闲娱乐骗骗不懂行的人
    snw
        27
    snw  
       2023-03-05 12:52:51 +08:00 via Android   1
    再举个例子,如果你搜可口可乐原浆工厂在哪里,你会发现回答都很肯定地告诉你在“俄亥俄州”,然而这些回答显然都是基于近期某爆款自媒体文章,因为如果把时间限定到旧一些就几乎没有这个答案。

    这种错误回答甚至能骗过大部分真人(点赞率很高),你又怎么指望 AI 仅靠搜索去辨别?
    (俄亥俄州确实有 syrup plant ,但并不是自媒体所说的全球唯一唯二的原浆厂,可能也不是最大的。更不知道“原浆工厂官网”是什么鬼)



    learningman
        28
    learningman  
       2023-03-05 15:08:48 +08:00   2
    q:“chatgpt 的中文回答太差了”是否能得出结论“中文网络的谬误和谎言非常夸张”
    a:不能仅凭“chatgpt 的中文回答太差了”这一点就得出结论“中文网络的谬误和谎言非常夸张”。尽管 ChatGPT 是一个大型的人工智能语言模型,但其回答的质量受到其所训练的数据集和算法等多种因素的影响。如果 ChatGPT 的中文回答质量差,可能是由于其训练数据集的不足或者模型算法的局限等因素所致,而这些因素与中文网络的谬误和谎言无必然联系。

    要评估中文网络上的谬误和谎言的严重程度,需要采用更加科学的方法进行分析和研究,例如基于大数据的分析和调查研究等。只有通过充分的数据和证据,才能得出准确的结论。

    有的人的智力水平是真的不如 AI 。
    tooroot
        29
    tooroot  
       2023-03-05 16:21:31 +08:00
    让它用英文资料思考就行了
    ruxuan1306
        30
    ruxuan1306  
       2023-03-05 16:41:48 +08:00   1
    @learningman 有些人思维惯性已经深入潜意识了,国外产品对中文支持不好,立马就开始反思。

    当年计算机不能输入汉字时,有人就提议废象形汉字,完全拼音化。

    > 1980 年权威刊物《语文现代化》丛刊第一期的一篇文章宣称:“方块汉字在电子计算机上遇到的困难,好像一个行将就木的衰老病人。历史将证明,电子计算机是方块汉字的掘墓人,也是汉语拼音文字的助产士。”
    AOK123
        31
    AOK123  
       2023-03-05 20:37:12 +08:00
    @leimao 2L
    老哥你现实中和人聊 Transformer 也叫它变形金刚吗...
    leimao
        32
    leimao  
       2023-03-05 22:53:59 +08:00 via iPhone
    @AOK123 我说的是真的变形金刚啊,汽车人霸天虎啥的
    leimao
        33
    leimao  
       2023-03-05 22:55:55 +08:00 via iPhone
    @grahamsa0503 现在年轻人看变形金刚已经不叫他变形金刚了吗
    LaurelHarmon
        34
    LaurelHarmon  
       2023-03-05 23:20:13 +08:00   3
    纯属放屁。

    英文效果为什么好:
    首先,原始预训练的语料英文占绝大多数,大力出奇迹,英文自然不会差。
    其次,开发过程肯定重点精调英文的效果,因为更通用,熟悉的人更多,所以英文表现更好。
    而超大规模模型的涌现能力+人工反馈精调,是 ChatGPT 远超之前模型的关键。

    中文这边来说:
    没有找到 ChatGPT 用到大量中文的互联网上垃圾语料进行训练的证据(难道中文维基质量差吗?),所以中文互联网恶劣环境污染了 ChatGPT 这个推论不严谨。

    就算你抛开训练过程不谈,你能证明法西葡阿这些大语言效果跟英文没有差别,才能得到这个结论。但是估计你也不会这些语言,也没有认真调研过,直接开喷。

    你看,你自己的用中文发表的结论都这么草率,经不起推敲,反过来却怪中文互联网环境差。退一步讲,就算真的成立,是不是也有你这种人的一份功劳呢。
    alex177027
        35
    alex177027  
       2023-03-06 01:33:57 +08:00 via Android
    那你是没见过离谱的英文回答,属于是没见识什么张口就来了
    LowBi
        36
    LowBi  
       2023-03-06 09:14:44 +08:00
    一个外国人研发的语言模型,你指望它完美支持中文?凭什么,甚至还锁国区
    marcong95
        37
    marcong95  
       2023-03-06 09:46:54 +08:00
    又来定体问了?明显就是 ChatGPT 在不懂装懂而已,或者准确地说就是没有加入自己知识盲区的逻辑。我把我自己原创的五言绝句丢给 ChatGPT 它也说是李白的《行路难》。当年大学毕业脑抽写在毕业纪念册上的原创五言绝句。
    6167
        38
    6167  
       2023-03-06 13:14:15 +08:00
    这国怎,定体问
    littleBink
        39
    littleBink  
       2023-03-07 01:04:06 +08:00
    @leimao 对不起哈哈哈,我也以为你说的是 transformer 框架
    anotherside
        40
    anotherside  
       2023-03-07 14:52:02 +08:00
    从这贴可以窥之楼主的思维有多狭隘
    customer
        41
    customer  
       2023-03-07 20:52:44 +08:00
    PO 主的贴子也印证了中文网络的谬误和谎言有多夸张,还好回复的人都很有理性
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4304 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 00:13 PVG 08:13 LAX 16:13 JFK 19:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86