疑似实锤 ChatGPT 性能下降,大佬们有没 GPT-4 的前后对比做参考 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fwin3001
V2EX    OpenAI

疑似实锤 ChatGPT 性能下降,大佬们有没 GPT-4 的前后对比做参考

  •  
  •   fwin3001 2023-07-24 10:39:32 +08:00 4075 次点击
    这是一个创建于 901 天前的主题,其中的信息可能已经有所发展或是发生改变。

    新闻来源:solidot

    研究人员利用 OpenAI 的 API 在数学解题、回答敏感问题(如违赚钱的方式)、代码生成和视觉推理等任务上测试了两个模型在 2023 年 3 月和 6 月两个版本的表现。结果显示,GPT-3.5 和 GPT-4 存在显著的性能差异,如 GPT-4 在素数识别任务中 3 月的正确率高达 97.6%,但 6 月仅仅只有 2.4%。GPT-3.5 的性能则有明显改进。这项研究再次引发了有关 OpenAI 是否为节省费用而调整模型的议论。

    一直纠结要否订阅 GPT-4 ,例如在 poe 或者 App Store 官方 app 。而且,最近 Claude 和 bard 也挺好用。当然,主要还是贫穷限制了想象力

    16 条回复    2023-07-25 10:08:52 +08:00
    tsja
        1
    tsja  
       2023-07-24 12:06:18 +08:00 via iPhone
    plus 会员一直在订阅,感觉 gpt4 明显越来越智能。不太清楚是不是 api 和网页版的模型是否一样
    fwin3001
        2
    fwin3001  
    OP
       2023-07-24 12:15:31 +08:00
    @tsja 谢谢经验提供。我也直觉认为应该是越来越好用才对,例如像这种自定义角色的功能
    SingeeKing
        3
    SingeeKing  
    PRO
       2023-07-24 12:35:28 +08:00
    主观感觉 4 确实变傻了,甚至我感觉 Claude 比 4 给出的要更精准

    如果 ChatGPT Plus 还没啥大的更新下个月开始我就换退了
    dawn009
        4
    dawn009  
       2023-07-24 13:28:41 +08:00
    为了让 AI 更“安全”而增加的各种限制,副作用就是可能让 AI 智力下降。很难在不损害模型的前提下让它输出更“符合社会标准”的结果。看来 OpenAI 也没法很好的解决这个问题。
    huahsiung
        5
    huahsiung  
       2023-07-24 14:16:30 +08:00
    网上看到的,这个简单积分

    ∫(1,e)∫(e,e^2) 1/xy dxdy=?

    原来能算对,现在可能不行,又可能行

    https://i.niupic.com/images/2023/07/20/byBV.JPG
    8355
        6
    8355  
       2023-07-24 14:25:23 +08:00
    确实有很大问题,现在一些文档上直接写的 demo 问题,以前懒得查直接问都可以给出答案,现在要追问一次修正。我这个月都不打算续费了。
    fwin3001
        7
    fwin3001  
    OP
       2023-07-24 14:32:37 +08:00
    @huahsiung 试了下,不简单。官方 ChatGPT 3.5 算出来 1 ,Claude 算出来 e-1 ,bard 算出来 2 。然后回复 The final answer should be 1. Please check your calculation process ,之后都算出了 1 。感觉这个以后可以用来作为质量参考标准
    huahsiung
        8
    huahsiung  
       2023-07-24 15:00:02 +08:00
    @fwin3001 文心的 https://i.niupic.com/images/2023/07/20/byCi.png

    星火的 https://i.imgtg.com/2023/07/20/OF6D5I.png

    星火是强行正确,最后一步是,ln(e)-ln(1)-ln(2)-ln(e)=ln(2)-ln(1)=1 。可能是回答前先用计算机算了一篇代数 保证准确性。然后再用大型语言回答的。

    maple 算出来也是 1
    CruelMoon
        9
    CruelMoon  
       2023-07-24 17:21:56 +08:00
    4 明显越来越蠢,同样的问题 5 月能看懂 6 月之后经常出错
    pangxiang
        10
    pangxiang  
       2023-07-24 18:17:22 +08:00
    我用的 gpt4 测试了一下,能算出来
    问:假设你是一名数学专家,精通微积分、线性代数等知识,请你计算如下式子:
    ∫(1,e)∫(e,e^2) 1/xy dxdy=?

    答:这是一个双重积分的问题,其中的积分是对一对变量 x 和 y 的函数进行的,这个函数是 1/xy 。因此,我们需要使用二重积分的规则来解决这个问题。

    首先,我们要对内层的积分进行计算,也就是关于 x 的积分:

    ∫(1,e) 1/xy dx 。

    对于这个积分,可以先固定 y 值,然后对 x 进行积分。函数 1/xy 的不确定积分(原函数)是 ln|x|/y ,所以,我们可以把积分区间的上下限代入这个原函数,然后做差。

    所以,

    ∫(1,e) 1/xy dx = ln|e|/y - ln|1|/y = ln(e)/y - ln(1)/y = 1/y.

    然后,我们需要对这个结果进行另一个积分,也就是关于 y 的积分:

    ∫(e,e^2) 1/y dy.

    同样的,函数 1/y 的不确定积分(原函数)是 ln|y|,所以,我们把积分区间的上下限代入这个原函数,然后做差。

    所以,

    ∫(e,e^2) 1/y dy = ln|e^2| - ln|e| = 2 - 1 = 1.

    所以,原来的双重积分等于 1 。
    xuelang
        11
    xuelang  
       2023-07-24 18:54:55 +08:00
    个人感觉 gpt4 明显越来越智能的
    nasheep
        12
    nasheep  
       2023-07-24 20:32:59 +08:00 via Android
    确实是这样,前一天使用代码解释器随便一说它就能理解,第二天同样的问题它就理解不了了,但是也不好说,毕竟这种东西一直在动态变化着
    youthfire
        13
    youthfire  
       2023-07-24 20:49:22 +08:00
    我自己体会是网页版明显降智,api 保持原质量,但老模型 gpt-4-0314 质量更高( api )
    wushenlun
        14
    wushenlun  
       2023-07-25 00:27:27 +08:00 via Android
    还要啥证据,回答甚至比 3.5 拉胯了,一个简单问题反复回答错误
    xuelang
        15
    xuelang  
       2023-07-25 07:50:39 +08:00
    系统基准评测 https://selfboot.cn/2023/07/25/gpt4_prompt_evals/
    各位可以时不时跑一下评测看看
    fang2hou
        16
    fang2hou  
       2023-07-25 10:08:52 +08:00 via iPhone
    不一定,训练用的奖励函数和网友自己总结的测试基准天生存在 bias 。
    我自己每天用几十次感觉没啥特别大的变化
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2671 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 91ms UTC 04:43 PVG 12:43 LAX 20:43 JFK 23:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86