
研究人员利用 OpenAI 的 API 在数学解题、回答敏感问题(如违赚钱的方式)、代码生成和视觉推理等任务上测试了两个模型在 2023 年 3 月和 6 月两个版本的表现。结果显示,GPT-3.5 和 GPT-4 存在显著的性能差异,如 GPT-4 在素数识别任务中 3 月的正确率高达 97.6%,但 6 月仅仅只有 2.4%。GPT-3.5 的性能则有明显改进。这项研究再次引发了有关 OpenAI 是否为节省费用而调整模型的议论。
一直纠结要否订阅 GPT-4 ,例如在 poe 或者 App Store 官方 app 。而且,最近 Claude 和 bard 也挺好用。当然,主要还是贫穷限制了想象力
1 tsja 2023-07-24 12:06:18 +08:00 via iPhone plus 会员一直在订阅,感觉 gpt4 明显越来越智能。不太清楚是不是 api 和网页版的模型是否一样 |
3 SingeeKing PRO 主观感觉 4 确实变傻了,甚至我感觉 Claude 比 4 给出的要更精准 如果 ChatGPT Plus 还没啥大的更新下个月开始我就换退了 |
4 dawn009 2023-07-24 13:28:41 +08:00 为了让 AI 更“安全”而增加的各种限制,副作用就是可能让 AI 智力下降。很难在不损害模型的前提下让它输出更“符合社会标准”的结果。看来 OpenAI 也没法很好的解决这个问题。 |
5 huahsiung 2023-07-24 14:16:30 +08:00 网上看到的,这个简单积分 ∫(1,e)∫(e,e^2) 1/xy dxdy=? 原来能算对,现在可能不行,又可能行 https://i.niupic.com/images/2023/07/20/byBV.JPG |
6 8355 2023-07-24 14:25:23 +08:00 确实有很大问题,现在一些文档上直接写的 demo 问题,以前懒得查直接问都可以给出答案,现在要追问一次修正。我这个月都不打算续费了。 |
7 fwin3001 OP @huahsiung 试了下,不简单。官方 ChatGPT 3.5 算出来 1 ,Claude 算出来 e-1 ,bard 算出来 2 。然后回复 The final answer should be 1. Please check your calculation process ,之后都算出了 1 。感觉这个以后可以用来作为质量参考标准 |
8 huahsiung 2023-07-24 15:00:02 +08:00 @fwin3001 文心的 https://i.niupic.com/images/2023/07/20/byCi.png 星火的 https://i.imgtg.com/2023/07/20/OF6D5I.png 星火是强行正确,最后一步是,ln(e)-ln(1)-ln(2)-ln(e)=ln(2)-ln(1)=1 。可能是回答前先用计算机算了一篇代数 保证准确性。然后再用大型语言回答的。 maple 算出来也是 1 |
9 CruelMoon 2023-07-24 17:21:56 +08:00 4 明显越来越蠢,同样的问题 5 月能看懂 6 月之后经常出错 |
10 pangxiang 2023-07-24 18:17:22 +08:00 我用的 gpt4 测试了一下,能算出来 问:假设你是一名数学专家,精通微积分、线性代数等知识,请你计算如下式子: ∫(1,e)∫(e,e^2) 1/xy dxdy=? 答:这是一个双重积分的问题,其中的积分是对一对变量 x 和 y 的函数进行的,这个函数是 1/xy 。因此,我们需要使用二重积分的规则来解决这个问题。 首先,我们要对内层的积分进行计算,也就是关于 x 的积分: ∫(1,e) 1/xy dx 。 对于这个积分,可以先固定 y 值,然后对 x 进行积分。函数 1/xy 的不确定积分(原函数)是 ln|x|/y ,所以,我们可以把积分区间的上下限代入这个原函数,然后做差。 所以, ∫(1,e) 1/xy dx = ln|e|/y - ln|1|/y = ln(e)/y - ln(1)/y = 1/y. 然后,我们需要对这个结果进行另一个积分,也就是关于 y 的积分: ∫(e,e^2) 1/y dy. 同样的,函数 1/y 的不确定积分(原函数)是 ln|y|,所以,我们把积分区间的上下限代入这个原函数,然后做差。 所以, ∫(e,e^2) 1/y dy = ln|e^2| - ln|e| = 2 - 1 = 1. 所以,原来的双重积分等于 1 。 |
11 xuelang 2023-07-24 18:54:55 +08:00 个人感觉 gpt4 明显越来越智能的 |
12 nasheep 2023-07-24 20:32:59 +08:00 via Android 确实是这样,前一天使用代码解释器随便一说它就能理解,第二天同样的问题它就理解不了了,但是也不好说,毕竟这种东西一直在动态变化着 |
13 youthfire 2023-07-24 20:49:22 +08:00 我自己体会是网页版明显降智,api 保持原质量,但老模型 gpt-4-0314 质量更高( api ) |
14 wushenlun 2023-07-25 00:27:27 +08:00 via Android 还要啥证据,回答甚至比 3.5 拉胯了,一个简单问题反复回答错误 |
15 xuelang 2023-07-25 07:50:39 +08:00 系统基准评测 https://selfboot.cn/2023/07/25/gpt4_prompt_evals/ 各位可以时不时跑一下评测看看 |
16 fang2hou 2023-07-25 10:08:52 +08:00 via iPhone 不一定,训练用的奖励函数和网友自己总结的测试基准天生存在 bias 。 我自己每天用几十次感觉没啥特别大的变化 |