
个人感觉还是不如 claude 家 3.5 强,没有续费的必要
1 ibazhx 2024-09-13 08:59:12 +08:00 一周只能 30 次 |
2 zmxnv123 2024-09-13 09:01:58 +08:00 听说擅长的方向是推理,比如做做奥赛什么的?,跟 claude 的使用场景不太一样 |
3 hardto 2024-09-13 09:10:18 +08:00 推理吊打 claude ,感觉 o1-mini 吊打 o1 |
4 Folder 2024-09-13 09:11:06 +08:00 感觉就是话贼多, 一个回答能老长了看起来都费劲. 话说从 4o 开始回答就变得长了很多, 是不是以为字越多回答越有含金量啊. |
5 haoji 2024-09-13 09:11:53 +08:00 o1-preview 一个劲的给你分析,最后出结果,适合需要“解题过程”的场景 |
6 kai4tech111 OP @Avafly #4 是的 gpt 家族风格,应该和后期人工对齐有关 |
7 cherryas 2024-09-13 09:17:31 +08:00 cot 是数学推理的必要方向这是楼下李奶奶都知道的事。强是强,也确实跨时代,但是本质就是 cot+agent ,其它模型半年内应该能追上来 |
8 kai4tech111 OP @haoji #5 有点像做数学题多写解题过程就能多拿分一样 |
9 kai4tech111 OP @ibazhx #1 看看公开的 api 价格就知道了,15$/1M input token, 60$/1M output token (之前还听说要增加一个 pro 套餐才能用,看来还是太人道了) |
10 kai4tech111 OP @cherryas #7 虽然大家都知道,但敢为先还是值得肯定的,不然都等着抄别人那就完了 |
11 yena 2024-09-13 09:34:24 +08:00 via iPhone 出了一道补全至完全二叉树的题,还是做不出来 |
13 wweerrgtc 2024-09-13 09:41:32 +08:00 肯定是比以前厉害不少, 但是和 claude 3.5 比, 我不知道, 只开了一个会员 看演示视频, 其实也是一些简单问题, 不是很复杂的 |
14 lunafreya 2024-09-13 09:42:10 +08:00 via iPhone 但人家拿出了新的 Scaling Law, 把玄学变成了科学,至少是经验科学 |
15 wweerrgtc 2024-09-13 09:42:46 +08:00 |
16 kyro00000 2024-09-13 09:53:58 +08:00 到底有 ai 能做有机化学题吗? 头疼.. |
18 easyii 2024-09-13 10:33:16 +08:00 那写代码的话 是 Claude 好用 还是 ChatGPT 现在是 ChatGPT 会员 |
19 meeop 2024-09-13 10:58:26 +08:00 用我最喜欢的写 todolist 测试,和之前的 4o 差不多,但是因为新模型多了一个分析用户输入的步骤,自动扩展完善了我的 promot,todolist 自带了删除,划掉按钮,还有已完成的 todo 的过滤器 但是上述要求我并没有说 对于普通用户,这可能更好,输出效果变好 对于生产或者更专业的用户,这就有点坑了,ai 自动帮你脑补了你没要求的功能 |
21 SLKun 2024-09-13 15:39:13 +08:00 在做数学题方面感觉显著好于之前的所有模型 就是太贵了 |
22 guanchayuan 2024-09-13 15:54:55 +08:00 解答这题还不如 4o: 有 5 个重量都互不相同的箱子,每个的重量都小于 100 千克。将这些箱子两两组合在一起称重,得到的结果分别是:113 ,116 ,110 ,117 ,112 ,118 ,114 ,121 ,120 与 115 千克,请问最重的箱子为多少千克? 你们可以试试。 |
23 Hyxiao 2024-09-13 16:20:24 +08:00 这玩意输出太猛了,我反复跟他强调几遍了,别给出这么多的信息,还是不肯改 |
24 wweerrgtc 2024-09-13 16:25:05 +08:00 |
25 Folder 2024-09-13 16:28:21 +08:00 via iPhone @otakustay 很多是没用的废话,比如把我的内容重复一次然后回答,莫名其妙附上一大段代码,以前不这样的。特别用了 claude 之后对比更强烈了。 |
26 HKzy 2024-09-13 16:35:49 +08:00 摆烂了,俺们现在都用豆包 |
27 zmxnv123 2024-09-13 16:43:23 +08:00 @guanchayuan 这题就不对啊,五个箱子分别重? |
28 zmxnv123 2024-09-13 16:48:23 +08:00 5 个箱子重量从大到小 x_1, x_2, x_3, x_4, x_5 x_1 + x_2 = 121 x_4 + x_5 = 110 |
29 zmxnv123 2024-09-13 16:50:51 +08:00 x_1 + x_3 = 120, x_5 + x_3 = 112, x_1 + x_2 + x_3 + x_4 + x_5 = (重量和) / 4 = 289 解上面五个方程得到 54, 56, 58, 59,62 |
30 aiqinxuancai 2024-09-13 17:10:46 +08:00 我感觉实际上他是对某个模型进行多次调用,实现类似 dify 多步工作流的处理方式。 比如: 第 1 次调用,拆分问题 第 2 次调用,针对拆分后的问题进行解答 第 3 次调用,纠正解答的中存在的问题并重新解答 再或者: 第 1 次调用,解决问题 第 2 次调用,指出解决方案中存在的问题 第 3 次调用,根据指出的问题再次解答 |
31 kai4tech111 OP @easyii #18 省流,claude |
32 kai4tech111 OP @aiqinxuancai #30 是的 有额外的推理过程,看他们的 api 介绍里就能发现,而且计费也包含这部分 |
33 guanchayuan 2024-09-13 18:43:20 +08:00 @zmxnv123 你这个是哪个 AI 模型解答的。 还是人工解答的。 |
35 ztmzzz 2024-09-13 20:54:13 +08:00 via iPhone o1 更新了训练数据,现在学到了 lean4 了,4o 只学到了 lean3 |
36 xuelang 2024-09-13 21:07:30 +08:00 https://selfboot.cn/2024/09/13/gpto1_hands_on/ 早上就把 preview 额度干完了。。 试了下,代码和推理有一点提高,不过也没有和 Claude 拉开很大差距。 中文理解和生成,还得是 Claude3.5 |
37 piero66 2024-09-13 23:57:05 +08:00 很强,有一定的思维能力,更接近懂点东西的真人的解题方式了 |
39 guanchayuan 2024-09-14 11:14:25 +08:00 @LanhuaMa 我用中文没解出来,英文可以?那下次是不是可以先翻译,然后用英语来解数学题? |
40 rqYzyAced2NbD8fw 2024-09-14 11:39:23 +08:00 @guanchayuan 我日常问 gpt 都是英文的,中文 gpt 感觉有点唐,不敢让他指导我写代码... 图省事可以让 GPT 先把你上一句话翻译一遍,然后叫他根据翻译的内容用英文输出,这样也能取得类似英文的质量的 |
41 NiaoBlush 2024-09-14 12:10:35 +08:00 via iPhone 搜了好几道题目分别用 4o 和 o1 试了下,大多数给的答案是对的,以下是一道给出答案不一样的: 题目:一个人在林中散步时,无意中听到了几个强盗在商量如何分赃。强盗们说,如果每人分 6 匹布,则剩余 5 匹;如果每人分 7 匹布,则少 8 匹。请问:共有几个强盗?几匹布? 4o 给的答案:设共有 \( x \) 个强盗,布匹总数为 \( y \)。 根据题意,列出以下方程: 1. 每人分 6 匹布,剩余 5 匹:即 \( y \equiv 5 \pmod{6} \),表示 \( y = 6x + 5 \)。 2. 每人分 7 匹布,少 8 匹:即 \( y \equiv -8 \pmod{7} \),也就是 \( y \equiv -8 + 7 = -1 \equiv 6 \pmod{7} \),表示 \( y = 7x - 8 \)。 于是我们有两组同余条件: \[ y \equiv 5 \pmod{6} \] \[ y \equiv 6 \pmod{7} \] 通过解这组同余方程,可以求出总共有多少强盗以及多少匹布。根据求解得出,最终答案为: **总共有 59 匹布,9 个强盗**。 o1 给的答案: |
42 NiaoBlush 2024-09-14 12:11:27 +08:00 via iPhone 接上面,o1 给的答案:**答案:** 共有 **13** 个强盗,**83** 匹布。 --- **解题过程:** 设强盗人数为 \( x \),布的总数为 \( y \)。 1. **每人分 6 匹布,剩余 5 匹:** \[ y = 6x + 5 \quad \text{( 1 )} \] 2. **每人分 7 匹布,还差 8 匹:** \[ y + 8 = 7x \quad \text{( 2 )} \] 3. **解方程组:** 将方程( 1 )代入方程( 2 ): \[ 6x + 5 + 8 = 7x \\ 6x + 13 = 7x \\ 7x - 6x = 13 \\ x = 13 \] 4. **求布的总数:** 将 \( x = 13 \) 代入方程( 1 ): \[ y = 6 \times 13 + 5 = 78 + 5 = 83 \] **结论:** 共有 **13** 个强盗,**83** 匹布。 |
43 assassing 2024-09-14 14:13:54 +08:00 怼了两天把额度用完,结论是在编程方面不如 GPT-4 。注意不是 4o ,这个 o1 像在 4o 路线上演变出来的。o1mini 回答大概率和 o1 一模一样,不用纠结他们之间的区别。 特点 1:输出超长,但如果持续对话会发现它经常重复前面回答过的内容。生成代码方面会有优势,以前代码要分多次输出,有时会中断,现在不担心这个问题。当然我还没来得及考察代码质量。 特点 2:输出稳定,多次问同一个问题,回答大概只有 10% 不同,如果应用在图像生成上会很有用。但由于幻觉依旧,也就是你的问题它给你错误回答,重复问它还是给你同样的错误答案,而不像以前重新生成会有改观。 特点 3:有所保留,这点从 4o 开始感受明显。就像一个高中数学老师被调任教小学,你问它初中数学知识,它反复给你讲解小学数学概念。只有在追问 5 轮之后它才开始说一些真正的重点,浪费很多时间。 也许是时候试试 Claude 了? |
44 rebeccaMyKid 2024-09-15 11:46:33 +08:00 @Avafly 输出太长+1 ,日常使用感觉有点倒退。可能适合拿来一些需要详细 reasoning 的问题?目前就我浅浅的常识,感觉还是 4o 好用。 |