![]() | 1 wanniwa 208 天前 ![]() |
![]() | 2 clemente 208 天前 ![]() 找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的 1. 提示词对输出的提升 可能 更重要 2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几 |
3 ly841000 208 天前 claude 后端不行,写个三缓冲都写不明白 |
![]() | 4 09EdgqomQp5z019t 208 天前 chatgpt 排名强,体验拉 |
5 vopsoft 208 天前 via Android ![]() 可拉到吧 claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比 |
![]() | 6 klo424 208 天前 claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈 |
![]() | 7 KMpAn8Obw1QhPoEP 208 天前 via Android 都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了 |
8 Cheez PRO claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。 |
9 zgjldxdyt1 208 天前 别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。 |
10 RandyLuo 208 天前 |
![]() | 11 C02TobNClov1Dz56 208 天前 claude 上下文 200k token deepseek 64K token 这还比啥编程领域, 长上下文明显更有优势 |
![]() | 12 AoEiuV020JP 208 天前 我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分, |
![]() | 13 InkStone 208 天前 不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。 |
![]() | 14 HUZHUANGZHUANG 208 天前 我不关心什么跑分,我只关心谁用的顺手 |
![]() | 15 Promtheus 208 天前 懂了 claude 3.7 最强 |
![]() | 16 seven777 208 天前 数学和推理 Grok3 目前最强, 代码 Claude3.7 最强. 可以反驳,但我不接受. "竞赛制编程"有什么明显的不同和特点? |
![]() | 17 iflint 208 天前 @enchilada2020 这么牛 |
![]() | 18 zekeluii 208 天前 代是 Claude 3.7 最 |
![]() | 19 windyboy 208 天前 奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序 |
![]() | 20 cheng6563 208 天前 所以你整天竞赛还是整天 CURD ? |
21 securityCoding 208 天前 @iflint 抓 bug 我感觉几个主流模型都非常强 |
22 HEGGRIA 208 天前 3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking |
![]() | 23 LHN 208 天前 ![]() 这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障! |
24 Rickkkkkkk 208 天前 这下跑分的尴尬之处就体现出来了 大家真正都在用的东西,谁更好用不是跑分能体现的 |
![]() | 25 ytmsdy 208 天前 反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。 |
26 aloxaf 208 天前 编程排名目前只认 https://aider.chat/docs/leaderboards/ Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。 |
27 Yuanlaoer 208 天前 所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。 |
28 mxT52CRuqR6o5 208 天前 ![]() 你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗? 两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的 |
![]() | 29 jsutfun 208 天前 刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀 |
30 aloxaf 208 天前 ![]() 还有一点,claude 系列的 agent 能力真的特别强,这点似乎还没有哪类排行榜可以体现,但是这个对于大项目来说是必须的。 上周在一个不熟悉项目的遇到一个小 bug ,试了下直接让 AI 分析,o3-mini 和 claude 3.7 sonnet 的表现大致如下: o3-mini:只看我给的上下文,然后思考半天作答,结果自然是完全不对。 claude 3.7 sonnet:看完我给的上下文后,顺着调用链不断阅读代码……竟然真的准确定位到了问题,问它这整个调用流程是啥样的也能答上来。 anthropic 别的不说,在编程这方面绝对是最务实的公司,很清楚在编程方面真正需要的能力是什么。 |
![]() | 31 murmur 208 天前 ![]() claude 3.7 得看是谁家的 cluade ,大模型是一部分,还要上下文,角色调教,目前看 cursor 和 copilot 的 3.7 都不错,但是我更喜欢 copilot 的界面,cursor 的新界面给我用吐了 |
32 idealhs 208 天前 claude 暴力输出上千行代码不带报错的,其他家做得到吗 |
![]() | 33 seven777 208 天前 @murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个. cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的. |
![]() | 34 murmur 208 天前 @seven777 cursor 新版的遇到个 bug ,不知道是设计还是啥问题,在同事电脑,如果是远程桌面下,按减号键,比如 this-is-a-css-class ,会把我选的上下文给我减下去 而且不知道为啥,那个上下文关联被 copilot 吊打,首选上下文要半天才能反应过来,copliot 直接打文件名就可以,cursor 想快必须得文件拖拽到聊天接口里,关联里选文件搜不到。。。 |
35 muzei233 208 天前 via Android 和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds |
![]() | 36 ychost 208 天前 anthropic/claude-3.7-sonnet 这是目前最好用的模型吧,尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅,国产模型 Qwen 、deepseek 等都不行,尤其在工具调用方面 |
![]() | 37 maix27 208 天前 手机电脑手机年年出新,你年年换吗? 编程语言次次出新,你是不是也在追逐? 我不会刻意的追逐一个没有意义的东西,而不是因为对这个东西有误解。 |
38 stormsuncc 208 天前 who care |
![]() | 39 QH3Oh2PMtre8ym0c 208 天前 via Android 大家说得对 |
![]() | 40 mogutouer 208 天前 sonnet 好用是因为 cursor 写了不少内部提示词,跟工具配合最好,解决问题事半功倍,所以最好用。 o3-mini 便宜但不认 cursor 的提示词,只适合开新对话处理新问题,并且你自己的提示词要写一大堆。 不在 cursor 环境下,如果是直接网页上对话,最强的目前是 grok3 think 吧,几乎可以解决一切难题,思考过程比 deepseek R1 还要长。 |
![]() | 41 uncleroot 208 天前 一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域 这个不正是大多数人所需要的 |
43 crackidz 208 天前 说了,模型是不是最强,是要看使用领域的,没有一个模型现在是六边形战士... 怎么就不会在不同的领域选择不同的模型呢?什么精神钢印啊... |
![]() | 44 xiexiping 207 天前 claude 是不是最强没感知到,但是我用这么多 AI 唯一一个封号的,我也是强迫症,想着再注册一个吧,万一以后能用上呢,好嘛不接受新用户注册,不知道的还以为他垄断了呢,除了他没得可用了? |
![]() | 45 greygoo 207 天前 sonnet 没加 thinking 在这里比什么,再说了他们用吹自己 OlympicCoder 的,无论怎么说还是动摇不了 claude 3.7 sonnet thinking 编程领域之神的地位 |
46 sohoorc 207 天前 已经知道 claude 3.7 最强了,没必要再次强调了吧 0.0 |
![]() | 47 irrigate2554 207 天前 什么 QwQ-32B 这么强的么 |
48 mxT52CRuqR6o5 205 天前 @xausky #47 仔细看,榜里还有另一个 32B 模型和一个 7B 模型都名列前茅呢,我只能说拿这个榜单做论据的这辈子有了 |