在编程能力方面, Gemini 和 GPT 哪个正确率更高? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
freefly111
V2EX    程序员

在编程能力方面, Gemini 和 GPT 哪个正确率更高?

  freefly111 210 天前 6680 次点击
这是一个创建于 210 天前的主题,其中的信息可能已经有所发展或是发生改变。

最近我练算法主要使用 Gemini 和 GPT 。

我发现有时 GPT 会提供一些有错误的代码,这时候 Gemini 也可能会给错误的代码。

但 Gemini 强在速度比较快。

想问问各位的意见。

第 1 条附言    209 天前
谢谢各位的建议。
已经开始用 Claude 3.7 Sonnet 了。
43 条回复    2025-03-15 21:50:57 +08:00
MarsOnly
    1
MarsOnly  
   210 天前   4
我比较喜欢 Claude 3.7 Sonnet ,其次 DeepSeek R1
alwaysol
    2
alwaysol  
   210 天前
gpt 正确率更高,Gemini 就只剩快了
disorientatefree
    3
disorientatefree  
   210 天前
代码问题个人感受是

开源的东西,Claude 3.7 Sonnet 最好, Gemini / ChatGPT / Grok / DeepSeek 这几家的思考模型差不太多

私有大项目的话,Gemini 靠 context window 大,把整个项目喂进去,稍稍有点优势,但不大
383394544
    4
383394544  
   210 天前   1
grok3 比 chatgpt 强
wxyrrcj
    5
wxyrrcj  
   210 天前
DeepSeekv3
4UyQY0ETgHMs77X8
    6
4UyQY0ETgHMs77X8  
   210 天前   1
最近用的挺多 windsurf 配合 3.7 很 ok ,部分问题使用 gpt-o3 解决的,至于 DS 为什么还有人觉得厉害我只能说他们没付款用过。用了 trae 的 r1 给我气的半死。做积分活动修改积分方法,解决原子性问题蹦出个死锁,解决死锁蹦出个嵌套事务,然后三个无限循环来来回回改。最后不再信任上下文记忆让兼顾三个问题解决,好嘛,解决完个问题都出来了,最后用的 o3
4UyQY0ETgHMs77X8
    7
4UyQY0ETgHMs77X8  
   210 天前
@FlorentinoAriza #6 根本没在乎基础业务逻辑,就像面试,光顾着高并发等问题解决最后基础逻辑走不通,仅仅单次调用接口时间 x20 最后来个系统繁忙
daimaosix
    8
daimaosix  
   210 天前
Gemini 这个鸡毛犟种,打死不用
lihanst
    9
lihanst  
   210 天前
Claude 永远的神
cnrting
    10
cnrting  
   210 天前 via iPhone   1
ge-mini 名字不都已经告诉你了么 阉割 mini 模型
masterArcher
    11
masterArcher  
   210 天前   1
第一梯队 Claude 3.7 Sonnet 、o3 mini
Claude 更擅长于使用语法糖 有时候容易出幻觉,o3 mini 更适合常规开发

其次是 git commit 的适合 qwen 总结合适

最后 Gemini 快、2M 输出一骑绝尘,正确率堪忧
ACCI
    12
ACCI  
   210 天前   1
推荐 Claude 3.7 Sonnet
williampan
    13
williampan  
   210 天前
flowith.io 怎么看
pkoukk
    14
pkoukk  
   210 天前
Claude 3.7 Sonnet 速度,准确性,代码质量一骑绝尘
imsoso
    15
imsoso  
   210 天前
grok3 目前推广期,免费版比较舍得出力
xz410236056
    16
xz410236056  
   210 天前   1
编码来说 claude 断崖领先,deepseek 紧随其后,其余差不多。 人文社科领域感觉 grok 更强
blackocean
    17
blackocean  
   210 天前
我只用过 o3 mini ,目前都能满足我的需求。想试下 Claude 3.7 Sonnet 。
jdz
    18
jdz  
   210 天前
我试过几次 Gemini, 就是大废物
sherlockwhite
    19
sherlockwhite  
   210 天前
@xz410236056 同这样感觉,现在模型里面 Coding 领域 Claude 断崖领先,不知道那些用 openai 吭哧吭哧写代码的用没用过 Claude 。grok3 在日常使用(非 coding 领域)非常好用
HappyAndSmile
    20
HappyAndSmile  
   210 天前
基本所有有名的模型都使用过,写代码领域,除了 claude ,其它我都认为是垃圾,总是给我报错的代码,只有 claude 给了我直接替换运行的自信
disorientatefree
    21
disorientatefree  
   210 天前
三家的收费账户, 再加上 Grok 的免费试用

Claude >>> Gemini > ChatGPT > Grok (单说代码相关,Grok 其实挺好的)
maxwel1
    22
maxwel1  
   210 天前
写代码的话,不考虑价格,其他几家在 chatgpt 面前就是智障,如果你没这种体会,就是你用的太少。
lew1
    23
lew1  
   210 天前
注册 Claude 需要国外手机验证码,老哥们有什么好办法吗
huangweipeng
    24
huangweipeng  
   210 天前
@lew1 https://yeka.ai/i/HWP 链接有 aff ,介意的话可去掉后三位,我是用这个虚拟卡作为 Claude 支付的(被封的话钱还会退回卡里),工具箱可免费的 3 个手机号用于验证注册,使用完 3 次后可以付费买手机号 https://imgur.com/a/0gM4M2v
crackidz
    25
crackidz  
   210 天前
这两个里面选的话,GPT 会比 Gemini 好
aiqinxuancai
    26
aiqinxuancai  
   210 天前
写代码的 参考这个排名
https://aider.chat/docs/leaderboards/
akakidz
    27
akakidz  
   210 天前
GPT o3 mini 体验很好
min
    28
min  
   210 天前
sonnet 3.7: 看你们两个菜鸡互啄 lol
cat9life
    29
cat9life  
   210 天前
你居然没提到 Claude
wheat0r
    30
wheat0r  
   210 天前
Gemini 就是哄鬼的
FlashEcho
    31
FlashEcho  
   210 天前
在编程方面,Gemini 2.0 Pro 全面不如 o1 和 claude 3.7 ,你可以看下 livebench 和我自己写了几个测试用例: https://echoccc.online/posts/llm-test/
iflint
    32
iflint  
   210 天前
国内有方法稳定使用 Claude 3.7 吗
unco020511
    33
unco020511  
   210 天前
Claude 3.7 Sonnet
urlpha
    34
urlpha  
   210 天前
@iflint 直接开 cursor 订阅,结合 cursor rule 用的飞起。
drymonfidelia
    35
drymonfidelia  
   210 天前
@imsoso grok3 比较适合问问题,写的代码一般般 bug 挺多
crackidz
    36
crackidz  
   210 天前
@iflint trae ?
zhibisora
    37
zhibisora  
   210 天前
claude 3.7 和 gpt o3-mini 最好, 其次 r1, 然后 gemini 2.0 flash
CHEN1016
    38
CHEN1016  
   209 天前 via iPhone
@lew1 在用 openrouter
383394544
    39
383394544  
   209 天前 via iPhone
@iflint copilot 现在可选 claude 3.7 模型
vitality
    40
vitality  
   209 天前
@cnrting 没有读对,Gemini 的 Ge 并不发 “割”的音
HENQIGUAI
    41
HENQIGUAI  
   209 天前
Claude 3.7 太贵了不怎么舍得用,重度使用 Deepseek V3, 还凑活,不过感觉好像写代码方面比 Claude 3.5 还差点意思。
mmdsun
    42
mmdsun  
   209 天前 via iPhone
编程的话 Github Copilot 正确率最高,模型可以选 GPT-4o 、Claude 3.7
ysy950803
    43
ysy950803  
   209 天前
如果搞 Android 开发要解决代码问题的话,用谷歌的 Gemini 其实还不错(现在 Studio 也自带了),真就是各家擅长什么,其 AI 就擅长什么,知识库的区别。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     924 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 25ms UTC 22:12 PVG 06:12 LAX 15:12 JFK 18:12
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86