DeepSeek V3 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fang2hou
V2EX    Local LLM

DeepSeek V3

  •  
  •   fang2hou 347 天前 6533 次点击
    这是一个创建于 347 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/deepseek-ai/DeepSeek-V3

    看了下 Code 榜单,性能提升挺明显。

    像 Aider 、Polyglot 这类任务,和日常用自然语言修改的准确率体感是比较接近的。如果不刻意刷榜,感觉至少接近 3.5 Sonnet 的水平了。

    官方 API 价格虽然涨了几倍,但相比 OpenAI 和 Claude 依然是白菜价,输出 10 万 token 就 1 刀出头。

    已经把 avante.nvim 的默认模型从 Sonnet 换到 V3 了,接下来几天打算实际测试下提问和修改的准确率。 之前尝试用 2.5 平替但是准确率和 Sonnet 差的还是挺远的,希望这次效果不会失望。

    22 条回复    2025-01-24 17:30:46 +08:00
    mumbler
        1
    mumbler  
       347 天前
    性价比最高的还是 gemini 2.0 flash,免费 1500qpd, 100 万上下文,多模态,能力和 gpt4o 一个级别, 收费也才 1 元人民币/M
    hbdh5
        2
    hbdh5  
       347 天前   3
    没人关注训练部分吗?看看原始论文,推理部分的优化似乎来自蒸馏自家的推理模型,auxilary loss 动态调度负载 + DualPipe 优化 pipeline bubbles + 根据通信做混合精度优化, 计算与通信的瓶颈的优化做到极致了。以至于训练成本只有 500 多万刀,和 o 家和 g 家比算是用乞丐的成本达成了至少也是不相上下的结果。要我说,closedai 不做人干脆把 gpu 匀给 deepseek ,可惜匀不得。
    dwu8555
        3
    dwu8555  
       346 天前
    deepseek 还是国人的项目?

    AlohaV2
        4
    AlohaV2  
       346 天前
    @dwu8555 是的。猜猜他家资金咋来的
    apollo007
        5
    apollo007  
       346 天前 via iPhone
    我觉得这个处理文科类的,效果比 claude 3.0 opus 还牛
    sutking
        6
    sutking  
       346 天前 via iPhone
    @AlohaV2 #4 咋来的?感觉好神秘。
    bk201
        7
    bk201  
       346 天前
    @sutking
    @AlohaV2 收割 a 股股民是吧
    suguo210
        8
    suguo210  
       346 天前
    幻方用来收割韭菜的利器
    AlexHsu
        9
    AlexHsu  
       346 天前
    这玩意有 671b 参数?本地弄起来得多少 h100 啊
    FakerLeung
        10
    FakerLeung  
       346 天前
    写代码跟 claude3.5 比起来如何?
    andrew2558
        11
    andrew2558  
       346 天前
    看了很多人推荐 deepseek,所以也想试一下,好家伙,要电话号码不说,还要身份证号码。闪了闪了
    fang2hou
        12
    fang2hou  
    OP
       346 天前
    @FakerLeung

    榜单上的话不说同水平,至少逼近是有的。
    但这个实际效果还得自己去体感测试下,反正现在用 API 还是打折的,一百万 token 才两块钱,放到 cursor ,avante 里面高强度用个一周先看看效果。
    也可以试试网页版的 V3 ,注册后是纯免费的。
    dgthyiolyjmyt2
        13
    dgthyiolyjmyt2  
       346 天前
    @dwu8555 幻方的,还是 fp8 训练的,训练过程全程无回滚
    fang2hou
        14
    fang2hou  
    OP
       346 天前
    @andrew2558 不需要吧,用英语界面试试,海外也挺多用 deepseek 的
    wyhooo
        15
    wyhooo  
       346 天前
    @dwu8555 你的对手盘就是这玩意。
    neteroster
        16
    neteroster  
       346 天前 via Android
    先不谈性能,工程上就很强。整个模型训练的 H800 GPU Hour 甚至低于训练两次 LLaMA3 8B 的 H100 GPU Hour ,这还是在 H800 阉割了互联的情况下
    hbdh5
        17
    hbdh5  
       346 天前   1
    @neteroster 是的,论文主要的亮点就是训练部分,不得不说还得是 MoE ,要是 dense 模型参数太大的话一张卡放不下数据交换的妈都不认识,根本没地应用这么多优化。只能送钱给老黄。
    xiaket
        18
    xiaket  
       345 天前
    英文版只要求邮箱验证, 而且可以用微信支付来避免付美元的手续费
    xiaket
        19
    xiaket  
       345 天前
    我自己试用了一下, 让模型回答旅行制定行程和关于 AWS/GCP 的技术问题, 两个场景的结论都合乎我的要求. 于是充值了 50 块, 准备用用看
    ziding
        20
    ziding  
       341 天前
    我自己的使用经验是性价比爆棚,效果比 qwen2.5 要强,已经满足我的需求了
    huanggua
        21
    huanggua  
       318 天前
    能介绍下怎么配置 avante deepseek 嘛,用 lazy.nvim , lua
    fang2hou
        22
    fang2hou  
    OP
       318 天前 via iPhone
    @huanggua 看这个,我已经给出了我的配置

    t/1101942
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     942 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 22:12 PVG 06:12 LAX 14:12 JFK 17:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86