国产硬件适配 Deepseek 的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
xfn

国产硬件适配 Deepseek 的问题

  •  
  •   xfn 2025 年 2 月 10 日 3017 次点击
    这是一个创建于 438 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在很多新闻中都能看到一些国内厂商用国产硬件适配运行 Deepseek 的报道(比如 https://finance.sina.com.cn/jjxw/2025-02-08/doc-ineitzkz8952010.shtmlhttps://finance.sina.com.cn/roll/2025-02-05/doc-ineikxsm5384748.shtml ),但不是很理解是如何适配的,看上去这些厂商已经不用 nvidia 的硬件做推理了,如果不基于 cuda ,那是 deepseek 是在哪个层面进行开发的?

    AI 方面比较小白,如果概念描述有错也请指正

    13 条回复    2025-02-17 11:59:00 +08:00
    ma46
        1
    ma46  
       2025 年 2 月 10 日
    模型说到底是算子跟参数的集合, 训练/推理模型本质是一个数学运算过程, 任何能够进行数值计算的硬件设备都能够运行.

    我们一般用 nvidia 的硬件作推理, 是因为其 cuda 具有强大并行计算能力, 针对各类算子有着大量优化, 而且市面上有数的框架对其适配最好. 但你说不用 nvidia/cuda 行不行, 那肯定是能行的
    yinmin
        2
    yinmin  
    &nsp;  2025 年 2 月 10 日 via iPhone
    很多都是蹭热点的,只能跑跑 deepseek 7B 、32B 小模型。全国产硬件能跑 671B FP8 全尺寸,能集群支持数千上万并发的,大概就剩华为了吧。
    yinmin
        3
    yinmin  
       2025 年 2 月 10 日 via iPhone
    deepseek 7B cpu 就能跑,兼容 x86 、arm 的国产硬件安装开源软件就 OK ,所以最近新闻说,某某硬件 2 小时适配支持 deepseek ,就是某个网管花了 2 小时在 linux 下把软件安装好了能跑 7B
    xfn
        4
    xfn  
    OP
       2025 年 2 月 10 日
    @ma46 是不是说模型本身的格式并不依赖 cuda ,cuda 只是运行模型一个选项?这样的话其他非 deepseek 模型理论上也能跑在国产硬件上?
    ma46
        5
    ma46  
       2025 年 2 月 10 日
    @xfn 是的, 任何模型都能跑在国产硬件上, 只要愿意去做适配
    xmdanielwu2016
        6
    xmdanielwu2016  
       2025 年 2 月 10 日
    3.5b 、7b ,14b 的都属于智障级别,就这 4060 都带不动,连 4090 都只能带 80b ,真想本地部署等于网页版的 617b 版本至少得双路 h100+县城撕裂者
    paranoiagu
        7
    paranoiagu  
       2025 年 2 月 10 日 via Android
    @xfn 应该都支持,就速度的问题
    neoblackcap
        8
    neoblackcap  
       2025 年 2 月 10 日
    @xfn 程序是依赖英伟达生态的,很多底层的运算库都是直接调用英伟达的库的。如果要改,得大改。而且性能很有可能不如原来的版本。
    但是理论上只要愿意投人力物力,模型基本上都是可以迁移的。
    YsHaNg
        9
    YsHaNg  
       2025 年 2 月 11 日 via iPhone
    @xfn 模型是权重文件 有 gguf mlx 各种格式 甚至直接 pytorch save 出 pt 文件也可以 支持什么硬件那要看框架加载器 比如 llama.cpp ollama vllm
    LnTrx
        10
    LnTrx  
       2025 年 2 月 11 日
    只要能编译 C++就能跑,类 CUDA 的并行需要适配。例如 llama.cpp 就支持摩尔线程、腾。
    clino
        11
    clino  
       2025 年 2 月 17 日
    实际能用的应该就是华为腾吧?例如硅基流动的就用的是腾的。但是看起来腾的产量很有限还没办法爆兵。
    用着硅基流动的一个是相对较慢,一个测了好像是降智版,估计是量化降智了。不过现在云上提供的 api 都是降智的(提供的 chatbot demo 的没有降智)。

    要等到国产芯片制造进一步突破才能够真正降低成本了。
    xfn
        12
    xfn  
    OP
       2025 年 2 月 17 日
    @clino 我试过硅基流动,要用 pro 开头的模型速度才正常,比如 Pro/deepseek-ai/deepseek-R1 ,但要充值,不是 pro 开头的很慢
    clino
        13
    clino  
       2025 年 2 月 17 日
    @xfn 我试了一下充值以后的 Pro 模型,速度也没有明显快,而且也还是降智的,盲猜是量化 4bit 之类的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     865 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 45ms UTC 20:58 PVG 04:58 LAX 13:58 JFK 16:58
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86