国产硬件适配 Deepseek 的问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 438 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在很多新闻中都能看到一些国内厂商用国产硬件适配运行 Deepseek 的报道（比如 https://finance.sina.com.cn/jjxw/2025-02-08/doc-ineitzkz8952010.shtml ，https://finance.sina.com.cn/roll/2025-02-05/doc-ineikxsm5384748.shtml ），但不是很理解是如何适配的，看上去这些厂商已经不用 nvidia 的硬件做推理了，如果不基于 cuda ，那是 deepseek 是在哪个层面进行开发的？

AI 方面比较小白，如果概念描述有错也请指正

国产硬件

适配

DeepSeek

13 条回复 2025-02-17 11:59:00 +08:00

ma46

2025 年 2 月 10 日

模型说到底是算子跟参数的集合, 训练/推理模型本质是一个数学运算过程, 任何能够进行数值计算的硬件设备都能够运行.

我们一般用 nvidia 的硬件作推理, 是因为其 cuda 具有强大并行计算能力, 针对各类算子有着大量优化, 而且市面上有数的框架对其适配最好. 但你说不用 nvidia/cuda 行不行, 那肯定是能行的

yinmin

&nsp; 2025 年 2 月 10 日 via iPhone

很多都是蹭热点的，只能跑跑 deepseek 7B 、32B 小模型。全国产硬件能跑 671B FP8 全尺寸，能集群支持数千上万并发的，大概就剩华为了吧。

yinmin

2025 年 2 月 10 日 via iPhone

deepseek 7B cpu 就能跑，兼容 x86 、arm 的国产硬件安装开源软件就 OK ，所以最近新闻说，某某硬件 2 小时适配支持 deepseek ，就是某个网管花了 2 小时在 linux 下把软件安装好了能跑 7B

xfn

2025 年 2 月 10 日

@ma46 是不是说模型本身的格式并不依赖 cuda ，cuda 只是运行模型一个选项？这样的话其他非 deepseek 模型理论上也能跑在国产硬件上？

ma46

2025 年 2 月 10 日

@xfn 是的, 任何模型都能跑在国产硬件上, 只要愿意去做适配

xmdanielwu2016

2025 年 2 月 10 日

3.5b 、7b ，14b 的都属于智障级别，就这 4060 都带不动，连 4090 都只能带 80b ，真想本地部署等于网页版的 617b 版本至少得双路 h100+县城撕裂者

paranoiagu

2025 年 2 月 10 日 via Android

@xfn 应该都支持，就速度的问题

neoblackcap

2025 年 2 月 10 日

@xfn 程序是依赖英伟达生态的，很多底层的运算库都是直接调用英伟达的库的。如果要改，得大改。而且性能很有可能不如原来的版本。
但是理论上只要愿意投人力物力，模型基本上都是可以迁移的。

YsHaNg

2025 年 2 月 11 日 via iPhone

@xfn 模型是权重文件有 gguf mlx 各种格式甚至直接 pytorch save 出 pt 文件也可以支持什么硬件那要看框架加载器比如 llama.cpp ollama vllm

LnTrx

2025 年 2 月 11 日

只要能编译 C++就能跑，类 CUDA 的并行需要适配。例如 llama.cpp 就支持摩尔线程、腾。

clino

2025 年 2 月 17 日

实际能用的应该就是华为腾吧？例如硅基流动的就用的是腾的。但是看起来腾的产量很有限还没办法爆兵。
用着硅基流动的一个是相对较慢，一个测了好像是降智版，估计是量化降智了。不过现在云上提供的 api 都是降智的（提供的 chatbot demo 的没有降智）。

要等到国产芯片制造进一步突破才能够真正降低成本了。

xfn

2025 年 2 月 17 日

@clino 我试过硅基流动，要用 pro 开头的模型速度才正常，比如 Pro/deepseek-ai/deepseek-R1 ，但要充值，不是 pro 开头的很慢

clino

2025 年 2 月 17 日

@xfn 我试了一下充值以后的 Pro 模型，速度也没有明显快，而且也还是降智的，盲猜是量化 4bit 之类的