我自己的电脑是 5070Ti，总感觉跑一些模型算力不够

算力

大模型

显卡

41 replies 2026-04-29 18:01:18 +08:00

1

wander555

7h 43m ago

h100 呗，dpsk 官方的推荐配置都是这个

2

babymonster

OP

7h 39m ago

@wander555 哥这个太贵了吧玩不起啊

3

mqnu00

7h 38m ago

是算力问题吗？我感觉显存不够用。

4

foolishcrab

7h 36m ago

可以租算力玩啊，买卡肯定是不经济的，你又不能 7*24 用它的算力

5

babymonster

OP

7h 36m ago

@mqnu00 是的好像只有 16G

6

babymonster

OP

7h 35m ago

@foolishcrab 好像也是有没有推荐租用的平台

7

miludeerKay

7h 35m ago via Android

本地的统一当玩具

8

bugmaker233

7h 33m ago

....跑个 27b 不错了

9

vinsony

7h 32m ago

5070Ti 就玩 Qwen3.6-35B-A3B

10

babymonster

OP

7h 31m ago

@miludeerKay 哈哈哈哈哈

11

andforce

7h 29m ago

兄弟，不是算力不够，是你的钱不够

12

yidinghe

7h 27m ago

不要谈感觉,直接去看系统资源使用,CPU 如何,GPU 如何,内存如何,显存如何,磁盘 IO 如何,这些细节分享出来才是有效的。

13

junwind

7h 27m ago

你这是游戏显卡，买 H800

14

asdjgfr

7h 22m ago

我是 u7 265k+5060ti(16g)，只能跑玩具模型，消费 pc 根本玩不了本地部署，老实租算力吧

15

cwcc

7h 18m ago

不是算力的问题，是显存太紧张了，只能跑个 7b 左右的才能达到每秒 70-100tok 的速度，跑更大模型受限的情况瓶颈基本全在 PCIe 带宽和显存上。

真要横向比较的话，我自己的 36G 的 MacBook Pro 能跑 qwen3.6035b-a3b 模型，每秒能到 30token ，但长上下文直接把内存撑爆死机；相比我的 5060Ti 只能直接跑小模型，或者 CPU 混合计算下利用 64G 的 RAM 能以很慢的速度跑很大的模型也不会爆内存死机。总之各有各的瓶颈，你得知道自己的硬件瓶颈在哪里。

16

babymonster

OP

7h 14m ago

@andforce 确实钱太少了哈哈哈

17

babymonster

OP

7h 14m ago

@junwind 兄弟钱不够啊哈哈哈

18

babymonster

OP

7h 14m ago

@cwcc 研究研究昨天玩了一晚上回去接着玩

19

onedge

7h 12m ago

目前顶流满血可用状态（ 100tps 左右）你的资金要 200w 人民币以上，更小的模型你就往回减，32GB 显存你就搞个几十 B 的模型最多了，而且速度还不会太快

20

zturns

7h 9m ago

租 GPU 可以试试这个平台：aHR0cHM6Ly9zaG9ydHVybC5hdC85MHoyTw==

21

q1169989139

7h 2m ago

别难为 5070ti 了哈哈，买完整的 5090 无后缀吧，5070ti 规格太差了。5070ti 只有完整的 gb203 的三分之一多一点的 cuda ，放以前叫 5060se 差不多。

22

babymonster

OP

6h 40m ago

@q1169989139 阉割这么多

23

zushi000

5h 47m ago

5090 都不够还是要 6000pro

24

PeterTanJJ

5h 25m ago

至少要 24G ，本地折腾显卡的话。

25

FireKey

5h 12m ago

换魔改 4090 呗

26

mgrddsj

5h 5m ago

@babymonster #6 租算力的话，国内用 AutoDL 比较多（国内网络环境，需要配置一下用镜像之类的来下载模型），国外的话就 vast.ai ，都不是特别贵。

27

drafter

5h 0m ago

部署什么模型多少速度啊？我本地也想部署个 27B 的

28

limon

4h 47m ago via Android

放弃本地吧

29

MoonShot

4h 46m ago

本地模型，就算显存够的情况下，总感觉启动有点慢

30

ntdll

4h 46m ago

你买得起的任何卡，都会让你产生“算力不够”的感觉，除非你能看得上一些弱智模型。

31

tootfsg

4h 40m ago via Android

我也是 5070ti ，gemna4 26b a4b iq4xs ，速度 150t/s ，上下文开的 64k ，我觉得这个显卡算力一点也不差，差的只是显存。iq4xs 量化倒是还行，但这个量化我不太敢实践用

32

tootfsg

4h 39m ago via Android

输出慢是因为你用内存跑了，那能快吗.......

33

penisulaS

4h 37m ago

一般来说,如果你的显存充足了,对应的算力又溢出了,所以最好还是购买线上模型

34

tootfsg

4h 34m ago via Android

我感觉个人部署开源模型，唯一高性价比方案就是等 m5 macmini/studuo 出来，3w 左右的配置买一台。

除非是训练模型，那只能用 nv 。

35

laminux29

4h 32m ago

在工作场景，除非是保密性极强的场景，否则自己搭建设备是下下之策。因为你自己搭建设备，个人出资，别说 GPT 和 Gemini 的水平，你甚至连豆包的硬件水准都达不到，输出速度肯定慢，智商必然很低，联网、记忆、工作流等常见功能还要自己去折腾。

保密性极强的场景，一般是找运营商或厂家定制设备，我了解到的一些公司，直接购买运营商定制的商用一体机，只是硬件的价格就是 150 万元起步的水准。这种硬件，以 32B + 16 并发的性能水准提供给普通用户做对话，或者以 70B + 3 并发的水准提供给领导做驾驶舱或报表，速度与智能都比豆包低很多，但因为保密是刚需，这已经是他们的最优方案了。

当然还有 2 类场景是适合自己搭设备，第一类是游戏高级玩家买顶配显卡，顺便偶尔拿来玩玩各种小模型；还有一类是喜欢搞各种限制级的内容输出，没办法用有法律限制的商用 API 。

36

levn

4h 30m ago

35B ，把专家卸载到内存，速度已经够快了
27B ，就需要 32G 显存

37

luny

4h 15m ago

性价比最高的应该是 AMD AI Max+395 迷你主机，2 万左右，标配 128G LPDDR5X 8000MT/s ，整机算例 126T 好像能跑 70B 的模型

38

babymonster

OP

4h 5m ago

@zushi000 太贵啦

39

babymonster

OP

4h 5m ago

@limon 租用吧

40

babymonster

OP

3h 59m ago

@laminux29 大佬说的太专业了

41

babymonster

OP

3h 17m ago

@tootfsg 可能是用的内存