我自己的电脑是 5070Ti,总感觉跑一些模型算力不够 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
babymonster

我自己的电脑是 5070Ti,总感觉跑一些模型算力不够

  •  
  •   babymonster 7h 45m ago 2552 views

    各位大佬们,我自己电脑配置也挺高 9800x3d+5070ti,但是自己玩大模型感觉算力不够,输出速度好慢,有没有大佬推荐一下什么显卡玩大模型算力舱还比较不错的

    41 replies    2026-04-29 18:01:18 +08:00
    wander555
        1
    wander555  
       7h 43m ago
    h100 呗,dpsk 官方的推荐配置都是这个
    babymonster
        2
    babymonster  
    OP
       7h 39m ago
    @wander555 哥这个太贵了吧 玩不起啊
    mqnu00
        3
    mqnu00  
       7h 38m ago
    是算力问题吗?我感觉显存不够用。
    foolishcrab
        4
    foolishcrab  
       7h 36m ago
    可以租算力玩啊,买卡肯定是不经济的,你又不能 7*24 用它的算力
    babymonster
        5
    babymonster  
    OP
       7h 36m ago
    @mqnu00 是的 好像只有 16G
    babymonster
        6
    babymonster  
    OP
       7h 35m ago
    @foolishcrab 好像也是 有没有推荐租用的平台
    miludeerKay
        7
    miludeerKay  
       7h 35m ago via Android
    本地的统一当玩具
    bugmaker233
        8
    bugmaker233  
       7h 33m ago
    ....跑个 27b 不错了
    vinsony
        9
    vinsony  
       7h 32m ago
    5070Ti 就玩 Qwen3.6-35B-A3B
    babymonster
        10
    babymonster  
    OP
       7h 31m ago
    @miludeerKay 哈哈哈哈哈
    andforce
        11
    andforce  
       7h 29m ago
    兄弟,不是算力不够,是你的钱不够
    yidinghe
        12
    yidinghe  
       7h 27m ago
    不要谈感觉,直接去看系统资源使用,CPU 如何,GPU 如何,内存如何,显存如何,磁盘 IO 如何,这些细节分享出来才是有效的。
    junwind
        13
    junwind  
       7h 27m ago
    你这是游戏显卡,买 H800
    asdjgfr
        14
    asdjgfr  
       7h 22m ago
    我是 u7 265k+5060ti(16g),只能跑玩具模型,消费 pc 根本玩不了本地部署,老实租算力吧
    cwcc
        15
    cwcc  
       7h 18m ago
    不是算力的问题,是显存太紧张了,只能跑个 7b 左右的才能达到每秒 70-100tok 的速度,跑更大模型受限的情况瓶颈基本全在 PCIe 带宽和显存上。

    真要横向比较的话,我自己的 36G 的 MacBook Pro 能跑 qwen3.6035b-a3b 模型,每秒能到 30token ,但长上下文直接把内存撑爆死机;相比我的 5060Ti 只能直接跑小模型,或者 CPU 混合计算下利用 64G 的 RAM 能以很慢的速度跑很大的模型也不会爆内存死机。总之各有各的瓶颈,你得知道自己的硬件瓶颈在哪里。
    babymonster
        16
    babymonster  
    OP
       7h 14m ago
    @andforce 确实 钱太少了哈哈哈
    babymonster
        17
    babymonster  
    OP
       7h 14m ago
    @junwind 兄弟 钱不够啊哈哈哈
    babymonster
        18
    babymonster  
    OP
       7h 14m ago
    @cwcc 研究研究 昨天玩了一晚上 回去接着玩
    onedge
        19
    onedge  
       7h 12m ago
    目前顶流满血可用状态( 100tps 左右)你的资金要 200w 人民币以上,更小的模型你就往回减,32GB 显存你就搞个几十 B 的模型最多了,而且速度还不会太快
    zturns
        20
    zturns  
       7h 9m ago
    租 GPU 可以试试这个平台:aHR0cHM6Ly9zaG9ydHVybC5hdC85MHoyTw==
    q1169989139
        21
    q1169989139  
       7h 2m ago
    别难为 5070ti 了哈哈,买完整的 5090 无后缀吧,5070ti 规格太差了。5070ti 只有完整的 gb203 的三分之一多一点的 cuda ,放以前叫 5060se 差不多。
    babymonster
        22
    babymonster  
    OP
       6h 40m ago
    @q1169989139 阉割这么多
    zushi000
        23
    zushi000  
       5h 47m ago
    5090 都不够 还是要 6000pro
    PeterTanJJ
        24
    PeterTanJJ  
       5h 25m ago
    至少要 24G ,本地折腾显卡的话。
    FireKey
        25
    FireKey  
       5h 12m ago
    换魔改 4090 呗
    mgrddsj
        26
    mgrddsj  
       5h 5m ago
    @babymonster #6 租算力的话,国内用 AutoDL 比较多(国内网络环境,需要配置一下用镜像之类的来下载模型),国外的话就 vast.ai ,都不是特别贵。
    drafter
        27
    drafter  
       5h 0m ago
    部署什么模型 多少速度啊?我本地也想部署个 27B 的
    limon
        28
    limon  
       4h 47m ago via Android
    放弃本地吧
    MoonShot
        29
    MoonShot  
       4h 46m ago
    本地模型,就算显存够的情况下,总感觉启动有点慢
    ntdll
        30
    ntdll  
       4h 46m ago
    你买得起的任何卡,都会让你产生“算力不够”的感觉,除非你能看得上一些弱智模型。
    tootfsg
        31
    tootfsg  
       4h 40m ago via Android
    我也是 5070ti ,gemna4 26b a4b iq4xs ,速度 150t/s ,上下文开的 64k ,我觉得这个显卡算力一点也不差,差的只是显存。iq4xs 量化倒是还行,但这个量化我不太敢实践用
    tootfsg
        32
    tootfsg  
       4h 39m ago via Android
    输出慢是因为你用内存跑了,那能快吗.......
    penisulaS
        33
    penisulaS  
       4h 37m ago
    一般来说,如果你的显存充足了,对应的算力又溢出了,所以最好还是购买线上模型
    tootfsg
        34
    tootfsg  
       4h 34m ago via Android
    我感觉个人部署开源模型,唯一高性价比方案就是等 m5 macmini/studuo 出来,3w 左右的配置买一台。

    除非是训练模型,那只能用 nv 。
    laminux29
        35
    laminux29  
       4h 32m ago
    在工作场景,除非是保密性极强的场景,否则自己搭建设备是下下之策。因为你自己搭建设备,个人出资,别说 GPT 和 Gemini 的水平,你甚至连豆包的硬件水准都达不到,输出速度肯定慢,智商必然很低,联网、记忆、工作流等常见功能还要自己去折腾。

    保密性极强的场景,一般是找运营商或厂家定制设备,我了解到的一些公司,直接购买运营商定制的商用一体机,只是硬件的价格就是 150 万元起步的水准。这种硬件,以 32B + 16 并发的性能水准提供给普通用户做对话,或者以 70B + 3 并发的水准提供给领导做驾驶舱或报表,速度与智能都比豆包低很多,但因为保密是刚需,这已经是他们的最优方案了。

    当然还有 2 类场景是适合自己搭设备,第一类是游戏高级玩家买顶配显卡,顺便偶尔拿来玩玩各种小模型;还有一类是喜欢搞各种限制级的内容输出,没办法用有法律限制的商用 API 。
    levn
        36
    levn  
       4h 30m ago
    35B ,把专家卸载到内存,速度已经够快了
    27B ,就需要 32G 显存
    luny
        37
    luny  
       4h 15m ago
    性价比最高的应该是 AMD AI Max+395 迷你主机,2 万左右,标配 128G LPDDR5X 8000MT/s ,整机算例 126T 好像能跑 70B 的模型
    babymonster
        38
    babymonster  
    OP
       4h 5m ago
    @zushi000 太贵啦
    babymonster
        39
    babymonster  
    OP
       4h 5m ago
    @limon 租用吧
    babymonster
        40
    babymonster  
    OP
       3h 59m ago
    @laminux29 大佬说的太专业了
    babymonster
        41
    babymonster  
    OP
       3h 17m ago
    @tootfsg 可能是用的内存
    About     Help     Advertise     Blog     API     FAQ     Solana     3231 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 100ms UTC 13:18 PVG 21:18 LAX 06:18 JFK 09:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86