V2EX GPLer
 GPLer 最近的时间轴更新
GPLer

GPLer

V2EX 第 353984 号会员,加入于 2018-10-05 16:11:10 +08:00
今日活跃度排名 5896
GPLer 最近回复了
开 1m 上下文,提示词要求任务完成之前不要暂停,额度到了不触发压缩已有任务会继续跑。
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@GPLer 另外因为目前看下来还是稠密模型能力强,所以一般不推荐 AI Max+ 395 128GB 和 DGX Spark 128GB ,跑 27B 模型速度太慢没法用,苹果只是单纯力大砖飞+高性价比所以才写上去了。
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@akadanjuan101 可以的
gemma4 31b 没有官方量化,我还在找合适的使用方式
qwopus 我最近在试,这个因为是非官方的我没写,确实忘了
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@Enivel FTS 一开始没反应过来,查了下这不就是双路召回的其中一路吗,都 2026 年了,早就标配了。
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@akadanjuan101 所以你 40g 显存目前用啥模型啊
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@akadanjuan101 但是这种现在没有全新的了,容易买到矿,本身也是魔改卡,质保也是个问题,所以我说了有丐的方案但是不推荐
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@Lykos 我自己有一张 3090 24g ,35b 和 27b Q4 用 Ollama 勉强能跑,但是上下文开不高,还是推荐 5090 32g 或 4090 48g ,另外 mac m5 max 64g 版本也是不错的选择,算下来整机成本大概 3w ~ 4w 左右,再往上家用就太贵了。

本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ,但是 qwen 官方量化的 q4 有问题,权重和 fp8 一样大,只能等 qwen3.6 27b 再看看了。

目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型,48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文,非代码类任务用用还行。

---

另外如果不要求长上下文的话,27b 模型 16g + gguf 极限量化应该也能跑,35b 模型内存+显存混合使用应该也能跑,不过我没试过,所以不做推荐

---

丐的方案也有,比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ,但是这些方案要么太老要么功耗太高又没质保,并且我没试过,所以就不推荐了。
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@GPLer 另外 目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ,如果要测试最好在这三个里选,测试下来稠密模型效果比激活参数小的 MoE 模型好很多。
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@archxm 3b 模型只能日常对话,基本上没有实用价值,数据量和模型大小没有直接关系,跟上下文长度以及长文本能力有关,3b 也许长文本能力还行,但是模型能力不行也没用。
27b 风评还是不错的,如果效果一般可能是 RAG 配置问题,可以先不用 RAG ,试试都放到一个文件夹里,然后用 opencode 等 agent 平台配置模型,然后将目录所在位置告诉它,测试这种情况下的问答效果,速度会慢很多,但是大模型自己探索后应该能答对,如果这样子可以,后面可以让模型写个 skills ,将检索的技巧做成技能。
3 天前
回复了 archxm 创建的主题 程序员 RAG 难以让人满意啊
@archxm 新出的 qwen3.6-35b 再试试?
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3510 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 28ms UTC 12:36 PVG 20:36 LAX 05:36 JFK 08:36
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86