V2EX wenyifancc
 wenyifancc 最近的时间轴更新
wenyifancc

wenyifancc

V2EX 第 334846 号会员,加入于 2018-07-24 10:03:59 +08:00
今日活跃度排名 7561
wenyifancc 最近回复了
3 天前
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
@mooyo 100 token/s 已经不错了,硅基的 API 服务也没这么快,某些模型甚至就 30 token/s;刚才折腾本地部署 GLM-4.6-355b-a32b,速度 5 token/s 图一乐,哈哈
4 天前
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
@mooyo 试试 vulkan 的后端,另外我使用核显(intel 的核显)速度明显是不如直接用 cpu 跑的,内存速度也有影响,我的内存频率是 6400M,双通道,192GB;
附上其他模型的性能供参考:(5090 显卡,显存够的情况下全部放显存;不够的情况下,加载模型时 moe 层卸载到 cpu,仅共享层和 kv 缓存放显存;通常显存使用 16g 以内)
以下模型精度都是 UD_Q4_X_KL:

qwen3-235b-a22b-2507-instruct: 7 token/s
qwen3-vl-235b-a22b-2507-instruct: 6 token/s
qwen3-vl-30b-a3b-instruct: 180 token/s
qwen3-vl-32b-instruct: 55 token/s
qwen3-vl-8b-instruct: 120 token/s

glm-4.5-air: 15 token/s
gpt-oss-120b: 30 token/s
gpt-oss-20b: 240 token/s
4 天前
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
@mooyo 这速度不对啊,我在 Intel Ultra 265k 使用纯 cpu 运行 Qwen3-30b-a3b-2507_UD_Q4_K_XL 在 32k 上下文长度下也能跑 32token/s,使用 5090 可以跑 300token/s
llama.cpp vulkan 后端
56 天前
回复了 elboble 创建的主题 Linux 阿里轻量云做转发,一半情况失败,
新增域名备案就行了,初审通过就给你放通了
syncthing
期待支持配置 turn 服务来兼容跨网转发的场景
@funky 另外,turn 的 Url 地址使用 127.0.0.1 是有问题的,这个应该是站在客户端的角度,客户端获取了这个配置然后连接 turn 服务器,设置 127.0.0.1 会导致客户端无法连接 turn 服务器,应该设置公网暴露的地址
@funky
"urls": "turn:127.0.0.1:3478?transport=udp" 改为 "urls": "turn:127.0.0.1:3478?transport=tcp"
turn 使用 tcp 协议传输即可缓解这个问题
在 turn 的 URI 末尾增加?transport=tcp
例如:
turn:stun.xxxx.com:3478?transport=tcp

原因是国内网络对 UDP 有 QOS
值必须大于或等于 18:不满 18 就不配 lu? -_-;
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2296 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 15ms UTC 16:02 PVG 00:02 LAX 08:02 JFK 11:02
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86