Local LLM way to explore https:https://cdn.v2ex.com/navatar/c8ed/21db/722_normal.png?m=1751736797 https:https://cdn.v2ex.com/navatar/c8ed/21db/722_large.png?m=1751736797 2026-02-12T08:28:39Z Copyright © 2010-2018, V2EX microgpt.py tag:www.v2ex.com,2026-02-12:/t/1192500 2026-02-12T08:28:39Z 2026-02-12T08:28:39Z Livid member/Livid https://gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95


一个不需要任何依赖,纯 Python 实现的 GPT 算法。 ]]> 30B 尺寸哪个小模型编码能力会好一些 tag:www.v2ex.com,2026-01-29:/t/1189206 2026-01-29T02:38:06Z 2026-02-01T07:33:13Z summerLast member/summerLast 很久没本地跑小模型了,之前用的 QWen3-30B-A3B 2507 效果最佳,现在想咨询下哪个模型效果会更好些

]]>
ClawdBot 保姆级安装指南:从零搭建你的 24/7 私人 AI 助手 tag:www.v2ex.com,2026-01-27:/t/1188807 2026-01-27T09:32:11Z 2026-01-27T13:57:19Z JustW member/JustW image-20260127163313212

今天刷 Twitter 的时候,发现时间线被一个叫 ClawdBot 的东西刷屏了。

点进去一看,是个开源的 AI 助手框架。能干的事情挺多:通过 Telegram/WhatsApp 远程控制电脑、自动处理邮件、定时跑任务、甚至能帮你和 4S 店砍价(有个老外说靠它省了 4200 美元,虽然我觉得有点玄学)。

手上正好有台吃灰的 VPS ,干嘛不试试?

结果这一试,踩了一晚上的坑。官方文档写得比较散,很多细节要自己摸索。顺手把过程记下来,给想折腾的朋友省点时间。

image-20260127155609156


ClawdBot 是什么

简单说,ClawdBot 是一个本地运行的 AI 助手网关

它的核心是一个 Gateway 进程,负责:

你可以把它理解成一个7x24 小时在线的 AI 员工。它有记忆(知道你之前聊过什么),有手脚(能操作你的电脑),还会主动干活(定时任务、邮件监控)。

根据 Mashable 的报道,这东西火到 Mac mini 都卖断货了——很多人专门买一台小主机放家里,就为了跑这个。

不过我觉得没必要这么激进。一台便宜的云服务器就够了,一个月几十块钱,玩坏了也不心疼。


它能干什么

搭完之后我自己用了一下,体验确实不错:

网上还有人玩得更花:

邮件自动化:每 15 分钟检查一次收件箱,垃圾邮件自动归档,重要邮件立刻推送摘要到手机,还能用你的口吻起草回复。

笔记整理:连接 Obsidian ,自动更新每日笔记,从会议记录里提取待办事项,生成每周回顾。

睡觉时写代码:睡前把一个 Bug 丢给它,它会持续调试、提交、测试,早上起来 PR 就准备好了。

智能家居控制:有人在沙发上看电视,用手机让它帮忙调灯光、查天气、设闹钟。

当然,这些高级玩法需要配置额外的 Skills 和集成。本文先讲基础安装,能聊天、能执行命令就算成功。

image-20260127155715044

image-20260127155723447

image-20260127155745564


准备工作

你需要:

项目 说明
一台服务器 云服务器(我用的 Ubuntu 24.04 )、Mac mini 、旧电脑、树莓派都行,最好是国外的,不然网络环境都有的折腾了!
Telegram 账号 用来创建 Bot
Claude/GPT API 官方的或者中转站都行,后面会细说

关于设备选择

云服务器(推荐新手)

优点:便宜(最低几十块/月)、玩坏了不心疼、7x24 在线 缺点:需要一点 Linux 基础

Mac mini

优点:性能好、功耗低、能跑 macOS 专属功能( iMessage 等) 缺点:贵( 4000+ 起步)、权限太高有安全风险

我的建议

新手先用 VPS 试水。等熟悉了再考虑要不要买专门的设备。如果真要用 Mac mini ,别用日常工作的那台——万一配置出问题,或者 Key 泄露了,后果可能很严重。


安装方式

ClawdBot 支持多种安装方式,我按推荐程度排序:

方式一:一键安装脚本(推荐)

官方提供的快速安装命令,会自动处理依赖和权限问题:

# Linux / macOS curl -fsSL https://get.clawd.bot | bash # 安装完成后运行引导向导 clawdbot onboard --install-daemon 

这个脚本会自动检测系统、安装 Node.js 22+、处理 npm 权限、全局安装 clawdbot 。

方式二:手动 npm 安装

如果你已经有 Node.js 22+:

npm install -g clawdbot@latest 

详细安装步骤

下面用手动方式演示。虽然一键脚本更方便,但手动装能让你更清楚每一步在干嘛,出问题也好排查。

第一步:安装 Node.js 22+

ClawdBot 要求 Node.js 22 以上。Ubuntu 自带的版本太老,得手动装。

# 添加 NodeSource 仓库 curl -fsSL https://deb.nodesource.com/setup_22.x | bash - # 安装 apt-get install -y nodejs # 验证 node -v # 输出 v22.x.x 就对了 

image-20260127160000295

踩坑 1:别直接 apt install nodejs,那样装的是老版本(通常 v12 或 v18 ),后面会报各种兼容性错误。

第二步:安装 ClawdBot

npm install -g clawdbot@latest 

装完验证:

clawdbot --version 

image-20260127160041920

踩坑 2:如果报 EACCES 权限错误,说明 npm 全局目录权限有问题。解决方法:

mkdir -p ~/.npm-global npm config set prefix '~/.npm-global' echo 'export PATH=~/.npm-global/bin:$PATH' >> ~/.bashrc source ~/.bashrc 

第三步:创建 Telegram Bot

打开 Telegram ,搜索 @BotFather,发送 /newbot。这里好像必须新建!

按提示设置:

  1. 给 Bot 起个名字(显示名称)
  2. 设置用户名(必须以 bot 结尾,比如 my_clawd_bot

最后会给你一串 Token:

1234567890:ABCdefGHIjklMNOpqrSTUvwxYZ1234567890 

存好这个 Token,后面要用。

image-20260127160128795

第四步:准备 API

这一步最容易踩坑。

用官方 API

  1. console.anthropic.com 注册
  2. 创建 API Key (以 sk-ant- 开头)
  3. 充值一点余额

用中转站 API

如果用中转站,注意三点:

踩坑 3:这里我是直接用的 CLI Proxy API 这个开源项目中转的 API,选的 gemini-3-flash 模型,感觉非常舒畅!

第五步:写配置文件

创建配置目录:

mkdir -p ~/.clawdbot nano ~/.clawdbot/clawdbot.json 

根据你的 API 类型选配置模板:

模板 A:Anthropic 官方 API

{ "gateway": { "mode": "local", "bind": "loopback", "port": 18789 }, "env": { "ANTHROPIC_API_KEY": "sk-ant-你的密钥" }, "agents": { "defaults": { "model": { "primary": "anthropic/claude-sonnet-4-5-20261022" } } }, "channels": { "telegram": { "enabled": true, "botToken": "你的 Bot Token", "dmPolicy": "pairing" } } } 

模板 B:OpenAI 兼容的中转站

{ "gateway": { "mode": "local", "bind": "loopback", "port": 18789 }, "agents": { "defaults": { "model": { "primary": "gemini/gemini-3-flash" }, "elevatedDefault": "full" , "workspace": "/wangwang", "compaction": { "mode": "safeguard" }, "maxConcurrent": 4, "subagents": { "maxConcurrent": 8 } } }, "models": { "mode": "merge", "providers": { "gemini": { "baseUrl": "https://你的中转站 API/v1", "apiKey": "test", "api": "openai-completions", "models": [ { "id": "gemini-3-flash", "name": "gemini-3-flash" } ] } } }, "channels": { "telegram": { "botToken": "你的 TG Token" } }, "plugins": { "entries": { "telegram": { "enabled": true } } } } 

踩坑 4api 字段必须填 openai-completions。我一开始填的 openai-chat,死活启动不了。

踩坑 5models 数组不能省,不然报错说缺少必填项。注意 agents 中也有配置模型名,别忘了改!

第六步:启动测试

clawdbot gateway --verbose 

看到这两行就成功了:

[gateway] listening on ws://127.0.0.1:18789 [telegram] [default] starting provider (@你的 Bot 名字) 

image-20260127160536261

第七步:配对

第一次给 Bot 发消息,它会回复配对码:

Pairing code: X9MKTQ2P Your Telegram user id: 123456789 

在服务器上执行:

clawdbot pairing approve telegram X9MKTQ2P 

配对完成后,只有你的账号能和 Bot 对话,别人发消息它不会理。

记下你的 Telegram User ID,后面设置权限白名单要用。

后续有啥需求就直接 tg 对话,让 AI 自行配置就行了!比如我让它帮我集成了 exa 的搜索功能!

image-20260127160903264


设置开机自启

nohup 跑的话,SSH 一断就挂了。上 systemd:

cat > /etc/systemd/system/clawdbot.service << 'EOF' [Unit] Description=ClawdBot Gateway After=network.target [Service] Type=simple User=root ExecStart=/usr/bin/clawdbot gateway --verbose Restart=always RestartSec=5 EnvirOnment=HOME=/root [Install] WantedBy=multi-user.target EOF systemctl daemon-reload systemctl enable clawdbot systemctl start clawdbot 

这样就完事了。开机自动启动,挂了 5 秒后自动重启。


日常维护

几个常用命令:

# 看运行状态 systemctl status clawdbot # 看实时日志 journalctl -u clawdbot -f # 重启 systemctl restart clawdbot # 健康检查 clawdbot doctor # 全面状态 clawdbot status --all 

进阶:命令白名单

如果想让某些命令自动执行,不用每次批准:

# 允许 docker 命令 clawdbot approvals allowlist add --agent "*" "docker *" # 允许 systemctl clawdbot approvals allowlist add --agent "*" "systemctl *" # 允许 /usr/bin 下的程序 clawdbot approvals allowlist add --agent "*" "/usr/bin/*" # 查看当前白名单 clawdbot approvals allowlist list 

进阶:定时任务

ClawdBot 内置 Cron 功能。比如每天早上 7 点发送服务器状态:

clawdbot cron add --schedule "0 7 * * *" \ --timezone "Asia/Shanghai" \ --message "检查服务器状态,给我发个简报" \ --deliver telegram \ --to "你的 TG 用户 ID" 

或者写进配置文件:

{ "cron": { "jobs": [ { "id": "daily-report", "schedule": { "cron": "0 7 * * *", "timezone": "Asia/Shanghai" }, "sessionTarget": "isolated", "payload": { "agentTurn": { "message": "检查服务器状态,生成简报" } }, "deliver": { "channel": "telegram", "to": "你的 TG 用户 ID" } } ] } } 

常见问题

clawdbot: command not found

npm PATH 问题。确认全局目录在 PATH 里:

npm config get prefix echo 'export PATH=$(npm config get prefix)/bin:$PATH' >> ~/.bashrc source ~/.bashrc 

端口被占用

默认端口 18789 冲突了:

lsof -i :18789 # 看谁在用 clawdbot gateway --port 18790 --verbose # 换个端口 

Bot 收到消息但不回复

按顺序检查:

  1. Gateway 在不在跑:clawdbot status
  2. 配对了没:clawdbot pairing list telegram
  3. API 还有没有额度
  4. 看日志:journalctl -u clawdbot -f

all models failed

API 配置问题:

  1. Key 对不对
  2. baseUrl 格式对不对(结尾有没有 /v1
  3. model id 写对没
  4. 跑一下 clawdbot doctor

工具调用失败

你的 API 不支持 function calling 。这种情况 Bot 能聊天,但执行命令用不了。换一个支持工具调用的 API 。


完整配置示例

一个功能完整的配置,开箱即用:

{ "gateway": { "mode": "local", "bind": "loopback", "port": 18789 }, "agents": { "defaults": { "model": { "primary": "openai-compat/claude-sonnet-4-5-20261022", "fallback": ["openai-compat/claude-haiku-3-5-20241022"] }, "elevatedDefault": "full", "thinking": "medium" } }, "models": { "mode": "merge", "providers": { "openai-compat": { "baseUrl": "https://你的 API 地址/v1", "apiKey": "你的密钥", "api": "openai-completions", "models": [ { "id": "claude-sonnet-4-5-20261022", "name": "Claude Sonnet 4.5" }, { "id": "claude-haiku-3-5-20241022", "name": "Claude Haiku 3.5" } ] } } }, "tools": { "exec": { "backgroundMs": 10000, "timeoutSec": 1800, "cleanupMs": 1800000, "notifyOnExit": true }, "elevated": { "enabled": true, "allowFrom": { "telegram": ["你的 TG 用户 ID"] } }, "allow": ["exec", "process", "read", "write", "edit", "web_search", "web_fetch", "cron"] }, "channels": { "telegram": { "enabled": true, "botToken": "你的 Bot Token", "dmPolicy": "pairing", "allowFrom": ["你的 TG 用户 ID"], "groupPolicy": "disabled" } }, "cron": { "jobs": [] } } 

配置亮点


总结

整个过程折腾了大半天,大部分时间花在排查配置格式上。

几个关键点:

  1. Node.js 版本:必须 22 以上
  2. API 要通用:别用有分组限制的 Key
  3. 配置格式严格api 字段、models 数组这些容易出错
  4. 用 systemd 管理:别用 nohup
  5. 安全第一:白名单必须设,日志定期看

搭完之后确实方便。出门在外随时能跟服务器交互,定时任务也不用自己写脚本了。

但说实话,这东西更适合有一定技术基础的人。如果只是想聊天,直接用 Claude 官网就够了。折腾 ClawdBot ,图的是「可控」和「自动化」。

]]>
[求助] 求成本可控,性能过关的本地 vibe coding 方案 tag:www.v2ex.com,2026-01-22:/t/1187720 2026-01-22T18:28:35Z 2026-01-27T00:40:39Z newmancode member/newmancode 如标题所言,想要一款成本在万元内的全本地 ai 编程方案 题主并非程序员,但日常中需要使用自制程序的场景越来越多,所以想要个稳定的生产力来源 题主自身技术水平不过关且在墙内,优质模型 token 没有稳定且成本可控的获得渠,道需求又较为独特,不知道这个想法能否实现,如果不能,该如何曲线救国来做成同样的事情?请大家予以指导,题主在这里跪谢大家 由于使用场景与场所较为固定,故而不太想要更“灵活”的云上方案,选择保密性好安全性高的本地方案 如果可行,最好能够保存多 agent 协作、skill 等功能,会需要这套系统处理不少复杂任务 在保证安全性的前提下留下升级接口,使该套设备能够进行实际工作内核的升级替换,比如 Claude3.0——>Claude4.1 这样的操作以及从原始 vibe coding 升级到使用 skills 等类似操作。 能导入知识库 能够进行代码审计的工作 上下文长度尽量长 能够自主完成操作员设定任务,不需要操作员长时间驻守在屏幕前 能使用 python 和 Linux 语言进行编程 能进行硬件的编程(退一步写个单片机的程序、进一步就是实现 RISC v 的开发) 能进行提示词的发散与补全,以弥补相关专业知识空缺,辅助操作员与系统进行开发 生成速度方面,拿生成你画我猜小游戏举例,该套系统能半小时生成完毕可即用的最终产品就是巨大成功

当中可能有我没意识到的冲突点或未说清除的信息,让大家见笑了 再次恳请大佬们给予我指导,小弟感激不尽! 
]]>
个人玩 ai,显卡最低起步是 5080 嘛? tag:www.v2ex.com,2026-01-21:/t/1187214 2026-01-21T00:37:30Z 2026-01-25T20:24:09Z yifangtongxing28 member/yifangtongxing28

不知道个人玩 ai 起步的显卡是什么型号,比如生成图,生成视频的要求应该不一样吧?


不知道有没有了解的 v 友解答下呢? ]]>
intel b60 48G 可以买吗 tag:www.v2ex.com,2026-01-15:/t/1185998 2026-01-15T11:09:53Z 2026-01-19T06:21:40Z after1990s member/after1990s 目前售价 12000

]]>
现在还有类似 nextchat 这样的 web 工具可以用自定义 api 使用的吗? tag:www.v2ex.com,2026-01-15:/t/1185989 2026-01-15T10:37:21Z 2026-01-15T16:28:30Z mikaelson member/mikaelson 3070RTX 32GB i9 内存 1TB 的游戏本 推荐用来跑什么 AI 工具呢? tag:www.v2ex.com,2026-01-14:/t/1185676 2026-01-14T09:47:56Z 2026-01-14T11:53:04Z magicsang666 member/magicsang666 手里有一台 3070RTX/32GB/i9/1TB 的游戏本 推荐用来跑什么 AI 工具呢?

]]>
本地大模型目前意义大吗? tag:www.v2ex.com,2026-01-13:/t/1185226 2026-01-13T05:55:32Z 2026-01-13T20:54:42Z wyfig member/wyfig 现在用 2020 款初代 M1 处理器的 MacBook pro ,算了下也 5 年了,虽然还能用,但是距离苹果的更新日期也只有一两年时间了。 想换一台新的 mac 。

如果普通的日常开发的话,选择最新的 m5 处理器的 MacBook pro 32G+1T 版本足够我用了。 但是最近两年本地大模型越来越多,范围也越来越广,如果考虑到大模型本地运行,最少可能需要一台 m4 max 处理器的 mac studio 128G+2T 的配置,两者价格直接差了快一倍。

目前有没有在做本地大模型微调等,距离比如用本地大模型写代码以及做一些图片生成、大规模内容处理等事情还有多远,是否值得为后面的四五年准备上一台高配的 mac ?

]]>
寻找本地搭建方案有偿 tag:www.v2ex.com,2026-01-12:/t/1185061 2026-01-12T15:00:58Z 2026-01-13T02:00:46Z elbertzhu655 member/elbertzhu655 目前找人安装了一个 qianwen 用的 openweb UI 但是对话不关联,无法提取记忆,也无法自动存储记忆。 用的没有线上的顺手,有没有办法可以自动关联记忆,可能每条对话都有连续性

]]>
讨论下自建内网 RAG 知识库和 AGENT 平台 tag:www.v2ex.com,2025-12-31:/t/1182339 2025-12-31T02:38:14Z 2026-01-03T15:26:50Z milestance member/milestance

1.传统知识库用基于 MARKDOWN 格式的 OUTLINE ,支持团队协作,单点登录,缺点是没有离线功能。
2.RAG 知识库平台和 AGENT 平台选用 FASTGPT ,没有用 DIFY ,感觉 DIFY 要重一点,也没用只聚焦于 RAG 的 MAXKB 。
1 ) LLM 用内网已经有的 QWEN 大模型
2 ) embedding 用本地的 m3e
3 ) rerank 模型也用本地的 bge rerank 模型
3.胶水准备用 N8N ,从 OUTLINE 把知识定期推送到 FASTGPT 。
4.最后是文档的问答模式准备用 NGINX 做拦截嵌入,在 OUTLINE 文档页面做个弹窗把上下文传到后端 FASTPGT 。 ]]>
使用 Nexa 提供的 SDK 在手机上运行端侧大模型 tag:www.v2ex.com,2025-12-29:/t/1181891 2025-12-29T04:47:35Z 2025-12-28T12:47:35Z 344457769 member/344457769 周末在家闲着没事,编译了一下 Nexa.ai 提供的 Android 项目 demo ,在小米 15 上面跑了一下他们的 OmniNeural-4B ,这是个多模态的大模型,图片识别和声音识别都还可以,中文也能听懂。参数量小,回复速度挺快的,没有详细测试大模型的能力,用英文对话看起来还行,中文对话或者长对话能力明显很弱,有时候会重复前面的对话内容。对端侧大模型感兴趣的可以玩玩这个,大家可以讨论一下端侧大模型现在可以有什么应用场景。

根据他们官方文档,NPU 支持需要高通骁龙 8 Gen 4 以上。

我这边从 HyperOS 的多任务界面看加载大模型以后内存减少了 5G 左右。

图片

Nexa Android SDK

Nexa Android Demo

]]>
想问问大家有没有搭建本地的 LLM,我对应用场景挺困惑的 tag:www.v2ex.com,2025-12-28:/t/1181775 2025-12-28T14:00:47Z 2025-12-29T04:05:27Z vtea member/vtea 现在大语言模型挺火,我平时用的都是在线的 chatgpt 、deepseek 之类。

最近看到 AMD AIMAX 395 什么的,我在想是否自己组一个,本地搭建一个蒸馏模型。

但除了隐私数据安全相关问题,像我这样普通人,也想不出本地应用场景的优势。

]]>
想学习下大模型,有什么论文网站推荐吗 tag:www.v2ex.com,2025-12-24:/t/1180823 2025-12-24T01:50:11Z 2025-12-24T01:59:22Z scottcheng member/scottcheng P.S. 学生党,想学习下自然语言与大模型,但是无从下口,想啃点高质量论文

]]>
Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题? tag:www.v2ex.com,2025-12-22:/t/1180462 2025-12-22T09:17:02Z 2025-12-22T12:10:09Z c3de3f21 member/c3de3f21 拿 编译原理(龙书)( 5.31 MB 大小) 举例子

Need

Quesiton

]]>
目前开源可以本地部署的模型有哪些? tag:www.v2ex.com,2025-12-21:/t/1180219 2025-12-21T04:53:16Z 2025-12-21T23:07:09Z microscopec member/microscopec 可以瑟瑟的,本地部署,要求 12G 内存以下,或者 16G 勉强上,可以本地部署的模型有哪些比较好用的?

]]>
V 友们,有没有推荐的本地台式机文生图的方案? tag:www.v2ex.com,2025-12-15:/t/1178884 2025-12-15T01:28:36Z 2025-12-16T00:56:06Z seerhu member/seerhu 大概介绍一下我的配置: 显卡:5060Ti 16G 内存:32G CPU:7500F

本地跑文生图听说也有别人二开封装好的,就是不知道目前哪个方案好玩一些。

]]>
想自己搞个量化投资模型,怎么解决训练资源的问题? tag:www.v2ex.com,2025-12-14:/t/1178845 2025-12-14T13:21:53Z 2025-12-15T10:22:38Z dddddddy member/dddddddy 如题,我自己有点机器学习的底子,好几年前也做过量化投资模型的训练,现在想自己捡回来玩玩。 但是手头没有机器,想自己配个训练机或者租个云 GPU 用来训练,配机器的话可以有个 3W 以内的预算吧,但最好后期可以进行拓展。 有没有 v 友有相关经验的,求给点推荐,我应该配个什么样的机器,还是说找哪一家的云 GPU 来使用 还有我平时工作比较忙,只有周末有时间进行开发和训练,如果是云 GPU 的话最好是可以按需付费

]]>
有人训过 DPO qwen image edit 吗?我怎么调参数都很奇怪 tag:www.v2ex.com,2025-12-13:/t/1178668 2025-12-13T05:42:09Z 2025-12-13T05:41:09Z huc2 member/huc2 代码参考的 flow grpo 中的 dpo 的代码和 DiffusionDPO ,但是怎么调参数训练都完全没效果,曲线基本都和下面一样

xx

]]>
5060ti16g 跑 Qwen-32B tag:www.v2ex.com,2025-12-12:/t/1178612 2025-12-12T11:07:35Z 2025-12-12T16:05:19Z mdcaqr member/mdcaqr 构建适用于大模型微调的对话数据集 tag:www.v2ex.com,2025-12-12:/t/1178581 2025-12-12T09:08:24Z 2025-12-12T12:44:57Z nakroy member/nakroy 大模型微调一般使用的是 json ,jsonl 或 parquet 格式存储的对话数据集,我看了一些公开的数据集,都是问答对形式的对话数据集,结构化的文本数据。

我的疑问是,构建上千条甚至上万条这种对话数据,一般使用的工具是什么?传统的数据标注,是用一些数据标注工具为每一条数据添加标记(这里面一般不能修改原始数据),这些对话数据,显然是需要能自己构建和修改的(或者让模型生成回答,人工审核和编辑),直接编辑 json 或 jsonl 文件看起来不太现实,因为它们不会对"\n"这种转义符进行转义,所以如果文本很长,看起来就是一行很长很长的文本,直接在 VSCode 里查看和编辑很吃力也不够直观(你们可以尝试下载一些公开的数据集然后在 VSCode 或其他文本编辑器打开就知道了)

我看到很多说明如何使用这些数据集进行训练的文章或教程,但很少有讨论关于如何从零开始构建这些数据集的方法,甚至似乎没有一个很好的编辑工具可以随时查看和修改对话数据。还可以延伸到多人协作的问题,仅靠一个人完全审核和修改上千至上万条对话数据,这工作量也是很大的,一般需要多人协作,那这个工具还得能支持多人协作才可以。

我之前尝试了 Doccano 和 Label Studio ,不知道是我设置有问题还是操作有问题,我发现这些标注工具都是为 NLP 任务设计的,而不是为 LLM 对话数据设计的,并不能很好满足这种场景。

]]>
请教 PRO 6000 96G 选择什么模型部署 tag:www.v2ex.com,2025-12-07:/t/1177434 2025-12-07T20:44:50Z 2025-12-07T21:42:50Z yuanbopang member/yuanbopang 96G 显存下,选择哪个模型以及哪种量化效果比较好

]]>
各位 AI 大佬,请教一下私有化部署 AI 模型的问题? tag:www.v2ex.com,2025-12-03:/t/1176637 2025-12-03T06:47:32Z 2025-12-04T06:49:09Z cnhongwei member/cnhongwei 我现在使用过豆包之类的工具,其它的 AI 方面都不会。现在有以下的问题:
1. 要达到一般豆包之类的这些功能的 70%,不要太差劲,现在的那些开源模型能做到?一般要多少参数及位数?
2. 要达到 1 的要求买什么主机及显卡,对显存要求如何? AMD HX395 之类的主机能达到吗?如果不行,买 5090 显卡,还是一些 AI 工作站的 A1000-A4000 之类的显卡?显存多大合适?显存不够的话,以后可以通过多个显卡来扩展吗?
因为是新手,所以问题比较基础,在网上也没有搜索到比较合适的答案,希望能得到一些指导,谢谢各位 AI 大佬! ]]>
折腾了一晚上大模型,索然无味 tag:www.v2ex.com,2025-11-19:/t/1173840 2025-11-19T15:08:11Z 2025-11-23T22:34:48Z crocoBaby member/crocoBaby 2052 年了,求推荐一个可本地部署的 ai 程序员 可学习自己“训练”的内容? tag:www.v2ex.com,2025-11-15:/t/1172947 2025-11-15T01:58:38Z 2025-11-15T06:26:14Z wxmomomowx member/wxmomomowx 现在本地部署 LLM 的话是不是性价比最高的是多卡 5060Ti 16GB? tag:www.v2ex.com,2025-11-14:/t/1172879 2025-11-14T09:51:58Z 2025-11-14T15:12:23Z EvaElfie member/EvaElfie 除了 AutoDL 这种网站租卡之外,
16GB 的 5060Ti 大概 3000 一块,是不是叠加 2 块或者 4 块,只要机箱和 PCIE 通道支持,就算是最性价比的玩法了?
有没有大佬给些建议? ]]>
NAS 上有几千首歌,有没有 LLM 智能推荐歌曲的 ? tag:www.v2ex.com,2025-11-12:/t/1172248 2025-11-12T05:12:57Z 2025-11-12T05:12:57Z tf2 member/tf2 本来一直在线听歌的,前几天无聊去网盘拖了几十个 G 的 “合集” 到 NAS

然后傻眼了,这玩意不整理,只能一首一首人肉加❤️ 标记喜欢,听一会儿就厌烦了只能不停的 下一首。。

有没有本地化的智能歌曲推荐引擎?

根据曲子风格,语言,流派等区分过滤?

还是去“刮削” 根据歌手、词曲作者,创作背景 年代 等进一步综合推荐?

偶尔听一点古典,对于一些熟悉的 OP 还需要精确到哪个乐团哪个场次才过瘾。

btw 去重也是个麻烦事, .mp3 文件 ID3 参差不齐,不能直接根据 MD5 去重。得看歌曲本身是否重复

这些问题有没有一揽子媒体管理方案?

]]>
私有化部署 LLM 及 LVM 选型方案意见收集 tag:www.v2ex.com,2025-11-07:/t/1171125 2025-11-07T01:30:02Z 2025-11-10T08:13:02Z Sh1xin member/Sh1xin 目前考虑
LLM:qwen3 30B ;
LVM:qwen3-vl-32B-Instruct

不知道大伙们有没有更好的建议

需求:主要还是做知识库,智能客服问答,以及 OCR 的功能 ]]>
在 n8n 中使用 Ollama 的本地 LLM 模型 tag:www.v2ex.com,2025-11-06:/t/1171090 2025-11-06T15:25:52Z 2025-11-11T01:52:25Z DejavuMoe member/DejavuMoe 纯 CPU 跑还是有点吃力呀,有 GPU 云就好了😭 https://blog.dejavu.moe/posts/try-n8n-automation-with-ollama/

]]>
经过我一个多月的测试,我发现本地部署的 qwen3-vl-8b 比 qwen3-8b 在新闻和游戏名词等翻译上面更有优势 tag:www.v2ex.com,2025-11-04:/t/1170381 2025-11-04T03:22:25Z 2025-12-19T08:35:59Z spike0100 member/spike0100

图中最后两条是 qwen3-vl-8b 翻译的,基本已经接近母语直接阅读的翻译水平。
gemma3-4b ,qwen3-8b ,gpt-oss-20b 都达不到这个水平 ]]>
我模仿 nanochat 全栈 llm 流程, 在 8 x H100 芯片训练了 500m 参数的 llm, 以下感悟 tag:www.v2ex.com,2025-11-04:/t/1170352 2025-11-04T02:18:35Z 2025-11-04T13:16:16Z wangshuo6 member/wangshuo6

花费了 8w 个 token, 110$的 gpu 服务器成本(一般时间花在 debug 上,一半时间训练)

感受是 gpu 价格及其贵,代码出现 1 个 bug = 10min debug -> 至少 1.2$花销

bug 出现频率高: python 容易写出语法/变量名错误,超参数填的的不对会导致 gpu 计算错误,cuda 和 pytorch 版本问题也会导致出错

总结就是:

1. 犯错的代价是严重的,务必用小批量数据测试代码是否写的正确

2. ai 基建大概率不是泡沫

以上 gpu 是租的便宜的小厂商的,主流云服务价格翻倍

]]>
deepseek 如何本地部署啊. tag:www.v2ex.com,2025-11-03:/t/1170209 2025-11-03T07:41:13Z 2025-11-03T00:17:36Z simple2025 member/simple2025 我现在下了 ollama,现在卡在下载那个 deepseek-r1:8b 模型上.

我的机场好像不行.下不动.下了一会儿就断了.

所以我想要有什么镜像什么的.

根据 deepseek 搜到的设置 $env:OLLAMA_HOST="mirror.ollama.ai:11434" 也不行.

你们是怎么下载的呢?

]]>
寻求自训练可部署在安卓端的推理模型解决方案 tag:www.v2ex.com,2025-11-03:/t/1170121 2025-11-03T03:04:38Z 2025-11-03T03:03:38Z 92Developer member/92Developer 我有一款个人安卓 app[记牌器],小有盈利。 技术方案为 yolo + onnxruntime ,使用体验:稳,快,准。 目前想自行训练数据搞出一个可部署在安卓 app 中的推理模型, 比如实时提示上家或下家剩哪些牌的概率等场景。 就是我给模型一些 Prompt ,想让模型给出结果。 请问目前有什么解决方案吗?

]]>
2080ti 22g 有什么效果还可以的 i2v 项目推荐 tag:www.v2ex.com,2025-10-30:/t/1169566 2025-10-30T17:14:18Z 2025-10-30T19:13:18Z bouts0309 member/bouts0309 之前 comfyui 跑 wan2.1 跑了几分钟显存占用特别大,还黑屏了。 今天想挑个不是特别占显存的玩玩,看到 framepack 效果还可以。于是立马开始下载整合包,下了两个多钟头,开始运行了才发现 framepack 不支持 20x 。 4060ti 已经在购物车了( 想问问各位这块老魔改卡还有什么好用的 i2v 项目吗?

]]>
试着把 grok 做的个人量化投资工具接入了 gemini 3.0 测试模型,强大得可怕 tag:www.v2ex.com,2025-10-15:/t/1165296 2025-10-15T01:59:30Z 2025-10-15T03:21:49Z mastergo member/mastergo 之前的旧贴 t/1162282?p=1#reply20

现在挖掘机接入了最强的 Gemini 3.0 测试版本模型。 大家可以试试效果,很震撼。👇 https://mastersgo.cc

挖掘词,来自 x 的帖子

是的,稀土比的是制造业基础设施 比稀土更夸张的是钨,这张牌还没打,垄断般的存在,全球 56% 稀土是工业制造的维生素,特朗普芯片把中国整急了,中国就长臂管辖美国的军工制造 关键中国现在被美国制裁麻了,死猪不怕开水烫了 😂

然后把这个观点放到挖掘机里面执行,效果如下:

[投资分析报告_report-2.png

]]>
10 万条记录, 我应该选择什么 Embedding 模型和向量数据库呢 tag:www.v2ex.com,2025-10-14:/t/1165094 2025-10-14T03:50:46Z 2025-10-14T05:51:00Z mythjava member/mythjava 想要在本地服务器上跑开源模型, 这样能省一点钱, 不过如果云上 API 的效果比较好的话, 在云上也是可以的

我对这方面不是很了解, 希望各位给出指导意见

]]>
家用 AI 开发机, GPU 在“魔改 4090 48G”和“等 5090 32G”之间纠结,求大佬们给点建议! tag:www.v2ex.com,2025-10-10:/t/1164069 2025-10-10T01:48:41Z 2025-10-28T23:27:34Z Saunak member/Saunak 实验室有卡,但是要排队,很多开发和测试不方便(租卡迁数据更不方便)。计划配一台家用的 AI 开发机,主要是跑 7B-32B 的 LLM 。因为住在租的房子里,所以对噪音和散热比较敏感。目前预算先上一张卡,未来可能升级双卡。现在对 GPU 的选择非常纠结,想听听大家的意见。

一、GPU 选择:核心纠结点

选项 A:魔改版 RTX 4090 48GB

优点: 显存巨大 (48GB) 多卡兼容性:wsl2 下似乎可以多卡?只需要消费级主板? 顾虑: 散热/噪音:涡扇版据说噪音巨大,不适合家用。可能要三风扇或水冷版。水冷长期可靠性(漏液风险)没底。 质保风险:没有官方质保,完全依赖店铺。看到有人炸缸,店铺进行了更换,但需要提供温度记录之类。

选项 B:RTX 5090 32GB

优点: 性能更强:下一代架构,核心性能肯定提升巨大。 家用友好:散热和噪音控制肯定比魔改方案好,适合家庭环境。 顾虑: 显存稍小 (32GB) 兼容性:看到有说法是“老模型可能用不了” 多卡兼容性:wsl2 下好像完全无法兼容多卡。且需要服务器级主板

我想问的问题:

  1. 为了处理 32B 模型,48GB 显存的优势是否大到值得去承担魔改卡的散热、噪音和质保风险?
  2. 有没有用过这类魔改大显存卡的兄弟,能分享一下实际的稳定性和使用体验吗?
  3. 后续希望可以直接在原机器上直接加卡,拓展成双卡。最好是 win 下能用,实在不行就换 ubuntu 系统。这种情况下 5090 和 4090 改哪个合适一点?

二、主板考量:未来可能升级双卡

想问的问题:

  1. 如果未来要上双卡(无论是两张 4090 还是 5090 ),主板选择上有什么关键点?
  2. 我看到一个说法是“5090 双卡需要两个 PCIe 5.0 插槽”,这个是必须的吗?还是说带宽足够的 PCIe 4.0 主板(比如能支持双 x8 模式)就够用了?
  3. 除了带宽,主要是不是应该关注两根 PCIe x16 插槽之间的物理空间,以保证两张卡的散热?

感谢各位的宝贵时间和建议!

]]>
本地部署了大模型如何有效利用? tag:www.v2ex.com,2025-09-28:/t/1162498 2025-09-28T15:27:22Z 2025-09-28T16:27:22Z ragnarok19 member/ragnarok19 我是 amd7h12 ( 64h128c )+30902+128gb8 用 ktransformers 跑满血版 deepseek-r1 很卡,现在用 llama.cpp 双卡跑 seed-oss-32b-q4

]]>
LLM 调用 MCP 的机制到底是什么?为什么有些 MCP 安装了却不调用? tag:www.v2ex.com,2025-09-28:/t/1162496 2025-09-28T15:09:19Z 2025-09-28T19:06:19Z bulldragon member/bulldragon 最近在折腾 Claude Code / Gemini CLI 的时候遇到个问题: 我装了一个 MCP (比如 chrome devtools MCP: https://developer.chrome.com/blog/chrome-devtools-mcp ),但是 LLM 在使用时经常表现得好像根本不知道有这个 MCP 存在。

比如:

所以就有点疑惑:LLM 调用 MCP 的“标准”到底是什么?是单纯靠 prompt 吗?还是 CLI/IDE 会把工具列表注入到上下文里?为什么有的任务明明 MCP 能做,它就是不用?是 prompt 不够明确,还是模型的工具调用策略比较保守?在 Claude Code / Gemini CLI 里,是否有配置能让 MCP 工具列表自动注入上下文?不然感觉每次都要手动提醒它“你有这些工具”。

]]>
大模型本地部署显存计算的问题 tag:www.v2ex.com,2025-09-28:/t/1162434 2025-09-28T08:19:15Z 2025-09-28T08:28:37Z Suinn member/Suinn 如题,大佬们有没有什么工具或者网站,可以计算部署各类开源大模型的显存大小

]]>
web search MCP 推荐 tag:www.v2ex.com,2025-09-18:/t/1160099 2025-09-18T01:57:10Z 2025-09-18T02:09:51Z faoisdjioga member/faoisdjioga
  • 希望可以有一个本地部署提供 sse 的 MCP

  • 如果有提供 server 的话,希望是免费的。

  • 在 github 上找了一个,但是部署之后搜索结果全是不相关的,找了一些 server 都要付费。

    ]]>
    AI 本地化部署的方式 tag:www.v2ex.com,2025-09-12:/t/1158786 2025-09-12T06:09:24Z 2025-09-26T13:06:23Z wenkgin member/wenkgin 最近在尝试本地化部署 AI ,用了 ollama+dify ,只是简单的试用了下,感觉还行,能完全在离线环境安装使用。

    想问问老哥们的方式有哪些,我都想试试对比一下

    ]]>
    如果想训练一个类似于智谱的模型 大概得耗费多少钱? tag:www.v2ex.com,2025-09-11:/t/1158616 2025-09-11T09:38:15Z 2025-09-11T13:33:32Z gotoschool member/gotoschool 并发并不大的情况下 需要耗资多少钱呢
    有没有兄弟 知道或者正在弄 ]]>
    大模型上下文工程实践指南-第 3 章:提示词技术 tag:www.v2ex.com,2025-09-09:/t/1158100 2025-09-09T12:36:10Z 2025-09-09T12:36:10Z IterX member/IterX ce101 连载第三章来了,讲提示词技术相关的内容

    全书:

    https://ce101.ifuryst.com

    也可以订阅 substack ,这样每一章发布的时候都会发到你的邮箱,方便习惯 newsletter 的人阅读:

    https://ifuryst.substack.com/p/3

    或者通过公众号接收阅读:

    https://mp.weixin.qq.com/s/xA8jCRs67Uirhgyh7WMWOw

    ]]>
    大语言模型中规模和模型大小的关系? tag:www.v2ex.com,2025-09-05:/t/1157240 2025-09-05T02:02:07Z 2025-09-05T04:29:29Z SSang member/SSang 我发现一个奇怪的现象,规模和模型大小似乎并不是完全正相关。

    https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF 中的 4bit 模型为例:

    整体趋势上确实是规模越大,模型大小越大,但比如 Q4_K_XL 就比 Q4_K_M 更小,这是什么原因导致的?

    这个所谓的模型规模,他代表的是什么含义呢?

    ]]>
    想自己本地跑大模型,学习大模型,做一些微调等操作,目前看到一款小主机在预算内, CPU AMD Ryzen Al Max+ 395,不知道这套配置是否适合用来学习大模型跑大模型,有没有懂的兄弟可以给点建议。 tag:www.v2ex.com,2025-09-04:/t/1157170 2025-09-04T13:25:51Z 2025-09-06T08:12:37Z hmbb member/hmbb 显卡:AMD Radeon 8060S Graphics 40CUs
    系统盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    存储盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    内存:128GB(16GB*8) LPDDR5x 8000MT/s (最大可分配 96GB 给显存)
    接口:AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
    无线网络:WIFI7 MT7925; 蓝牙 5.4 ]]>
    怎样部署 ai 大模型然后训练他 tag:www.v2ex.com,2025-09-03:/t/1156867 2025-09-03T08:51:52Z 2025-09-03T15:05:18Z eedh member/eedh 本地电脑,用数据库训练

    ]]>
    有人实际部署过 GPT-OSS-20b 么? 需要什么配置能跑得比较流畅? tag:www.v2ex.com,2025-09-01:/t/1156379 2025-09-01T10:12:41Z 2025-09-01T19:20:26Z totty member/totty 做萌翻翻译的时候,想用来本地部署做语言检测,AI 翻译和 AI 词典都可能用到,传统的库都不够准确,如果是多语言的话。

    ]]>
    批了 100 万预算让我负责搭建行业知识库大模型, 但是目前还没有思路 tag:www.v2ex.com,2025-08-27:/t/1155193 2025-08-27T02:11:40Z 2025-09-11T16:36:41Z sodayo member/sodayo 我们公司有国内某个垂直领域最全面的文档和文献, 上面想要根据这些资源来基于大模型构建一个行业知识库型问答系统, 先自己内部用, 然后再看看能不能直接打包卖方案给别的公司. 前期 POC 阶段, 用的 RAGFlow 和本地运行 deepseek-r1:14b, 但是效果并不算太好, 但是上面坚持要搞, 所以来问问目前有没有什么更好的方案.

    目前预算是够运行满血版 deepseek-r1, 但是瓶颈出现在 RAG 的召回阶段, 并且本身这些文档对于向量化来说质量不算太好, 有很多图表. 所以是否需要专门雇人来将这些文档制作成大模型可用的数据集并微调模型, 然后再使用工作流的形式处理问答会比较好呢 ?

    ]]>
    有没有好用的本地翻译模型? tag:www.v2ex.com,2025-08-21:/t/1154051 2025-08-21T11:19:45Z 2025-08-31T21:45:37Z importmeta member/importmeta 想本地搭一个翻译服务,试了以下两个,一言难尽,质量还不如谷歌在线翻译。

    https://github.com/argosopentech/argos-translate

    https://github.com/winstxnhdw/nllb-api

    求一个好用的!先谢谢了!

    ]]>
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86