Local LLM

microgpt.py

2026-02-12T08:28:39Z

https://gist.github.com/karpathy/8627fe009c40f57531cb18360106ce95

一个不需要任何依赖，纯 Python 实现的 GPT 算法。

30B 尺寸哪个小模型编码能力会好一些

2026-01-29T02:38:06Z

很久没本地跑小模型了，之前用的 QWen3-30B-A3B 2507 效果最佳，现在想咨询下哪个模型效果会更好些

ClawdBot 保姆级安装指南：从零搭建你的 24/7 私人 AI 助手

2026-01-27T09:32:11Z

今天刷 Twitter 的时候，发现时间线被一个叫 ClawdBot 的东西刷屏了。

点进去一看，是个开源的 AI 助手框架。能干的事情挺多：通过 Telegram/WhatsApp 远程控制电脑、自动处理邮件、定时跑任务、甚至能帮你和 4S 店砍价（有个老外说靠它省了 4200 美元，虽然我觉得有点玄学）。

手上正好有台吃灰的 VPS ，干嘛不试试？

结果这一试，踩了一晚上的坑。官方文档写得比较散，很多细节要自己摸索。顺手把过程记下来，给想折腾的朋友省点时间。

ClawdBot 是什么

简单说，ClawdBot 是一个本地运行的 AI 助手网关。

它的核心是一个 Gateway 进程，负责：

连接各种聊天平台（ Telegram 、WhatsApp 、Discord 、iMessage 等）
调用 AI 模型（ Claude 、GPT 、本地模型都行）
执行系统命令、读写文件、控制浏览器
管理定时任务和自动化流程

你可以把它理解成一个7x24 小时在线的 AI 员工。它有记忆（知道你之前聊过什么），有手脚（能操作你的电脑），还会主动干活（定时任务、邮件监控）。

根据 Mashable 的报道，这东西火到 Mac mini 都卖断货了——很多人专门买一台小主机放家里，就为了跑这个。

不过我觉得没必要这么激进。一台便宜的云服务器就够了，一个月几十块钱，玩坏了也不心疼。

它能干什么

搭完之后我自己用了一下，体验确实不错：

随时随地发消息：手机上给 Bot 发消息，秒回。出门在外也能远程操作服务器
查服务器状态：让它跑个 htop 或者看 Docker 容器，截图发过来
定时任务：每天早上 7 点发一份服务器健康报告
写代码调试：把报错信息发给它，它能直接帮你改文件

网上还有人玩得更花：

邮件自动化：每 15 分钟检查一次收件箱，垃圾邮件自动归档，重要邮件立刻推送摘要到手机，还能用你的口吻起草回复。

笔记整理：连接 Obsidian ，自动更新每日笔记，从会议记录里提取待办事项，生成每周回顾。

睡觉时写代码：睡前把一个 Bug 丢给它，它会持续调试、提交、测试，早上起来 PR 就准备好了。

智能家居控制：有人在沙发上看电视，用手机让它帮忙调灯光、查天气、设闹钟。

当然，这些高级玩法需要配置额外的 Skills 和集成。本文先讲基础安装，能聊天、能执行命令就算成功。

准备工作

你需要：

项目	说明
一台服务器	云服务器（我用的 Ubuntu 24.04 ）、Mac mini 、旧电脑、树莓派都行,最好是国外的,不然网络环境都有的折腾了!
Telegram 账号	用来创建 Bot
Claude/GPT API	官方的或者中转站都行，后面会细说

关于设备选择

云服务器（推荐新手）

优点：便宜（最低几十块/月）、玩坏了不心疼、7x24 在线缺点：需要一点 Linux 基础

Mac mini

优点：性能好、功耗低、能跑 macOS 专属功能（ iMessage 等）缺点：贵（ 4000+ 起步）、权限太高有安全风险

我的建议：

新手先用 VPS 试水。等熟悉了再考虑要不要买专门的设备。如果真要用 Mac mini ，别用日常工作的那台——万一配置出问题，或者 Key 泄露了，后果可能很严重。

安装方式

ClawdBot 支持多种安装方式，我按推荐程度排序：

方式一：一键安装脚本（推荐）

官方提供的快速安装命令，会自动处理依赖和权限问题：

# Linux / macOS curl -fsSL https://get.clawd.bot | bash # 安装完成后运行引导向导 clawdbot onboard --install-daemon

这个脚本会自动检测系统、安装 Node.js 22+、处理 npm 权限、全局安装 clawdbot 。

方式二：手动 npm 安装

如果你已经有 Node.js 22+：

npm install -g clawdbot@latest

详细安装步骤

下面用手动方式演示。虽然一键脚本更方便，但手动装能让你更清楚每一步在干嘛，出问题也好排查。

第一步：安装 Node.js 22+

ClawdBot 要求 Node.js 22 以上。Ubuntu 自带的版本太老，得手动装。

# 添加 NodeSource 仓库 curl -fsSL https://deb.nodesource.com/setup_22.x | bash - # 安装 apt-get install -y nodejs # 验证 node -v # 输出 v22.x.x 就对了

踩坑 1：别直接 apt install nodejs，那样装的是老版本（通常 v12 或 v18 ），后面会报各种兼容性错误。

第二步：安装 ClawdBot

npm install -g clawdbot@latest

装完验证：

clawdbot --version

踩坑 2：如果报 EACCES 权限错误，说明 npm 全局目录权限有问题。解决方法：
mkdir -p ~/.npm-global npm config set prefix '~/.npm-global' echo 'export PATH=~/.npm-global/bin:$PATH' >> ~/.bashrc source ~/.bashrc 

第三步：创建 Telegram Bot

打开 Telegram ，搜索 @BotFather，发送 /newbot。这里好像必须新建!

按提示设置：

给 Bot 起个名字（显示名称）
设置用户名（必须以 bot 结尾，比如 my_clawd_bot）

最后会给你一串 Token：

1234567890:ABCdefGHIjklMNOpqrSTUvwxYZ1234567890

存好这个 Token，后面要用。

第四步：准备 API

这一步最容易踩坑。

用官方 API

去 console.anthropic.com 注册
创建 API Key （以 sk-ant- 开头）
充值一点余额

用中转站 API

如果用中转站，注意三点：

必须支持 OpenAI 兼容格式
必须支持 工具调用（ function calling ）
确认 没有分组限制

踩坑 3：这里我是直接用的 CLI Proxy API 这个开源项目中转的 API,选的 gemini-3-flash 模型,感觉非常舒畅!

第五步：写配置文件

创建配置目录：

mkdir -p ~/.clawdbot nano ~/.clawdbot/clawdbot.json

根据你的 API 类型选配置模板：

模板 A：Anthropic 官方 API

{ "gateway": { "mode": "local", "bind": "loopback", "port": 18789 }, "env": { "ANTHROPIC_API_KEY": "sk-ant-你的密钥" }, "agents": { "defaults": { "model": { "primary": "anthropic/claude-sonnet-4-5-20261022" } } }, "channels": { "telegram": { "enabled": true, "botToken": "你的 Bot Token", "dmPolicy": "pairing" } } }

模板 B：OpenAI 兼容的中转站

{ "gateway": { "mode": "local", "bind": "loopback", "port": 18789 }, "agents": { "defaults": { "model": { "primary": "gemini/gemini-3-flash" }, "elevatedDefault": "full" , "workspace": "/wangwang", "compaction": { "mode": "safeguard" }, "maxConcurrent": 4, "subagents": { "maxConcurrent": 8 } } }, "models": { "mode": "merge", "providers": { "gemini": { "baseUrl": "https://你的中转站 API/v1", "apiKey": "test", "api": "openai-completions", "models": [ { "id": "gemini-3-flash", "name": "gemini-3-flash" } ] } } }, "channels": { "telegram": { "botToken": "你的 TG Token" } }, "plugins": { "entries": { "telegram": { "enabled": true } } } }

踩坑 4：api 字段必须填 openai-completions。我一开始填的 openai-chat，死活启动不了。

踩坑 5：models 数组不能省，不然报错说缺少必填项。注意 agents 中也有配置模型名,别忘了改!

第六步：启动测试

clawdbot gateway --verbose

看到这两行就成功了：

[gateway] listening on ws://127.0.0.1:18789 [telegram] [default] starting provider (@你的 Bot 名字)

第七步：配对

第一次给 Bot 发消息，它会回复配对码：

Pairing code: X9MKTQ2P Your Telegram user id: 123456789

在服务器上执行：

clawdbot pairing approve telegram X9MKTQ2P

配对完成后，只有你的账号能和 Bot 对话，别人发消息它不会理。

记下你的 Telegram User ID，后面设置权限白名单要用。

后续有啥需求就直接 tg 对话,让 AI 自行配置就行了!比如我让它帮我集成了 exa 的搜索功能!

设置开机自启

用 nohup 跑的话，SSH 一断就挂了。上 systemd：

cat > /etc/systemd/system/clawdbot.service << 'EOF' [Unit] Description=ClawdBot Gateway After=network.target [Service] Type=simple User=root ExecStart=/usr/bin/clawdbot gateway --verbose Restart=always RestartSec=5 EnvirOnment=HOME=/root [Install] WantedBy=multi-user.target EOF systemctl daemon-reload systemctl enable clawdbot systemctl start clawdbot

这样就完事了。开机自动启动，挂了 5 秒后自动重启。

日常维护

几个常用命令：

# 看运行状态 systemctl status clawdbot # 看实时日志 journalctl -u clawdbot -f # 重启 systemctl restart clawdbot # 健康检查 clawdbot doctor # 全面状态 clawdbot status --all

进阶：命令白名单

如果想让某些命令自动执行，不用每次批准：

# 允许 docker 命令 clawdbot approvals allowlist add --agent "*" "docker *" # 允许 systemctl clawdbot approvals allowlist add --agent "*" "systemctl *" # 允许 /usr/bin 下的程序 clawdbot approvals allowlist add --agent "*" "/usr/bin/*" # 查看当前白名单 clawdbot approvals allowlist list

进阶：定时任务

ClawdBot 内置 Cron 功能。比如每天早上 7 点发送服务器状态：

clawdbot cron add --schedule "0 7 * * *" \ --timezone "Asia/Shanghai" \ --message "检查服务器状态，给我发个简报" \ --deliver telegram \ --to "你的 TG 用户 ID"

或者写进配置文件：

{ "cron": { "jobs": [ { "id": "daily-report", "schedule": { "cron": "0 7 * * *", "timezone": "Asia/Shanghai" }, "sessionTarget": "isolated", "payload": { "agentTurn": { "message": "检查服务器状态，生成简报" } }, "deliver": { "channel": "telegram", "to": "你的 TG 用户 ID" } } ] } }

常见问题

`clawdbot: command not found`

npm PATH 问题。确认全局目录在 PATH 里：

npm config get prefix echo 'export PATH=$(npm config get prefix)/bin:$PATH' >> ~/.bashrc source ~/.bashrc

端口被占用

默认端口 18789 冲突了：

lsof -i :18789 # 看谁在用 clawdbot gateway --port 18790 --verbose # 换个端口

Bot 收到消息但不回复

按顺序检查：

Gateway 在不在跑：clawdbot status
配对了没：clawdbot pairing list telegram
API 还有没有额度
看日志：journalctl -u clawdbot -f

`all models failed`

API 配置问题：

Key 对不对
baseUrl 格式对不对（结尾有没有 /v1）
model id 写对没
跑一下 clawdbot doctor

工具调用失败

你的 API 不支持 function calling 。这种情况 Bot 能聊天，但执行命令用不了。换一个支持工具调用的 API 。

完整配置示例

一个功能完整的配置，开箱即用：

{ "gateway": { "mode": "local", "bind": "loopback", "port": 18789 }, "agents": { "defaults": { "model": { "primary": "openai-compat/claude-sonnet-4-5-20261022", "fallback": ["openai-compat/claude-haiku-3-5-20241022"] }, "elevatedDefault": "full", "thinking": "medium" } }, "models": { "mode": "merge", "providers": { "openai-compat": { "baseUrl": "https://你的 API 地址/v1", "apiKey": "你的密钥", "api": "openai-completions", "models": [ { "id": "claude-sonnet-4-5-20261022", "name": "Claude Sonnet 4.5" }, { "id": "claude-haiku-3-5-20241022", "name": "Claude Haiku 3.5" } ] } } }, "tools": { "exec": { "backgroundMs": 10000, "timeoutSec": 1800, "cleanupMs": 1800000, "notifyOnExit": true }, "elevated": { "enabled": true, "allowFrom": { "telegram": ["你的 TG 用户 ID"] } }, "allow": ["exec", "process", "read", "write", "edit", "web_search", "web_fetch", "cron"] }, "channels": { "telegram": { "enabled": true, "botToken": "你的 Bot Token", "dmPolicy": "pairing", "allowFrom": ["你的 TG 用户 ID"], "groupPolicy": "disabled" } }, "cron": { "jobs": [] } }

配置亮点：

fallback：主模型挂了自动切备用
thinking: medium：启用中等深度思考
groupPolicy: disabled：只响应私聊，不进群
双重白名单：elevated 和 channels 都设了 allowFrom

总结

整个过程折腾了大半天，大部分时间花在排查配置格式上。

几个关键点：

Node.js 版本：必须 22 以上
API 要通用：别用有分组限制的 Key
配置格式严格：api 字段、models 数组这些容易出错
用 systemd 管理：别用 nohup
安全第一：白名单必须设，日志定期看

搭完之后确实方便。出门在外随时能跟服务器交互，定时任务也不用自己写脚本了。

但说实话，这东西更适合有一定技术基础的人。如果只是想聊天，直接用 Claude 官网就够了。折腾 ClawdBot ，图的是「可控」和「自动化」。

[求助] 求成本可控，性能过关的本地 vibe coding 方案

2026-01-22T18:28:35Z

如标题所言，想要一款成本在万元内的全本地 ai 编程方案题主并非程序员，但日常中需要使用自制程序的场景越来越多，所以想要个稳定的生产力来源题主自身技术水平不过关且在墙内，优质模型 token 没有稳定且成本可控的获得渠,道需求又较为独特，不知道这个想法能否实现，如果不能，该如何曲线救国来做成同样的事情？请大家予以指导，题主在这里跪谢大家由于使用场景与场所较为固定，故而不太想要更“灵活”的云上方案，选择保密性好安全性高的本地方案如果可行，最好能够保存多 agent 协作、skill 等功能，会需要这套系统处理不少复杂任务在保证安全性的前提下留下升级接口，使该套设备能够进行实际工作内核的升级替换，比如 Claude3.0——>Claude4.1 这样的操作以及从原始 vibe coding 升级到使用 skills 等类似操作。能导入知识库能够进行代码审计的工作上下文长度尽量长能够自主完成操作员设定任务，不需要操作员长时间驻守在屏幕前能使用 python 和 Linux 语言进行编程能进行硬件的编程（退一步写个单片机的程序、进一步就是实现 RISC v 的开发）能进行提示词的发散与补全，以弥补相关专业知识空缺，辅助操作员与系统进行开发生成速度方面，拿生成你画我猜小游戏举例，该套系统能半小时生成完毕可即用的最终产品就是巨大成功

当中可能有我没意识到的冲突点或未说清除的信息，让大家见笑了 再次恳请大佬们给予我指导，小弟感激不尽！

个人玩 ai，显卡最低起步是 5080 嘛？

2026-01-21T00:37:30Z

最近显卡估计要涨一波，囤了一张 6299 的丐版 5070ti 16g

不知道个人玩 ai 起步的显卡是什么型号，比如生成图，生成视频的要求应该不一样吧？

不知道有没有了解的 v 友解答下呢？

intel b60 48G 可以买吗

2026-01-15T11:09:53Z

目前售价 12000

现在还有类似 nextchat 这样的 web 工具可以用自定义 api 使用的吗？

2026-01-15T10:37:21Z

想把 gemini claude 那些 api 配置到 web 上一起用。

3070RTX 32GB i9 内存 1TB 的游戏本推荐用来跑什么 AI 工具呢？

2026-01-14T09:47:56Z

手里有一台 3070RTX/32GB/i9/1TB 的游戏本推荐用来跑什么 AI 工具呢？

本地大模型目前意义大吗？

2026-01-13T05:55:32Z

现在用 2020 款初代 M1 处理器的 MacBook pro ，算了下也 5 年了，虽然还能用，但是距离苹果的更新日期也只有一两年时间了。想换一台新的 mac 。

如果普通的日常开发的话，选择最新的 m5 处理器的 MacBook pro 32G+1T 版本足够我用了。但是最近两年本地大模型越来越多，范围也越来越广，如果考虑到大模型本地运行，最少可能需要一台 m4 max 处理器的 mac studio 128G+2T 的配置，两者价格直接差了快一倍。

目前有没有在做本地大模型微调等，距离比如用本地大模型写代码以及做一些图片生成、大规模内容处理等事情还有多远，是否值得为后面的四五年准备上一台高配的 mac ？

寻找本地搭建方案有偿

2026-01-12T15:00:58Z

目前找人安装了一个 qianwen 用的 openweb UI 但是对话不关联，无法提取记忆，也无法自动存储记忆。用的没有线上的顺手，有没有办法可以自动关联记忆，可能每条对话都有连续性

讨论下自建内网 RAG 知识库和 AGENT 平台

2025-12-31T02:38:14Z

公司现在还没有引入飞书等平台，想在小组内试搭一套 RAG 平台，内网有 QWEN 的大模型接口，于是有了下述方案，大家看看是否合适，运行硬件配置不高，无单独 GPU：

1.传统知识库用基于 MARKDOWN 格式的 OUTLINE ，支持团队协作，单点登录，缺点是没有离线功能。
2.RAG 知识库平台和 AGENT 平台选用 FASTGPT ，没有用 DIFY ，感觉 DIFY 要重一点，也没用只聚焦于 RAG 的 MAXKB 。
1 ） LLM 用内网已经有的 QWEN 大模型
2 ） embedding 用本地的 m3e
3 ） rerank 模型也用本地的 bge rerank 模型
3.胶水准备用 N8N ，从 OUTLINE 把知识定期推送到 FASTGPT 。
4.最后是文档的问答模式准备用 NGINX 做拦截嵌入，在 OUTLINE 文档页面做个弹窗把上下文传到后端 FASTPGT 。

使用 Nexa 提供的 SDK 在手机上运行端侧大模型

2025-12-29T04:47:35Z

周末在家闲着没事，编译了一下 Nexa.ai 提供的 Android 项目 demo ，在小米 15 上面跑了一下他们的 OmniNeural-4B ，这是个多模态的大模型，图片识别和声音识别都还可以，中文也能听懂。参数量小，回复速度挺快的，没有详细测试大模型的能力，用英文对话看起来还行，中文对话或者长对话能力明显很弱，有时候会重复前面的对话内容。对端侧大模型感兴趣的可以玩玩这个，大家可以讨论一下端侧大模型现在可以有什么应用场景。

根据他们官方文档，NPU 支持需要高通骁龙 8 Gen 4 以上。

我这边从 HyperOS 的多任务界面看加载大模型以后内存减少了 5G 左右。

Nexa Android SDK

Nexa Android Demo

想问问大家有没有搭建本地的 LLM，我对应用场景挺困惑的

2025-12-28T14:00:47Z

现在大语言模型挺火，我平时用的都是在线的 chatgpt 、deepseek 之类。

最近看到 AMD AIMAX 395 什么的，我在想是否自己组一个，本地搭建一个蒸馏模型。

但除了隐私数据安全相关问题，像我这样普通人，也想不出本地应用场景的优势。

想学习下大模型，有什么论文网站推荐吗

2025-12-24T01:50:11Z

P.S. 学生党，想学习下自然语言与大模型，但是无从下口，想啃点高质量论文

Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题？

2025-12-22T09:17:02Z

拿编译原理(龙书）（ 5.31 MB 大小）举例子

Need

太长了，想看每一章的核心总结，又怕漏掉图啥的不理解

Quesiton

丐版 16GB 内存搭配 AnythingLLM 与 Ollma 能用的模型有哪些？
上下文会不会不够，效果怎么样？有没有大佬已经实践过的方案？
参数如何调整(AnythingLLM 里可用的参数)？

目前开源可以本地部署的模型有哪些？

2025-12-21T04:53:16Z

可以瑟瑟的，本地部署，要求 12G 内存以下，或者 16G 勉强上，可以本地部署的模型有哪些比较好用的？

V 友们，有没有推荐的本地台式机文生图的方案？

2025-12-15T01:28:36Z

大概介绍一下我的配置：显卡：5060Ti 16G 内存：32G CPU：7500F

本地跑文生图听说也有别人二开封装好的，就是不知道目前哪个方案好玩一些。

想自己搞个量化投资模型，怎么解决训练资源的问题？

2025-12-14T13:21:53Z

如题，我自己有点机器学习的底子，好几年前也做过量化投资模型的训练，现在想自己捡回来玩玩。但是手头没有机器，想自己配个训练机或者租个云 GPU 用来训练，配机器的话可以有个 3W 以内的预算吧，但最好后期可以进行拓展。有没有 v 友有相关经验的，求给点推荐，我应该配个什么样的机器，还是说找哪一家的云 GPU 来使用还有我平时工作比较忙，只有周末有时间进行开发和训练，如果是云 GPU 的话最好是可以按需付费

有人训过 DPO qwen image edit 吗？我怎么调参数都很奇怪

2025-12-13T05:42:09Z

代码参考的 flow grpo 中的 dpo 的代码和 DiffusionDPO ，但是怎么调参数训练都完全没效果，曲线基本都和下面一样

5060ti16g 跑 Qwen-32B

2025-12-12T11:07:35Z

推理速度有多快？御三家云 Ai 够满足我的一般需求，就是想自己玩玩？

构建适用于大模型微调的对话数据集

2025-12-12T09:08:24Z

大模型微调一般使用的是 json ，jsonl 或 parquet 格式存储的对话数据集，我看了一些公开的数据集，都是问答对形式的对话数据集，结构化的文本数据。

我的疑问是，构建上千条甚至上万条这种对话数据，一般使用的工具是什么？传统的数据标注，是用一些数据标注工具为每一条数据添加标记（这里面一般不能修改原始数据），这些对话数据，显然是需要能自己构建和修改的（或者让模型生成回答，人工审核和编辑），直接编辑 json 或 jsonl 文件看起来不太现实，因为它们不会对"\n"这种转义符进行转义，所以如果文本很长，看起来就是一行很长很长的文本，直接在 VSCode 里查看和编辑很吃力也不够直观（你们可以尝试下载一些公开的数据集然后在 VSCode 或其他文本编辑器打开就知道了）

我看到很多说明如何使用这些数据集进行训练的文章或教程，但很少有讨论关于如何从零开始构建这些数据集的方法，甚至似乎没有一个很好的编辑工具可以随时查看和修改对话数据。还可以延伸到多人协作的问题，仅靠一个人完全审核和修改上千至上万条对话数据，这工作量也是很大的，一般需要多人协作，那这个工具还得能支持多人协作才可以。

我之前尝试了 Doccano 和 Label Studio ，不知道是我设置有问题还是操作有问题，我发现这些标注工具都是为 NLP 任务设计的，而不是为 LLM 对话数据设计的，并不能很好满足这种场景。

请教 PRO 6000 96G 选择什么模型部署

2025-12-07T20:44:50Z

96G 显存下，选择哪个模型以及哪种量化效果比较好

各位 AI 大佬，请教一下私有化部署 AI 模型的问题?

2025-12-03T06:47:32Z

各位 AI 大佬，有个些问题想请教一下：公司现在想做 AI 方面的一些使用，肯定不会训练，只是私有化部署一些现成的开源模型，现在主要的工作可能是，分析 PDF, WORD ，图片，Excel 等格式的文件，提取里面的信息，做一些分析，比如财务指标，标书中的一些关键信息查重等,自己感觉工作不多，但可能文件比较大，比如标书有时可能几千页，但一般情况下就 200 页左右。因为资料要求保密，所以只能做私有些部署。人数不多，也不会太频繁使用。
我现在使用过豆包之类的工具，其它的 AI 方面都不会。现在有以下的问题：
1. 要达到一般豆包之类的这些功能的 70%，不要太差劲，现在的那些开源模型能做到？一般要多少参数及位数？
2. 要达到 1 的要求买什么主机及显卡，对显存要求如何？ AMD HX395 之类的主机能达到吗？如果不行，买 5090 显卡，还是一些 AI 工作站的 A1000-A4000 之类的显卡？显存多大合适?显存不够的话，以后可以通过多个显卡来扩展吗？
因为是新手，所以问题比较基础，在网上也没有搜索到比较合适的答案，希望能得到一些指导，谢谢各位 AI 大佬！

折腾了一晚上大模型，索然无味

2025-11-19T15:08:11Z

买的新显卡 5060 凑合能跑 7B 的推理大模型，发现有一个叫 LM STUDIO 的软件可以直接下载大模型并且运行推理，在尝试了各大厂开源的大模型，发现也就那样，没啥特别的使用场景，而且还不能联网搜索，你们玩 ai 大模型的到底都在玩啥啊？有点好奇

2052 年了，求推荐一个可本地部署的 ai 程序员可学习自己“训练”的内容？

2025-11-15T01:58:38Z

如本地部署后，专攻一个语言和一个项目，可有效果的 ai 程序员帮手，有吗？🙏

现在本地部署 LLM 的话是不是性价比最高的是多卡 5060Ti 16GB？

2025-11-14T09:51:58Z

考虑到 5090D 的极高售价，Dv2 版显存还缩水了
除了 AutoDL 这种网站租卡之外，
16GB 的 5060Ti 大概 3000 一块，是不是叠加 2 块或者 4 块，只要机箱和 PCIE 通道支持，就算是最性价比的玩法了？
有没有大佬给些建议？

NAS 上有几千首歌，有没有 LLM 智能推荐歌曲的？

2025-11-12T05:12:57Z

本来一直在线听歌的，前几天无聊去网盘拖了几十个 G 的 “合集” 到 NAS

然后傻眼了，这玩意不整理，只能一首一首人肉加❤️ 标记喜欢，听一会儿就厌烦了只能不停的下一首。。

有没有本地化的智能歌曲推荐引擎？

根据曲子风格，语言，流派等区分过滤？

还是去“刮削” 根据歌手、词曲作者，创作背景年代等进一步综合推荐？

偶尔听一点古典，对于一些熟悉的 OP 还需要精确到哪个乐团哪个场次才过瘾。

btw 去重也是个麻烦事， .mp3 文件 ID3 参差不齐，不能直接根据 MD5 去重。得看歌曲本身是否重复

这些问题有没有一揽子媒体管理方案？

私有化部署 LLM 及 LVM 选型方案意见收集

2025-11-07T01:30:02Z

兄弟们，我们公司买了 4 张 A100.现在准备部署一个 LLM 和一个 LVM 。
目前考虑
LLM:qwen3 30B ；
LVM：qwen3-vl-32B-Instruct

不知道大伙们有没有更好的建议

需求：主要还是做知识库，智能客服问答，以及 OCR 的功能

在 n8n 中使用 Ollama 的本地 LLM 模型

2025-11-06T15:25:52Z

纯 CPU 跑还是有点吃力呀，有 GPU 云就好了😭 https://blog.dejavu.moe/posts/try-n8n-automation-with-ollama/

经过我一个多月的测试，我发现本地部署的 qwen3-vl-8b 比 qwen3-8b 在新闻和游戏名词等翻译上面更有优势

2025-11-04T03:22:25Z

图中最后两条是 qwen3-vl-8b 翻译的，基本已经接近母语直接阅读的翻译水平。
gemma3-4b ，qwen3-8b ，gpt-oss-20b 都达不到这个水平

我模仿 nanochat 全栈 llm 流程, 在 8 x H100 芯片训练了 500m 参数的 llm, 以下感悟

2025-11-04T02:18:35Z

花费了 8w 个 token, 110$的 gpu 服务器成本(一般时间花在 debug 上，一半时间训练)

感受是 gpu 价格及其贵，代码出现 1 个 bug = 10min debug -> 至少 1.2$花销

bug 出现频率高: python 容易写出语法/变量名错误，超参数填的的不对会导致 gpu 计算错误，cuda 和 pytorch 版本问题也会导致出错

总结就是:

1. 犯错的代价是严重的，务必用小批量数据测试代码是否写的正确

2. ai 基建大概率不是泡沫

以上 gpu 是租的便宜的小厂商的，主流云服务价格翻倍

deepseek 如何本地部署啊.

2025-11-03T07:41:13Z

我现在下了 ollama,现在卡在下载那个 deepseek-r1:8b 模型上.

我的机场好像不行.下不动.下了一会儿就断了.

所以我想要有什么镜像什么的.

根据 deepseek 搜到的设置 $env:OLLAMA_HOST="mirror.ollama.ai:11434" 也不行.

你们是怎么下载的呢?

寻求自训练可部署在安卓端的推理模型解决方案

2025-11-03T03:04:38Z

我有一款个人安卓 app[记牌器]，小有盈利。技术方案为 yolo + onnxruntime ，使用体验：稳，快，准。目前想自行训练数据搞出一个可部署在安卓 app 中的推理模型，比如实时提示上家或下家剩哪些牌的概率等场景。就是我给模型一些 Prompt ，想让模型给出结果。请问目前有什么解决方案吗？

2080ti 22g 有什么效果还可以的 i2v 项目推荐

2025-10-30T17:14:18Z

之前 comfyui 跑 wan2.1 跑了几分钟显存占用特别大，还黑屏了。今天想挑个不是特别占显存的玩玩，看到 framepack 效果还可以。于是立马开始下载整合包，下了两个多钟头，开始运行了才发现 framepack 不支持 20x 。 4060ti 已经在购物车了（想问问各位这块老魔改卡还有什么好用的 i2v 项目吗？

试着把 grok 做的个人量化投资工具接入了 gemini 3.0 测试模型，强大得可怕

2025-10-15T01:59:30Z

之前的旧贴 t/1162282?p=1#reply20

现在挖掘机接入了最强的 Gemini 3.0 测试版本模型。大家可以试试效果，很震撼。👇 https://mastersgo.cc

挖掘词，来自 x 的帖子。

是的，稀土比的是制造业基础设施比稀土更夸张的是钨，这张牌还没打，垄断般的存在，全球 56% 稀土是工业制造的维生素，特朗普芯片把中国整急了，中国就长臂管辖美国的军工制造关键中国现在被美国制裁麻了，死猪不怕开水烫了 😂

然后把这个观点放到挖掘机里面执行，效果如下：

[

10 万条记录, 我应该选择什么 Embedding 模型和向量数据库呢

2025-10-14T03:50:46Z

想要在本地服务器上跑开源模型, 这样能省一点钱, 不过如果云上 API 的效果比较好的话, 在云上也是可以的

我对这方面不是很了解, 希望各位给出指导意见

家用 AI 开发机， GPU 在“魔改 4090 48G”和“等 5090 32G”之间纠结，求大佬们给点建议！

2025-10-10T01:48:41Z

实验室有卡，但是要排队，很多开发和测试不方便（租卡迁数据更不方便）。计划配一台家用的 AI 开发机，主要是跑 7B-32B 的 LLM 。因为住在租的房子里，所以对噪音和散热比较敏感。目前预算先上一张卡，未来可能升级双卡。现在对 GPU 的选择非常纠结，想听听大家的意见。

一、GPU 选择：核心纠结点

选项 A：魔改版 RTX 4090 48GB

优点：显存巨大 (48GB) 多卡兼容性：wsl2 下似乎可以多卡？只需要消费级主板？顾虑：散热/噪音：涡扇版据说噪音巨大，不适合家用。可能要三风扇或水冷版。水冷长期可靠性（漏液风险）没底。质保风险：没有官方质保，完全依赖店铺。看到有人炸缸，店铺进行了更换，但需要提供温度记录之类。

选项 B：RTX 5090 32GB

优点：性能更强：下一代架构，核心性能肯定提升巨大。家用友好：散热和噪音控制肯定比魔改方案好，适合家庭环境。顾虑：显存稍小 (32GB) 兼容性：看到有说法是“老模型可能用不了” 多卡兼容性：wsl2 下好像完全无法兼容多卡。且需要服务器级主板

我想问的问题：

为了处理 32B 模型，48GB 显存的优势是否大到值得去承担魔改卡的散热、噪音和质保风险？
有没有用过这类魔改大显存卡的兄弟，能分享一下实际的稳定性和使用体验吗？
后续希望可以直接在原机器上直接加卡，拓展成双卡。最好是 win 下能用，实在不行就换 ubuntu 系统。这种情况下 5090 和 4090 改哪个合适一点？

二、主板考量：未来可能升级双卡

想问的问题：

如果未来要上双卡（无论是两张 4090 还是 5090 ），主板选择上有什么关键点？
我看到一个说法是“5090 双卡需要两个 PCIe 5.0 插槽”，这个是必须的吗？还是说带宽足够的 PCIe 4.0 主板（比如能支持双 x8 模式）就够用了？
除了带宽，主要是不是应该关注两根 PCIe x16 插槽之间的物理空间，以保证两张卡的散热？

感谢各位的宝贵时间和建议！

本地部署了大模型如何有效利用？

2025-09-28T15:27:22Z

我是 amd7h12 （ 64h128c ）+30902+128gb8 用 ktransformers 跑满血版 deepseek-r1 很卡，现在用 llama.cpp 双卡跑 seed-oss-32b-q4

LLM 调用 MCP 的机制到底是什么？为什么有些 MCP 安装了却不调用？

2025-09-28T15:09:19Z

最近在折腾 Claude Code / Gemini CLI 的时候遇到个问题：我装了一个 MCP （比如 chrome devtools MCP: https://developer.chrome.com/blog/chrome-devtools-mcp ），但是 LLM 在使用时经常表现得好像根本不知道有这个 MCP 存在。

比如：

我发给它一个 URL ，让它用 MCP 打开，它却完全当普通问题回答。
我明确告诉它“请用 MCP 调用”，它依然不执行。
只有当我把所有 MCP 工具列表打印出来，再复制贴给它，它才会勉强调用一下。

所以就有点疑惑：LLM 调用 MCP 的“标准”到底是什么？是单纯靠 prompt 吗？还是 CLI/IDE 会把工具列表注入到上下文里？为什么有的任务明明 MCP 能做，它就是不用？是 prompt 不够明确，还是模型的工具调用策略比较保守？在 Claude Code / Gemini CLI 里，是否有配置能让 MCP 工具列表自动注入上下文？不然感觉每次都要手动提醒它“你有这些工具”。

大模型本地部署显存计算的问题

2025-09-28T08:19:15Z

如题，大佬们有没有什么工具或者网站，可以计算部署各类开源大模型的显存大小

web search MCP 推荐

2025-09-18T01:57:10Z

希望可以有一个本地部署提供 sse 的 MCP
如果有提供 server 的话，希望是免费的。

在 github 上找了一个，但是部署之后搜索结果全是不相关的，找了一些 server 都要付费。

AI 本地化部署的方式

2025-09-12T06:09:24Z

最近在尝试本地化部署 AI ，用了 ollama+dify ，只是简单的试用了下，感觉还行，能完全在离线环境安装使用。

想问问老哥们的方式有哪些，我都想试试对比一下

如果想训练一个类似于智谱的模型大概得耗费多少钱？

2025-09-11T09:38:15Z

特别想知道如何自己去训练这种类似的编程模型，且只提供给公司内部 12 个人使用
并发并不大的情况下需要耗资多少钱呢
有没有兄弟知道或者正在弄

大模型上下文工程实践指南-第 3 章：提示词技术

2025-09-09T12:36:10Z

ce101 连载第三章来了，讲提示词技术相关的内容

全书：

https://ce101.ifuryst.com

也可以订阅 substack ，这样每一章发布的时候都会发到你的邮箱，方便习惯 newsletter 的人阅读：

https://ifuryst.substack.com/p/3

或者通过公众号接收阅读：

https://mp.weixin.qq.com/s/xA8jCRs67Uirhgyh7WMWOw

大语言模型中规模和模型大小的关系？

2025-09-05T02:02:07Z

我发现一个奇怪的现象，规模和模型大小似乎并不是完全正相关。

以 https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF 中的 4bit 模型为例：

IQ4_XS 16.4 GB
Q4_K_S 17.5 GB
IQ4_NL 17.3 GB
Q4_0 17.4 GB
Q4_1 19.2 GB
Q4_K_M 18.6 GB
Q4_K_XL 17.7 GB

整体趋势上确实是规模越大，模型大小越大，但比如 Q4_K_XL 就比 Q4_K_M 更小，这是什么原因导致的？

这个所谓的模型规模，他代表的是什么含义呢？

想自己本地跑大模型，学习大模型，做一些微调等操作，目前看到一款小主机在预算内， CPU AMD Ryzen Al Max+ 395，不知道这套配置是否适合用来学习大模型跑大模型，有没有懂的兄弟可以给点建议。

2025-09-04T13:25:51Z

CPU：AMD Ryzen Al Max+ 395 处理器(16 核心 32 线程，最大睿频 5.1GHz ，三级缓存 64MB)
显卡：AMD Radeon 8060S Graphics 40CUs
系统盘：M.2 2280 PCle4.0 x4(最大 4TB)*1
存储盘：M.2 2280 PCle4.0 x4(最大 4TB)*1
内存：128GB(16GB*8) LPDDR5x 8000MT/s （最大可分配 96GB 给显存）
接口：AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
无线网络：WIFI7 MT7925; 蓝牙 5.4

怎样部署 ai 大模型然后训练他

2025-09-03T08:51:52Z

本地电脑，用数据库训练

有人实际部署过 GPT-OSS-20b 么？需要什么配置能跑得比较流畅？

2025-09-01T10:12:41Z

做萌翻翻译的时候，想用来本地部署做语言检测，AI 翻译和 AI 词典都可能用到，传统的库都不够准确，如果是多语言的话。

批了 100 万预算让我负责搭建行业知识库大模型, 但是目前还没有思路

2025-08-27T02:11:40Z

我们公司有国内某个垂直领域最全面的文档和文献, 上面想要根据这些资源来基于大模型构建一个行业知识库型问答系统, 先自己内部用, 然后再看看能不能直接打包卖方案给别的公司. 前期 POC 阶段, 用的 RAGFlow 和本地运行 deepseek-r1:14b, 但是效果并不算太好, 但是上面坚持要搞, 所以来问问目前有没有什么更好的方案.

目前预算是够运行满血版 deepseek-r1, 但是瓶颈出现在 RAG 的召回阶段, 并且本身这些文档对于向量化来说质量不算太好, 有很多图表. 所以是否需要专门雇人来将这些文档制作成大模型可用的数据集并微调模型, 然后再使用工作流的形式处理问答会比较好呢 ?

有没有好用的本地翻译模型？

2025-08-21T11:19:45Z

想本地搭一个翻译服务，试了以下两个，一言难尽，质量还不如谷歌在线翻译。

https://github.com/argosopentech/argos-translate

https://github.com/winstxnhdw/nllb-api

求一个好用的！先谢谢了！