
根据他们官方文档,NPU 支持需要高通骁龙 8 Gen 4 以上。
我这边从 HyperOS 的多任务界面看加载大模型以后内存减少了 5G 左右。

最近看到 AMD AIMAX 395 什么的,我在想是否自己组一个,本地搭建一个蒸馏模型。
但除了隐私数据安全相关问题,像我这样普通人,也想不出本地应用场景的优势。
]]>本地跑文生图听说也有别人二开封装好的,就是不知道目前哪个方案好玩一些。
]]>
我的疑问是,构建上千条甚至上万条这种对话数据,一般使用的工具是什么?传统的数据标注,是用一些数据标注工具为每一条数据添加标记(这里面一般不能修改原始数据),这些对话数据,显然是需要能自己构建和修改的(或者让模型生成回答,人工审核和编辑),直接编辑 json 或 jsonl 文件看起来不太现实,因为它们不会对"\n"这种转义符进行转义,所以如果文本很长,看起来就是一行很长很长的文本,直接在 VSCode 里查看和编辑很吃力也不够直观(你们可以尝试下载一些公开的数据集然后在 VSCode 或其他文本编辑器打开就知道了)
我看到很多说明如何使用这些数据集进行训练的文章或教程,但很少有讨论关于如何从零开始构建这些数据集的方法,甚至似乎没有一个很好的编辑工具可以随时查看和修改对话数据。还可以延伸到多人协作的问题,仅靠一个人完全审核和修改上千至上万条对话数据,这工作量也是很大的,一般需要多人协作,那这个工具还得能支持多人协作才可以。
我之前尝试了 Doccano 和 Label Studio ,不知道是我设置有问题还是操作有问题,我发现这些标注工具都是为 NLP 任务设计的,而不是为 LLM 对话数据设计的,并不能很好满足这种场景。
]]>然后傻眼了,这玩意不整理,只能一首一首人肉加❤️ 标记喜欢,听一会儿就厌烦了只能不停的 下一首。。
有没有本地化的智能歌曲推荐引擎?
根据曲子风格,语言,流派等区分过滤?
还是去“刮削” 根据歌手、词曲作者,创作背景 年代 等进一步综合推荐?
偶尔听一点古典,对于一些熟悉的 OP 还需要精确到哪个乐团哪个场次才过瘾。
btw 去重也是个麻烦事, .mp3 文件 ID3 参差不齐,不能直接根据 MD5 去重。得看歌曲本身是否重复
这些问题有没有一揽子媒体管理方案?
]]>
花费了 8w 个 token, 110$的 gpu 服务器成本(一般时间花在 debug 上,一半时间训练)
感受是 gpu 价格及其贵,代码出现 1 个 bug = 10min debug -> 至少 1.2$花销
bug 出现频率高: python 容易写出语法/变量名错误,超参数填的的不对会导致 gpu 计算错误,cuda 和 pytorch 版本问题也会导致出错
总结就是:
1. 犯错的代价是严重的,务必用小批量数据测试代码是否写的正确
2. ai 基建大概率不是泡沫
以上 gpu 是租的便宜的小厂商的,主流云服务价格翻倍

我的机场好像不行.下不动.下了一会儿就断了.
所以我想要有什么镜像什么的.
根据 deepseek 搜到的设置 $env:OLLAMA_HOST="mirror.ollama.ai:11434" 也不行.
你们是怎么下载的呢?
]]>现在挖掘机接入了最强的 Gemini 3.0 测试版本模型。 大家可以试试效果,很震撼。👇 https://mastersgo.cc
挖掘词,来自 x 的帖子。
是的,稀土比的是制造业基础设施 比稀土更夸张的是钨,这张牌还没打,垄断般的存在,全球 56% 稀土是工业制造的维生素,特朗普芯片把中国整急了,中国就长臂管辖美国的军工制造 关键中国现在被美国制裁麻了,死猪不怕开水烫了 😂
然后把这个观点放到挖掘机里面执行,效果如下:
[
我对这方面不是很了解, 希望各位给出指导意见
]]>选项 A:魔改版 RTX 4090 48GB
优点: 显存巨大 (48GB) 多卡兼容性:wsl2 下似乎可以多卡?只需要消费级主板? 顾虑: 散热/噪音:涡扇版据说噪音巨大,不适合家用。可能要三风扇或水冷版。水冷长期可靠性(漏液风险)没底。 质保风险:没有官方质保,完全依赖店铺。看到有人炸缸,店铺进行了更换,但需要提供温度记录之类。
选项 B:RTX 5090 32GB
优点: 性能更强:下一代架构,核心性能肯定提升巨大。 家用友好:散热和噪音控制肯定比魔改方案好,适合家庭环境。 顾虑: 显存稍小 (32GB) 兼容性:看到有说法是“老模型可能用不了” 多卡兼容性:wsl2 下好像完全无法兼容多卡。且需要服务器级主板
我想问的问题:
想问的问题:
感谢各位的宝贵时间和建议!
]]>比如:
我发给它一个 URL ,让它用 MCP 打开,它却完全当普通问题回答。
我明确告诉它“请用 MCP 调用”,它依然不执行。
只有当我把所有 MCP 工具列表打印出来,再复制贴给它,它才会勉强调用一下。
所以就有点疑惑:LLM 调用 MCP 的“标准”到底是什么?是单纯靠 prompt 吗?还是 CLI/IDE 会把工具列表注入到上下文里?为什么有的任务明明 MCP 能做,它就是不用?是 prompt 不够明确,还是模型的工具调用策略比较保守?在 Claude Code / Gemini CLI 里,是否有配置能让 MCP 工具列表自动注入上下文?不然感觉每次都要手动提醒它“你有这些工具”。
]]>希望可以有一个本地部署提供 sse 的 MCP
如果有提供 server 的话,希望是免费的。
在 github 上找了一个,但是部署之后搜索结果全是不相关的,找了一些 server 都要付费。
]]>想问问老哥们的方式有哪些,我都想试试对比一下
]]>全书:
也可以订阅 substack ,这样每一章发布的时候都会发到你的邮箱,方便习惯 newsletter 的人阅读:
https://ifuryst.substack.com/p/3
或者通过公众号接收阅读:
]]>以 https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF 中的 4bit 模型为例:
整体趋势上确实是规模越大,模型大小越大,但比如 Q4_K_XL 就比 Q4_K_M 更小,这是什么原因导致的?
这个所谓的模型规模,他代表的是什么含义呢?
]]>目前预算是够运行满血版 deepseek-r1, 但是瓶颈出现在 RAG 的召回阶段, 并且本身这些文档对于向量化来说质量不算太好, 有很多图表. 所以是否需要专门雇人来将这些文档制作成大模型可用的数据集并微调模型, 然后再使用工作流的形式处理问答会比较好呢 ?
]]>https://github.com/argosopentech/argos-translate
https://github.com/winstxnhdw/nllb-api
求一个好用的!先谢谢了!
]]>但是消耗的 token 太多了,网站网页很多冗余的代码,一下就几万的 token 没了
所以想着还是用下本地模型
]]>一个 dify 知识库的回答,跑 LLM 用了 30s ,这个正常吗?手头没有 H100 这样 nb 的机器。
]]>要达到的效果是: 把代码仓库和个人知识库投喂到本地部署的 AI, 能实现在这些数据基础上做编程开发.
谢谢
]]>{ "properties": { "content": { "description": "输出内容 Markdown 文本", "type": "string" } }, "required": [ "content" ], "type": "object" }
但是每次 LLM 输出结果都很玄学,有时候能根据要求输出,有时候没有输出。(有点像中医)
有什么好的提示词,能够保证 LLM 按照要求输出结构化输出 Schema ?
]]>我最近在做模型微调时,需要对一些数据进行预处理和生成一些 DPO 使用 Rejected 的负面数据(虽然我后来才发现智谱的 GLM4-Flash 有提供免费的批量推理), 我很自然的想要使用 Ollama 上部署的 Qwen3 30B A3B ,但是意外的发现似乎还没有 Ollama 适用的 JSONL 批量推理工具。我总觉得它本应该存在,于是我就做了一个。
https://github.com/mili-tan/Onllama.OllamaBatch
当然使用起来也非常简单,如果你的 Ollama 在默认端口最简单的方法是只需要将你的 JSONL 重命名成 input.jsonl 丢到和程序同一个目录底下然后运行就可以了,当然记得把 JSONL 中的模型名称改成你需要的模型名称,或者用 --model qwen3:30b 参数来指定你的模型名称。还有记得参考 这里 配置一下并发( CPU 推理和混合推理是没有并发的,改了环境变量似乎也没用)。 更多的用法可以参考 --help 中的帮助。
顺带一提因为 Deepseek 的夜间半价,所以我也做了 OpenAI Style API 的支持,--use-oai --oai-url=https://api.deepseek.com/v1/chat/completions --oai-sk=sk-balabalabala 使用起来就像这样。另外因为我个人的偏好默认的输出格式是直接将助手的回答添加到消息列表中,如果你希望获得与 OpenAI 相似的包含result的结果你也可以使用 --oai-output 来指定。另外针对一些厂商的并发和 RPM 限制我也添加了一些对应的参数你也可以参考下 --help 来看看有没有合适的。