Local LLM way to explore https:https://cdn.v2ex.com/navatar/c8ed/21db/722_normal.png?m=1751736797 https:https://cdn.v2ex.com/navatar/c8ed/21db/722_large.png?m=1751736797 2025-12-31T02:38:14Z Copyright © 2010-2018, V2EX 讨论下自建内网 RAG 知识库和 AGENT 平台 tag:www.v2ex.com,2025-12-31:/t/1182339 2025-12-31T02:38:14Z 2025-12-31T02:38:14Z milestance member/milestance

1.传统知识库用基于 MARKDOWN 格式的 OUTLINE ,支持团队协作,单点登录,缺点是没有离线功能。
2.RAG 知识库平台和 AGENT 平台选用 FASTGPT ,没有用 DIFY ,感觉 DIFY 要重一点,也没用只聚焦于 RAG 的 MAXKB 。
1 ) LLM 用内网已经有的 QWEN 大模型
2 ) embedding 用本地的 m3e
3 ) rerank 模型也用本地的 bge rerank 模型
3.胶水准备用 N8N ,从 OUTLINE 把知识定期推送到 FASTGPT 。
4.最后是文档的问答模式准备用 NGINX 做拦截嵌入,在 OUTLINE 文档页面做个弹窗把上下文传到后端 FASTPGT 。 ]]>
使用 Nexa 提供的 SDK 在手机上运行端侧大模型 tag:www.v2ex.com,2025-12-29:/t/1181891 2025-12-29T04:47:35Z 2025-12-28T12:47:35Z 344457769 member/344457769 周末在家闲着没事,编译了一下
Nexa.ai 提供的 Android 项目 demo ,在小米 15 上面跑了一下他们的 OmniNeural-4B ,这是个多模态的大模型,图片识别和声音识别都还可以,中文也能听懂。参数量小,回复速度挺快的,没有详细测试大模型的能力,用英文对话看起来还行,中文对话或者长对话能力明显很弱,有时候会重复前面的对话内容。对端侧大模型感兴趣的可以玩玩这个,大家可以讨论一下端侧大模型现在可以有什么应用场景。

根据他们官方文档,NPU 支持需要高通骁龙 8 Gen 4 以上。

我这边从 HyperOS 的多任务界面看加载大模型以后内存减少了 5G 左右。

图片

Nexa Android SDK

Nexa Android Demo

]]> 想问问大家有没有搭建本地的 LLM,我对应用场景挺困惑的 tag:www.v2ex.com,2025-12-28:/t/1181775 2025-12-28T14:00:47Z 2025-12-29T04:05:27Z vtea member/vtea 现在大语言模型挺火,我平时用的都是在线的 chatgpt 、deepseek 之类。

最近看到 AMD AIMAX 395 什么的,我在想是否自己组一个,本地搭建一个蒸馏模型。

但除了隐私数据安全相关问题,像我这样普通人,也想不出本地应用场景的优势。

]]>
想学习下大模型,有什么论文网站推荐吗 tag:www.v2ex.com,2025-12-24:/t/1180823 2025-12-24T01:50:11Z 2025-12-24T01:59:22Z scottcheng member/scottcheng P.S. 学生党,想学习下自然语言与大模型,但是无从下口,想啃点高质量论文

]]>
Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题? tag:www.v2ex.com,2025-12-22:/t/1180462 2025-12-22T09:17:02Z 2025-12-22T12:10:09Z c3de3f21 member/c3de3f21 拿 编译原理(龙书)( 5.31 MB 大小) 举例子

Need

Quesiton

]]>
目前开源可以本地部署的模型有哪些? tag:www.v2ex.com,2025-12-21:/t/1180219 2025-12-21T04:53:16Z 2025-12-21T23:07:09Z microscopec member/microscopec 可以瑟瑟的,本地部署,要求 12G 内存以下,或者 16G 勉强上,可以本地部署的模型有哪些比较好用的?

]]>
V 友们,有没有推荐的本地台式机文生图的方案? tag:www.v2ex.com,2025-12-15:/t/1178884 2025-12-15T01:28:36Z 2025-12-16T00:56:06Z seerhu member/seerhu 大概介绍一下我的配置: 显卡:5060Ti 16G 内存:32G CPU:7500F

本地跑文生图听说也有别人二开封装好的,就是不知道目前哪个方案好玩一些。

]]>
想自己搞个量化投资模型,怎么解决训练资源的问题? tag:www.v2ex.com,2025-12-14:/t/1178845 2025-12-14T13:21:53Z 2025-12-15T10:22:38Z dddddddy member/dddddddy 如题,我自己有点机器学习的底子,好几年前也做过量化投资模型的训练,现在想自己捡回来玩玩。 但是手头没有机器,想自己配个训练机或者租个云 GPU 用来训练,配机器的话可以有个 3W 以内的预算吧,但最好后期可以进行拓展。 有没有 v 友有相关经验的,求给点推荐,我应该配个什么样的机器,还是说找哪一家的云 GPU 来使用 还有我平时工作比较忙,只有周末有时间进行开发和训练,如果是云 GPU 的话最好是可以按需付费

]]>
有人训过 DPO qwen image edit 吗?我怎么调参数都很奇怪 tag:www.v2ex.com,2025-12-13:/t/1178668 2025-12-13T05:42:09Z 2025-12-13T05:41:09Z huc2 member/huc2 代码参考的 flow grpo 中的 dpo 的代码和 DiffusionDPO ,但是怎么调参数训练都完全没效果,曲线基本都和下面一样

xx

]]>
5060ti16g 跑 Qwen-32B tag:www.v2ex.com,2025-12-12:/t/1178612 2025-12-12T11:07:35Z 2025-12-12T16:05:19Z mdcaqr member/mdcaqr 构建适用于大模型微调的对话数据集 tag:www.v2ex.com,2025-12-12:/t/1178581 2025-12-12T09:08:24Z 2025-12-12T12:44:57Z nakroy member/nakroy 大模型微调一般使用的是 json ,jsonl 或 parquet 格式存储的对话数据集,我看了一些公开的数据集,都是问答对形式的对话数据集,结构化的文本数据。

我的疑问是,构建上千条甚至上万条这种对话数据,一般使用的工具是什么?传统的数据标注,是用一些数据标注工具为每一条数据添加标记(这里面一般不能修改原始数据),这些对话数据,显然是需要能自己构建和修改的(或者让模型生成回答,人工审核和编辑),直接编辑 json 或 jsonl 文件看起来不太现实,因为它们不会对"\n"这种转义符进行转义,所以如果文本很长,看起来就是一行很长很长的文本,直接在 VSCode 里查看和编辑很吃力也不够直观(你们可以尝试下载一些公开的数据集然后在 VSCode 或其他文本编辑器打开就知道了)

我看到很多说明如何使用这些数据集进行训练的文章或教程,但很少有讨论关于如何从零开始构建这些数据集的方法,甚至似乎没有一个很好的编辑工具可以随时查看和修改对话数据。还可以延伸到多人协作的问题,仅靠一个人完全审核和修改上千至上万条对话数据,这工作量也是很大的,一般需要多人协作,那这个工具还得能支持多人协作才可以。

我之前尝试了 Doccano 和 Label Studio ,不知道是我设置有问题还是操作有问题,我发现这些标注工具都是为 NLP 任务设计的,而不是为 LLM 对话数据设计的,并不能很好满足这种场景。

]]>
请教 PRO 6000 96G 选择什么模型部署 tag:www.v2ex.com,2025-12-07:/t/1177434 2025-12-07T20:44:50Z 2025-12-07T21:42:50Z yuanbopang member/yuanbopang 96G 显存下,选择哪个模型以及哪种量化效果比较好

]]>
各位 AI 大佬,请教一下私有化部署 AI 模型的问题? tag:www.v2ex.com,2025-12-03:/t/1176637 2025-12-03T06:47:32Z 2025-12-04T06:49:09Z cnhongwei member/cnhongwei 我现在使用过豆包之类的工具,其它的 AI 方面都不会。现在有以下的问题:
1. 要达到一般豆包之类的这些功能的 70%,不要太差劲,现在的那些开源模型能做到?一般要多少参数及位数?
2. 要达到 1 的要求买什么主机及显卡,对显存要求如何? AMD HX395 之类的主机能达到吗?如果不行,买 5090 显卡,还是一些 AI 工作站的 A1000-A4000 之类的显卡?显存多大合适?显存不够的话,以后可以通过多个显卡来扩展吗?
因为是新手,所以问题比较基础,在网上也没有搜索到比较合适的答案,希望能得到一些指导,谢谢各位 AI 大佬! ]]>
折腾了一晚上大模型,索然无味 tag:www.v2ex.com,2025-11-19:/t/1173840 2025-11-19T15:08:11Z 2025-11-23T22:34:48Z crocoBaby member/crocoBaby 2052 年了,求推荐一个可本地部署的 ai 程序员 可学习自己“训练”的内容? tag:www.v2ex.com,2025-11-15:/t/1172947 2025-11-15T01:58:38Z 2025-11-15T06:26:14Z wxmomomowx member/wxmomomowx 现在本地部署 LLM 的话是不是性价比最高的是多卡 5060Ti 16GB? tag:www.v2ex.com,2025-11-14:/t/1172879 2025-11-14T09:51:58Z 2025-11-14T15:12:23Z 1014982466 member/1014982466 除了 AutoDL 这种网站租卡之外,
16GB 的 5060Ti 大概 3000 一块,是不是叠加 2 块或者 4 块,只要机箱和 PCIE 通道支持,就算是最性价比的玩法了?
有没有大佬给些建议? ]]>
NAS 上有几千首歌,有没有 LLM 智能推荐歌曲的 ? tag:www.v2ex.com,2025-11-12:/t/1172248 2025-11-12T05:12:57Z 2025-11-12T05:12:57Z tf2 member/tf2 本来一直在线听歌的,前几天无聊去网盘拖了几十个 G 的 “合集” 到 NAS

然后傻眼了,这玩意不整理,只能一首一首人肉加❤️ 标记喜欢,听一会儿就厌烦了只能不停的 下一首。。

有没有本地化的智能歌曲推荐引擎?

根据曲子风格,语言,流派等区分过滤?

还是去“刮削” 根据歌手、词曲作者,创作背景 年代 等进一步综合推荐?

偶尔听一点古典,对于一些熟悉的 OP 还需要精确到哪个乐团哪个场次才过瘾。

btw 去重也是个麻烦事, .mp3 文件 ID3 参差不齐,不能直接根据 MD5 去重。得看歌曲本身是否重复

这些问题有没有一揽子媒体管理方案?

]]>
私有化部署 LLM 及 LVM 选型方案意见收集 tag:www.v2ex.com,2025-11-07:/t/1171125 2025-11-07T01:30:02Z 2025-11-10T08:13:02Z Sh1xin member/Sh1xin 目前考虑
LLM:qwen3 30B ;
LVM:qwen3-vl-32B-Instruct

不知道大伙们有没有更好的建议

需求:主要还是做知识库,智能客服问答,以及 OCR 的功能 ]]>
在 n8n 中使用 Ollama 的本地 LLM 模型 tag:www.v2ex.com,2025-11-06:/t/1171090 2025-11-06T15:25:52Z 2025-11-11T01:52:25Z DejavuMoe member/DejavuMoe 纯 CPU 跑还是有点吃力呀,有 GPU 云就好了😭 https://blog.dejavu.moe/posts/try-n8n-automation-with-ollama/

]]>
经过我一个多月的测试,我发现本地部署的 qwen3-vl-8b 比 qwen3-8b 在新闻和游戏名词等翻译上面更有优势 tag:www.v2ex.com,2025-11-04:/t/1170381 2025-11-04T03:22:25Z 2025-11-10T21:20:33Z spike0100 member/spike0100

图中最后两条是 qwen3-vl-8b 翻译的,基本已经接近母语直接阅读的翻译水平。
gemma3-4b ,qwen3-8b ,gpt-oss-20b 都达不到这个水平 ]]>
我模仿 nanochat 全栈 llm 流程, 在 8 x H100 芯片训练了 500m 参数的 llm, 以下感悟 tag:www.v2ex.com,2025-11-04:/t/1170352 2025-11-04T02:18:35Z 2025-11-04T13:16:16Z wangshuo6 member/wangshuo6

花费了 8w 个 token, 110$的 gpu 服务器成本(一般时间花在 debug 上,一半时间训练)

感受是 gpu 价格及其贵,代码出现 1 个 bug = 10min debug -> 至少 1.2$花销

bug 出现频率高: python 容易写出语法/变量名错误,超参数填的的不对会导致 gpu 计算错误,cuda 和 pytorch 版本问题也会导致出错

总结就是:

1. 犯错的代价是严重的,务必用小批量数据测试代码是否写的正确

2. ai 基建大概率不是泡沫

以上 gpu 是租的便宜的小厂商的,主流云服务价格翻倍

]]>
deepseek 如何本地部署啊. tag:www.v2ex.com,2025-11-03:/t/1170209 2025-11-03T07:41:13Z 2025-11-03T00:17:36Z simple2025 member/simple2025 我现在下了 ollama,现在卡在下载那个 deepseek-r1:8b 模型上.

我的机场好像不行.下不动.下了一会儿就断了.

所以我想要有什么镜像什么的.

根据 deepseek 搜到的设置 $env:OLLAMA_HOST="mirror.ollama.ai:11434" 也不行.

你们是怎么下载的呢?

]]>
寻求自训练可部署在安卓端的推理模型解决方案 tag:www.v2ex.com,2025-11-03:/t/1170121 2025-11-03T03:04:38Z 2025-11-03T03:03:38Z 92Developer member/92Developer 我有一款个人安卓 app[记牌器],小有盈利。 技术方案为 yolo + onnxruntime ,使用体验:稳,快,准。 目前想自行训练数据搞出一个可部署在安卓 app 中的推理模型, 比如实时提示上家或下家剩哪些牌的概率等场景。 就是我给模型一些 Prompt ,想让模型给出结果。 请问目前有什么解决方案吗?

]]>
2080ti 22g 有什么效果还可以的 i2v 项目推荐 tag:www.v2ex.com,2025-10-30:/t/1169566 2025-10-30T17:14:18Z 2025-10-30T19:13:18Z bouts0309 member/bouts0309 之前 comfyui 跑 wan2.1 跑了几分钟显存占用特别大,还黑屏了。 今天想挑个不是特别占显存的玩玩,看到 framepack 效果还可以。于是立马开始下载整合包,下了两个多钟头,开始运行了才发现 framepack 不支持 20x 。 4060ti 已经在购物车了( 想问问各位这块老魔改卡还有什么好用的 i2v 项目吗?

]]>
试着把 grok 做的个人量化投资工具接入了 gemini 3.0 测试模型,强大得可怕 tag:www.v2ex.com,2025-10-15:/t/1165296 2025-10-15T01:59:30Z 2025-10-15T03:21:49Z mastergo member/mastergo 之前的旧贴 t/1162282?p=1#reply20

现在挖掘机接入了最强的 Gemini 3.0 测试版本模型。 大家可以试试效果,很震撼。👇 https://mastersgo.cc

挖掘词,来自 x 的帖子

是的,稀土比的是制造业基础设施 比稀土更夸张的是钨,这张牌还没打,垄断般的存在,全球 56% 稀土是工业制造的维生素,特朗普芯片把中国整急了,中国就长臂管辖美国的军工制造 关键中国现在被美国制裁麻了,死猪不怕开水烫了 😂

然后把这个观点放到挖掘机里面执行,效果如下:

[投资分析报告_report-2.png

]]>
10 万条记录, 我应该选择什么 Embedding 模型和向量数据库呢 tag:www.v2ex.com,2025-10-14:/t/1165094 2025-10-14T03:50:46Z 2025-10-14T05:51:00Z mythjava member/mythjava 想要在本地服务器上跑开源模型, 这样能省一点钱, 不过如果云上 API 的效果比较好的话, 在云上也是可以的

我对这方面不是很了解, 希望各位给出指导意见

]]>
家用 AI 开发机, GPU 在“魔改 4090 48G”和“等 5090 32G”之间纠结,求大佬们给点建议! tag:www.v2ex.com,2025-10-10:/t/1164069 2025-10-10T01:48:41Z 2025-10-28T23:27:34Z Saunak member/Saunak 实验室有卡,但是要排队,很多开发和测试不方便(租卡迁数据更不方便)。计划配一台家用的 AI 开发机,主要是跑 7B-32B 的 LLM 。因为住在租的房子里,所以对噪音和散热比较敏感。目前预算先上一张卡,未来可能升级双卡。现在对 GPU 的选择非常纠结,想听听大家的意见。

一、GPU 选择:核心纠结点

选项 A:魔改版 RTX 4090 48GB

优点: 显存巨大 (48GB) 多卡兼容性:wsl2 下似乎可以多卡?只需要消费级主板? 顾虑: 散热/噪音:涡扇版据说噪音巨大,不适合家用。可能要三风扇或水冷版。水冷长期可靠性(漏液风险)没底。 质保风险:没有官方质保,完全依赖店铺。看到有人炸缸,店铺进行了更换,但需要提供温度记录之类。

选项 B:RTX 5090 32GB

优点: 性能更强:下一代架构,核心性能肯定提升巨大。 家用友好:散热和噪音控制肯定比魔改方案好,适合家庭环境。 顾虑: 显存稍小 (32GB) 兼容性:看到有说法是“老模型可能用不了” 多卡兼容性:wsl2 下好像完全无法兼容多卡。且需要服务器级主板

我想问的问题:

  1. 为了处理 32B 模型,48GB 显存的优势是否大到值得去承担魔改卡的散热、噪音和质保风险?
  2. 有没有用过这类魔改大显存卡的兄弟,能分享一下实际的稳定性和使用体验吗?
  3. 后续希望可以直接在原机器上直接加卡,拓展成双卡。最好是 win 下能用,实在不行就换 ubuntu 系统。这种情况下 5090 和 4090 改哪个合适一点?

二、主板考量:未来可能升级双卡

想问的问题:

  1. 如果未来要上双卡(无论是两张 4090 还是 5090 ),主板选择上有什么关键点?
  2. 我看到一个说法是“5090 双卡需要两个 PCIe 5.0 插槽”,这个是必须的吗?还是说带宽足够的 PCIe 4.0 主板(比如能支持双 x8 模式)就够用了?
  3. 除了带宽,主要是不是应该关注两根 PCIe x16 插槽之间的物理空间,以保证两张卡的散热?

感谢各位的宝贵时间和建议!

]]>
本地部署了大模型如何有效利用? tag:www.v2ex.com,2025-09-28:/t/1162498 2025-09-28T15:27:22Z 2025-09-28T16:27:22Z ragnarok19 member/ragnarok19 我是 amd7h12 ( 64h128c )+30902+128gb8 用 ktransformers 跑满血版 deepseek-r1 很卡,现在用 llama.cpp 双卡跑 seed-oss-32b-q4

]]>
LLM 调用 MCP 的机制到底是什么?为什么有些 MCP 安装了却不调用? tag:www.v2ex.com,2025-09-28:/t/1162496 2025-09-28T15:09:19Z 2025-09-28T19:06:19Z bulldragon member/bulldragon 最近在折腾 Claude Code / Gemini CLI 的时候遇到个问题: 我装了一个 MCP (比如 chrome devtools MCP: https://developer.chrome.com/blog/chrome-devtools-mcp ),但是 LLM 在使用时经常表现得好像根本不知道有这个 MCP 存在。

比如:

所以就有点疑惑:LLM 调用 MCP 的“标准”到底是什么?是单纯靠 prompt 吗?还是 CLI/IDE 会把工具列表注入到上下文里?为什么有的任务明明 MCP 能做,它就是不用?是 prompt 不够明确,还是模型的工具调用策略比较保守?在 Claude Code / Gemini CLI 里,是否有配置能让 MCP 工具列表自动注入上下文?不然感觉每次都要手动提醒它“你有这些工具”。

]]>
大模型本地部署显存计算的问题 tag:www.v2ex.com,2025-09-28:/t/1162434 2025-09-28T08:19:15Z 2025-09-28T08:28:37Z Suinn member/Suinn 如题,大佬们有没有什么工具或者网站,可以计算部署各类开源大模型的显存大小

]]>
web search MCP 推荐 tag:www.v2ex.com,2025-09-18:/t/1160099 2025-09-18T01:57:10Z 2025-09-18T02:09:51Z faoisdjioga member/faoisdjioga
  • 希望可以有一个本地部署提供 sse 的 MCP

  • 如果有提供 server 的话,希望是免费的。

  • 在 github 上找了一个,但是部署之后搜索结果全是不相关的,找了一些 server 都要付费。

    ]]>
    AI 本地化部署的方式 tag:www.v2ex.com,2025-09-12:/t/1158786 2025-09-12T06:09:24Z 2025-09-26T13:06:23Z wenkgin member/wenkgin 最近在尝试本地化部署 AI ,用了 ollama+dify ,只是简单的试用了下,感觉还行,能完全在离线环境安装使用。

    想问问老哥们的方式有哪些,我都想试试对比一下

    ]]>
    如果想训练一个类似于智谱的模型 大概得耗费多少钱? tag:www.v2ex.com,2025-09-11:/t/1158616 2025-09-11T09:38:15Z 2025-09-11T13:33:32Z gotoschool member/gotoschool 并发并不大的情况下 需要耗资多少钱呢
    有没有兄弟 知道或者正在弄 ]]>
    大模型上下文工程实践指南-第 3 章:提示词技术 tag:www.v2ex.com,2025-09-09:/t/1158100 2025-09-09T12:36:10Z 2025-09-09T12:36:10Z IterX member/IterX ce101 连载第三章来了,讲提示词技术相关的内容

    全书:

    https://ce101.ifuryst.com

    也可以订阅 substack ,这样每一章发布的时候都会发到你的邮箱,方便习惯 newsletter 的人阅读:

    https://ifuryst.substack.com/p/3

    或者通过公众号接收阅读:

    https://mp.weixin.qq.com/s/xA8jCRs67Uirhgyh7WMWOw

    ]]>
    大语言模型中规模和模型大小的关系? tag:www.v2ex.com,2025-09-05:/t/1157240 2025-09-05T02:02:07Z 2025-09-05T04:29:29Z SSang member/SSang 我发现一个奇怪的现象,规模和模型大小似乎并不是完全正相关。

    https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF 中的 4bit 模型为例:

    整体趋势上确实是规模越大,模型大小越大,但比如 Q4_K_XL 就比 Q4_K_M 更小,这是什么原因导致的?

    这个所谓的模型规模,他代表的是什么含义呢?

    ]]>
    想自己本地跑大模型,学习大模型,做一些微调等操作,目前看到一款小主机在预算内, CPU AMD Ryzen Al Max+ 395,不知道这套配置是否适合用来学习大模型跑大模型,有没有懂的兄弟可以给点建议。 tag:www.v2ex.com,2025-09-04:/t/1157170 2025-09-04T13:25:51Z 2025-09-06T08:12:37Z hmbb member/hmbb 显卡:AMD Radeon 8060S Graphics 40CUs
    系统盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    存储盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    内存:128GB(16GB*8) LPDDR5x 8000MT/s (最大可分配 96GB 给显存)
    接口:AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
    无线网络:WIFI7 MT7925; 蓝牙 5.4 ]]>
    怎样部署 ai 大模型然后训练他 tag:www.v2ex.com,2025-09-03:/t/1156867 2025-09-03T08:51:52Z 2025-09-03T15:05:18Z eedh member/eedh 本地电脑,用数据库训练

    ]]>
    有人实际部署过 GPT-OSS-20b 么? 需要什么配置能跑得比较流畅? tag:www.v2ex.com,2025-09-01:/t/1156379 2025-09-01T10:12:41Z 2025-09-01T19:20:26Z totty member/totty 做萌翻翻译的时候,想用来本地部署做语言检测,AI 翻译和 AI 词典都可能用到,传统的库都不够准确,如果是多语言的话。

    ]]>
    批了 100 万预算让我负责搭建行业知识库大模型, 但是目前还没有思路 tag:www.v2ex.com,2025-08-27:/t/1155193 2025-08-27T02:11:40Z 2025-09-11T16:36:41Z sodayo member/sodayo 我们公司有国内某个垂直领域最全面的文档和文献, 上面想要根据这些资源来基于大模型构建一个行业知识库型问答系统, 先自己内部用, 然后再看看能不能直接打包卖方案给别的公司. 前期 POC 阶段, 用的 RAGFlow 和本地运行 deepseek-r1:14b, 但是效果并不算太好, 但是上面坚持要搞, 所以来问问目前有没有什么更好的方案.

    目前预算是够运行满血版 deepseek-r1, 但是瓶颈出现在 RAG 的召回阶段, 并且本身这些文档对于向量化来说质量不算太好, 有很多图表. 所以是否需要专门雇人来将这些文档制作成大模型可用的数据集并微调模型, 然后再使用工作流的形式处理问答会比较好呢 ?

    ]]>
    有没有好用的本地翻译模型? tag:www.v2ex.com,2025-08-21:/t/1154051 2025-08-21T11:19:45Z 2025-08-31T21:45:37Z importmeta member/importmeta 想本地搭一个翻译服务,试了以下两个,一言难尽,质量还不如谷歌在线翻译。

    https://github.com/argosopentech/argos-translate

    https://github.com/winstxnhdw/nllb-api

    求一个好用的!先谢谢了!

    ]]>
    AI ollama 运行的 qwen3:8b 如何关闭思考模式? tag:www.v2ex.com,2025-08-20:/t/1153748 2025-08-20T09:14:48Z 2025-08-23T08:58:35Z dunhanson member/dunhanson 最近在搞 n8n 工作流,结合 mcp playwright ,做网站监控

    但是消耗的 token 太多了,网站网页很多冗余的代码,一下就几万的 token 没了

    所以想着还是用下本地模型

    pVBLyUP.png

    ]]>
    转贴一个视频:绝大多数的视频都没能讲出 gpt-oss 系列模型的真正意义 tag:www.v2ex.com,2025-08-17:/t/1152934 2025-08-17T01:56:36Z 2025-08-17T01:56:36Z frankyzf member/frankyzf [绝大多数的视频都没能讲出 gpt-oss 系列模型的真正意义] https://www.bilibili.com/video/BV1cVYYzbEsm/?share_source=copy_web&vd_source=c1c15daae0a00e85bb2361587f21b9e6

    ]]>
    大模型什么样的速度是靠谱的 tag:www.v2ex.com,2025-08-06:/t/1150300 2025-08-06T02:57:23Z 2025-08-08T22:12:42Z guoguobaba member/guoguobaba 用了一台昇腾 910b 跑 qwen32b 的模型,

    一个 dify 知识库的回答,跑 LLM 用了 30s ,这个正常吗?手头没有 H100 这样 nb 的机器。

    https://i.imgur.com/N63dxld.jpg

    ]]>
    请问: 要部署本地 AI, 投喂 AI 知识库的话, 目前适合个人电脑的最佳方法是啥? tag:www.v2ex.com,2025-08-03:/t/1149553 2025-08-03T02:47:20Z 2025-08-03T12:12:32Z Lucy2025 member/Lucy2025 请问: 要部署本地 AI, 投喂 AI 知识库的话, 目前适合个人电脑的最佳方法是啥?

    要达到的效果是: 把代码仓库和个人知识库投喂到本地部署的 AI, 能实现在这些数据基础上做编程开发.

    谢谢

    ]]>
    有没有人尝试过用 ai 去整理自己的知识库 tag:www.v2ex.com,2025-08-02:/t/1149412 2025-08-02T00:05:44Z 2025-08-02T08:51:38Z rocloong member/rocloong 使用 dify 编写智能体的时候, 如何让 LLM 节点能够强制输出结构化输出 Schema tag:www.v2ex.com,2025-07-21:/t/1146529 2025-07-21T02:13:37Z 2025-07-20T10:13:37Z skyworker member/skyworker 目前在 dify 中,LLM 节点中,设置了结构化输出 Schema ,需要 LLM 能输出一个标准的文档

    { "properties": { "content": { "description": "输出内容 Markdown 文本", "type": "string" } }, "required": [ "content" ], "type": "object" }

    但是每次 LLM 输出结果都很玄学,有时候能根据要求输出,有时候没有输出。(有点像中医)

    有什么好的提示词,能够保证 LLM 按照要求输出结构化输出 Schema ?

    ]]>
    Grok 4 发布 tag:www.v2ex.com,2025-07-10:/t/1144234 2025-07-10T05:11:02Z 2025-07-12T22:51:45Z alanying member/alanying https://x.com/xai/status/1943158495588815072 ]]> 有人在本地跑模型吗? tag:www.v2ex.com,2025-07-08:/t/1143739 2025-07-08T06:33:48Z 2025-07-07T14:32:48Z lihuashan member/lihuashan 我最近在学习 AI ,想本地搭建调试。我前段时间刚买了一台二手 m3max 128G 内存 1T 硬盘,不知道行不行?

    ]]>
    目前哪个大模型适合本地部署用来纯翻译? tag:www.v2ex.com,2025-07-03:/t/1142882 2025-07-03T15:02:34Z 2025-07-19T03:55:40Z Noby member/Noby 目前用的 qwen2.5:3b 设置本地浏览器的沉浸式翻译插件搭配 ollma 翻译,但是我的 m2 性能可能有些不太行,翻译还是要等一会。现在国内的大模型应该也有比较适合翻译,并且比较轻量的模型了,大家有什么比较好的推荐吗?或者更好的方案实现网页翻译。

    ]]>
    我做了一个 Ollama JSONL 批量推理工具,除了 Ollama 还支持 Deepseek 等 OpenAI Style 兼容 API tag:www.v2ex.com,2025-06-23:/t/1140554 2025-06-23T17:22:55Z 2025-06-23T01:54:58Z mili100 member/mili100 你好啊,

    我最近在做模型微调时,需要对一些数据进行预处理和生成一些 DPO 使用 Rejected 的负面数据(虽然我后来才发现智谱的 GLM4-Flash 有提供免费的批量推理), 我很自然的想要使用 Ollama 上部署的 Qwen3 30B A3B ,但是意外的发现似乎还没有 Ollama 适用的 JSONL 批量推理工具。我总觉得它本应该存在,于是我就做了一个。

    https://github.com/mili-tan/Onllama.OllamaBatch

    当然使用起来也非常简单,如果你的 Ollama 在默认端口最简单的方法是只需要将你的 JSONL 重命名成 input.jsonl 丢到和程序同一个目录底下然后运行就可以了,当然记得把 JSONL 中的模型名称改成你需要的模型名称,或者用 --model qwen3:30b 参数来指定你的模型名称。还有记得参考 这里 配置一下并发( CPU 推理和混合推理是没有并发的,改了环境变量似乎也没用)。 更多的用法可以参考 --help 中的帮助。

    顺带一提因为 Deepseek 的夜间半价,所以我也做了 OpenAI Style API 的支持,--use-oai --oai-url=https://api.deepseek.com/v1/chat/completions --oai-sk=sk-balabalabala 使用起来就像这样。另外因为我个人的偏好默认的输出格式是直接将助手的回答添加到消息列表中,如果你希望获得与 OpenAI 相似的包含result的结果你也可以使用 --oai-output 来指定。另外针对一些厂商的并发和 RPM 限制我也添加了一些对应的参数你也可以参考下 --help 来看看有没有合适的。

    ]]>
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86