V2EX coefu 的所有回复第 1 页 / 共 58 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3 4 5 6 7 8 9 10 ... 58

5 小时 38 分钟前

回复了 hirasawayui 创建的主题程序员 1W 块 token 够让 AI 写一套用 JS 实现的股票行情模块（分时、k 线、自定义指标、通达信公式、盘口等），并且功能和交互上对标东方财富吗？

另外，东方财富这种没有什么实质生产力的，你看看它的票，每天什么交易量。先有点金融常识吧。

5 小时 39 分钟前

痴心妄想。

首先，数据源你就搞不到。别的都不用说了。没有资质，1000w 你也拿不到。

1 天前

回复了 davidyin 创建的主题 Local LLM 想折腾一个 AI 主机，请行家出手

@Nidhoggur 母鸡，我也没这资源跑过这种大模型啊。

2 天前

回复了 davidyin 创建的主题 Local LLM 想折腾一个 AI 主机，请行家出手

@davidyin #33 真正的行家来告诉你，2000$的方案。

amd epyc 单路 9004 12 通道 ddr5 主板，目前大概 4000 。12 通道全插满 4800 MT/s DDR5 内存时，12 个通道的总带宽约为 500GB/s 以上。使用更高频率（如 6400 MT/s ）的内存时，理论总带宽可达到约 614 GB/s 。几乎摸到了 hbm2 的边。关键是容量可伸缩。

ddr5 6400 16G 目前单条价格大概 700*12 ，8400

amd epyc 9124 cpu 目前大概 4000

总成本正好 2000$ 左右。

此时，你有 192G 内存（ Qwen3.5-122B-A10B ，这种都能跑），带宽 500 ～ 614G 左右，500G 的带宽足够让你跑 MOE ，20 ～ 25 token/s ，再加一块几百块的 16G hbm2 gpu ，完全够。

3 天前

回复了 h4nru1 创建的主题推广教你以「上下文信息密度」为第一性原理构建最强通用 Agent

你这么搞的适得其反，你这个也不是大家刚需的非 GA 不可，大把竞品。你逞一时嘴快，网上嘴炮赢了别人又如何？但是你这个项目，因为你盛气凌人的态度，把看法由你而引申到你的 GA ，恰恰起了反作用。本来中立的人，也会考虑考虑了。

别人蛐蛐你，你当然可以反击，如果只是生活区为了某个点嘴炮，输赢都是无所谓的。你带着目的来，这就不同了，你赢了输了，都和你宣传的 GA 隐性的关联上了。

我看了你的这些推广，没有去 GitHub 点 star ，也没有用 GA ，就不是智力正常的人了？

@h4nru1 #66

3 天前

回复了 h4nru1 创建的主题推广教你以「上下文信息密度」为第一性原理构建最强通用 Agent

@h4nru1 #22 这么狂？还好只是 top3 ，你要是 top2 ，那岂不是你现在导师都入不了你的眼了。

3 天前

回复了 shum02 创建的主题职场话题水硕读硕读得有点迷茫，求大佬给点人生意见

@shum02 #7 你自己想的很明白了，还要别人给你出歪点子让你动摇？看你性格，想来别人的建议你也是不会接受的。二十啷当岁，就是试错的时候，没必要瞻前顾后，该怎么样，会怎么样，命中自有定数的。

10 天前

回复了 alphabird 创建的主题分享创造一个希望能解决经济和就业的开源项目

活在自我臆想里的堂吉柯德。

4 月 30 日

回复了 babymonster 创建的主题 Local LLM 私有化部署大模型的“终点”是 Mac 还是 Nvidia？

我选 amd ，内存带宽都有。只是没钱买，有钱也买不到。

4 月 30 日

回复了 SilenceLL 创建的主题问与答有没有地方能看到 2000 年以前的卫星地图的，可能年纪大了想看看以前的样子

上了年纪就是这样，有怀旧情结了。谷歌地球最早可以到 2002 年的长沙，可能是湖南省最早的了。地级市大概在 2013 ～ 2014 最早。

4 月 30 日

回复了 diudiuu 创建的主题 Local LLM 自己做了一款在线 GPU 推理速度计算器 TPS Calculator

@diudiuu #8 太 tm 悲催了，我因为用错了电源线，把 amd mi50 的 hbm2 显存给烧了。以后坚决不买这种小众的东西了，电源线都找不到。还得是一分钱一分货。内存差价这种钱，果然还是赚不得。

4 月 29 日

回复了 KaiWuBOSS 创建的主题 Local LLM 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@KaiWuBOSS #23 甚至是异构模型，也是可以的，只是中间要搞转换。转换的这个事情，可能更简单一点。

4 月 29 日

回复了 KaiWuBOSS 创建的主题 Local LLM 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@KaiWuBOSS #23 我突然想起了 https://arxiv.org/abs/2511.20639 ，Latent Collaboration in Multi-Agent Systems

你可以用多个同源 9B 的模型，解决一些不确定性。

4 月 29 日

回复了 diudiuu 创建的主题 Local LLM 自己做了一款在线 GPU 推理速度计算器 TPS Calculator

@diudiuu #4 其实对于这些细节，我也是一知半解的，我没沉下去细究过。

我去年囤了几条内存，今年出手赚了点差价，换了一个 amd mi50 32G ，最近都在折腾它。哎，一分钱一分货，早知道加点钱搞 v100 32G 了，折腾的太麻烦了。把我之前的主力机主板都搞崩了，就很烦。

你做的这个事情，很好，我目前帮不到什么忙。

4 月 28 日

回复了 KaiWuBOSS 创建的主题 Local LLM 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@KaiWuBOSS #20 我的经验就是，不要一早就立一个宏大到一眼看不到头的 flag 。目标放的低一点，日拱一卒的去做，反而比一开始就冲锋，可能效果会更好。你一早就对标 cc ，那么期望值必然太高，各种达不到的预期会冲抵这份积极性。

cc 是大资本裹挟了一个超人才 team 逼出来的。它被动开源的部分，早就是它们内部的过去时了，你只看到了一个被动开源的中间态罢了，未必是最终形态，也未必是真正能持续有用的。search 的这部分，包括整个 harness ，从根源上是反着 the bitter lesson 来的，过往之谏让我对这些本身就很抵触，本质上和过去符号主义没什么区别。

你这份态度，我欣赏，我也不打消你的态度积极性，闯一闯，失败了，也未必是坏事。

search 只有花钱买 api ，这是市场选择。

你要做的这个事情，缝缝补补，总是差强人意的能用一下，但是对标 cc 这种云 api 的想法，可以先停一停。不如它，很正常。比它差一点，但是能用，也不是不可以。对标它，那是要融资了凑人才 team 做的事情，开源注定是做不成的一地鸡毛。

4 月 27 日

回复了 KaiWuBOSS 创建的主题 Local LLM 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@KaiWuBOSS #6 不比 10 年前的开源了。如果只是单体 application ，熟悉个把高级语言，也能参与。但是你这个是一个解决方案，里面涉及到的技能和知识点，不是 web 体系，有门槛的。你指望这些普通前后端围墙里的人，主动免费突破自己的知识壁垒，这是妄想。

而且你要做的这个事情，本身 top 厂商也没有完全解决。还在演化迭代中，随着模型本身能力的进化，harness 都快要成过去时了。虽然，我不看好 LLM 这波，但是我自己也有使用的需求，我也持续关注。但是，变化太快了，你可以这么理解，agentic 本身的鲁棒性一般，方法论迭代，时好时坏，benchmark 甚至都不能作为完整的验证依据。

这也是为什么市面上，迟迟没有人做。我 2024 年夏天的时候，langchain 就摸了一遍，去年开春的时候，llama.cpp 也摸了一遍，我这个摸，都是直接看源码的，当然，这是个人习惯，我看源码和看小说没什么区别。我为什么没做，因为，我看的太多了。我试图给 llama.cpp 找异构多机多卡的分布式并行推理的解决方案，想了几个月，并且还花点钱组了一个 10G 网络，但是最终，我发现是徒劳的。

比如，联网的问题，searxng ，如果你深度使用过就知道，就是个玩具（一则是它整合结果的算法，二则是 search 能识别有时候返回不相干结果）。不用钱买 search api ，都是玩具。
记忆这块，本身学界也没有什么好方案，论文出了一大堆，吹的比实际都好。至于 a ，o ，厂的技术，基本上都是人力财力堆出来的。开源完全无法媲美。

kvcache 的问题，在 gram 有限的开源环境中不可能解决，这是 0 day 原始问题，不是工程技术的问题，是原始架构的问题。唯一的方法，就是堆 gram 。

context 问题，和 kvcache 如出一辙。

有限 gram 的开源异构环境，没有通用解。

4 月 27 日

回复了 guanhui07 创建的主题程序员 2026 年还在用 jetbrain ide 来看代码

debug 神经网络模型，都是用 pycharm remote 到 gpu 的容器里，直接改了就跑结果。

要用到多 CPU core parallel ，就直接 goland remote 到多 cpu 的 container 里直接 build&run 。

4 月 26 日

回复了 mingtdlb 创建的主题 Local LLM 多台 GPU 之间怎么组网互联？

@makictos #23 有时间有精力，就多追一下业界最强。

Decoupled DiLoCo for Resilient Distributed Pre-training https://arxiv.org/html/2604.21428v1

4 月 26 日

回复了 KaiWuBOSS 创建的主题 Local LLM 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

哥们儿的态度，我很欣赏。

4 月 26 日

回复了 KaiWuBOSS 创建的主题 Local LLM 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@KaiWuBOSS #35 单机多卡 llama.cpp row 模式，对多卡是要做按比例 row split 的，如果 N 张卡都放不下整个，offload 到 cpu/mem 的部分，这之间怎么配比，你这个方案里没有。

比如，1 2080 11G ，1 3090 24G ，跑 unsloth/Qwen3.6-35B-A3B-GGUF Q8 ，38.5G ，多卡 parallel ，类似这种切分的解。

我阐述的问题是，N 不同的情况下，可能没有通用解。每个 N ，都是单独的。

1 2 3 4 5 6 7 8 9 10 ... 58