V2EX coefu
coefu

coefu

V2EX member #616381, joined on 2023-02-28 17:15:35 +08:00
Today's activity rank 25358
Per coefu's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
coefu's recent replies
1 ,开源 70B 以下参数的 moe 逻辑能力比 dense 差太多了。

层宽和层深之间有个甜点位,不同参数量的甜点位又不同。总体来看,那几个大的 moe ,active 的 expert 层数应该都要搞到 40 ~ 60 ,在宽度上做取舍。

gemma4 E4B 有 42 层,比 qwen3.5 9B 的 32 层 更深,按理来说,逻辑能力应该更好,但是受限于总参数量导致的宽度窄,表征能力不行,所以更容易在逻辑推理的起始位就跑偏,导致整个推理完全无法收敛。这点,通过中等数学的奥赛题可以验证。就算是 gemma4 E4B 横向增加 experts + router ,把总参数也堆起来,依然也无法解决问题。

2 ,dense 只需要在原始架构上达到了甜点位,横向+experts + router ,依然很能打。如果这种架构做层 plug-in 模式,更有搞头。总体来看,在 linear attention 这条路线上来看 qwen3.6 27B 已经是甜点位了。在纯 transformer 路线上来看 gemma4 31B 似乎也到了甜点位。如果可以搞一个 plug-in 架构,类似 TTT 模式,那真的就是开源福音。
先在 window 7 指定的版本里 搞定 docker ,然后在外面把所有依赖都封装进 docker 。
以前都说 LLM 是推理下一个字符,所以有可能算错 10+11 这种最基本的计算题。

你说是就是?这个因果是你自己想当然定义的?先定义了一个错的 A ,反推出一个正确的 B 。
10w ,我可以弄。
5 days ago
Replied to a topic by KJH 程序员 Doris 增量数据刷新方案
加他们群问。
6 days ago
Replied to a topic by YanSeven 投资 关于股票游戏的疑问
这就是被收割的对象啊 ,没他们亏,怎么有别人赚?
另外,更多的是认知灵感先验,很多人以为是数学为先,恰恰没领悟到真谛。很多真正的架构,都是灵感迸发在前面,为什么起作用,都是数学后验。

残差结构,并不是先在数学上验证有效,而是先用起来有效,后续补上的数学验证。就是灵感的迸发,搞那么个结构看看是否有效。

同样的 Hinton 2022 年的 FF 网络,也是灵感在前面,后面数学上验证。

符号主义就是喜欢在数学上精雕细琢,把 梯度计算优化到极致,也不如一个新范式不再需要梯度计算 就能起作用。但是后者需要的是 在交叉领域里迸发的顿悟。

细节重要吗?当然,但是当下,细节可以交给 Gemini/ChatGPT 。
你之前起点的雄心壮志是值得肯定的,但是后续的方式方法又有点儿钻牛角尖了。

LLM 模型架构这块所有你目之所及,能伸手就摘到的果实,都被摘完了,这就是你钻的牛角尖。

你的目的是在推理的工程架构优化上找点突破,但是那块领域,本身就是一亩三分地,犁了又犁,锄头都快抡散架了也挖不出什么好东西。于是试图回到第一性原理的角度搞点突破,但是钻到了被犁的更烂的地。

LLM 这块,现在又回到了当年 符号主义的那拨人的时代,在上面精雕细琢。在别人的范式下搞,学界是上班,工业界也是上班,做点事拿点钱嘛,不寒颤。

真正的突破是范式创新,你要是能走出 反向传播,transformer 的这些显学窠臼,或许能有一番作为。上等人立志,但是也要警惕志大才疏。
另外,东方财富这种没有什么实质生产力的,你看看它的票,每天什么交易量。先有点 金融常识吧。
痴心妄想。

首先,数据源你就搞不到。别的都不用说了。没有资质,1000w 你也拿不到。
About     Help     Advertise     Blog     API     FAQ     Solana     1447 Online   Highest 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 13ms UTC 17:05 PVG 01:05 LAX 10:05 JFK 13:05
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86