@
lesismal > curl 这个项目用来做实验,无法代表现实世界中的绝大项目,所以他即使是用 mythos 与其他几个模型对比,也是不能作为靠谱结论的,因为实验方法本身不正确
所有的单例测试都可以被认为是「不完整」「不典型」的:这个项目热度高、找出来漏洞少,你可以说它本身维护得很好、所以结果不典型;那个项目业务性强、找出来漏洞多,我也可以说都是大厂 KPI 赶工产物、所以结果没有代表性。
唯一可靠的办法是 Anthropic 开放出来,各家企业、组织在自己的项目上试用一遍,但显然这一点目前是不现实的,因为它只开放给少数组织使用。
> 但是,相比于 curl 之父用 curl 做实验的错误方式,我更偏向于那些大厂和 anthropic 之间竟然能为了不破坏世界安全、达成协议封闭使用,因为资本通常是用脚投票的
相比于一个大型 Project Leader 和一群可能只会 vibe 的 CEOs ,我还是更相信 technical head 。另外资本是可以利益交换的,否则按照国内资本的走向,华为一定是全世界最强的计算卡制造商吧。考虑到目前没几家公司出来为 Mythos 用数据背书说明如何如何颠覆性,又如何判断这不是资本的造神游戏呢?
扯远了。就事论事,我不认为现阶段可以下什么最终「结论」。正如你倾向于相信资本背书,我倾向于现在业界对此事 overreact 。关于「达成协议封闭使用」,我有个更简单的猜测:模型太大或 harness 太重,算力没法 scale 上去,没有资源支持做足够的 safety alignment ,所以只能小范围测。
> 如果你认为 curl 可以用来实验,那 Knuth 老爷子的 LaTex 是不是也可以用来测试?结果也一样适用?我要测试一把锤子是不是够好用,用玻璃做实验、敲碎了,和用钢板做实验、敲不碎对比,难道实验方法、实验工具不重要吗?
正因为重要,所以需要大量不同项目的 case reports 。如果有一大批项目证明/证伪了 curl 项目的测试结论,展现出了 Mythos 的颠覆性/平庸性,那我自然会相信的。这是「科学的方法、流程,站在局外的角度」。
更进一步,我要问:为什么 Mythos 在 Curl 上表现不尽人意?是他们使用了错误的 Harness ?难道是 Curl 本身太完美了(这是不成立的,Curl 最近一年都爆出了几次安全漏洞)?以及 Mythos 如何比现有的 Opus 等公开模型表现好?漏洞检出率提升了多少?为什么假阳性率如此高( 4 in 5 )?
至少我会对官方宣称的闭门测试结果打上问号。毕竟我见过的「为了刷榜而暗改 benchmark 的 AI 公司」比「为了反对 AI 而伪造实验结果的 Project Lead 」要多得多。
> 我反对的,单纯就是 curl 之父不严谨的测试工具和方法。
而我想表达的也仅仅是回答楼主的问题:「有大佬实际用过」,Mythos 并没有「那么牛逼」。看来在观点上并没有根本性的冲突啊。