V2EX w568w
 w568w's recent timeline updates
w568w

w568w

V2EX member #415660, joined on 2019-05-26 08:16:51 +08:00
Today's activity rank 717
3 G 70 S 89 B
w568w's recent replies
2h 46m ago
Replied to a topic by Danswerme Claude Opus 4.8 真的好难用!
再补充个我遇到几次的 bug:模型有时会输出一大堆 tool calls ,但是不输出 finish 。于是从 API 角度来说,响应一直在进行,不给客户端返回结果的机会,模型就拿不到执行命令的结果。

而 Opus 4.8 会出现幻觉,认为自己拿到了空白输出,于是就能看到这种奇观:

================
(前略)

$ grep -R xxx ./

thinking: 奇怪,grep 没有返回任何结果,让我测试 Bash 工具是否正常。

$ ls -l .

$ echo ok

$ echo ====probing====

$ printf "yes\n"

$ echo PROBING_OK

thinking: 依然没有任何输出,Bash 工具可能存在问题。我需要向用户解释当前的工具状况。
@YaNanGe > 其实也就是恢复出厂设置

恢复出厂设置,那更好办了呀,MDM 就是为这个场景设计的。

恢复出厂设置后,在首次配置页面连接 ADB ,执行一个命令把自己的应用设置成 Device Owner ,之后这个应用就具有接近 root 级别的权限了。可以获取真实 IMEI 、拿到硬件序列号、真实 MAC 地址,还能配置跨恢复出厂设置的自定义标识符。这不是完美符合需求了么。
10h 7m ago
Replied to a topic by frank1256 Google Gemini Gemini 学生有人掉了吗
提示 5 月 25 日前必须验证,但刚才看了一眼还是 Pro ,图片生成也都可以正常用
没点进来之前,我以为是 NTFS 或 BTRFS 那种透明压缩呢。
Cryptomator ; gocryptfs
有 1000 台机器,经常刷机,然后你们又没有 root 权限?那你们是怎么刷机的?还有不 root 刷机的办法?

如果你指的是「正常使用中不向用户暴露 root 权限」,刷机时写一个特权应用就行了,获取 IMEI/MEID 或向 persist 分区写数据 都可以。
@lesismal > curl 这个项目用来做实验,无法代表现实世界中的绝大项目,所以他即使是用 mythos 与其他几个模型对比,也是不能作为靠谱结论的,因为实验方法本身不正确

所有的单例测试都可以被认为是「不完整」「不典型」的:这个项目热度高、找出来漏洞少,你可以说它本身维护得很好、所以结果不典型;那个项目业务性强、找出来漏洞多,我也可以说都是大厂 KPI 赶工产物、所以结果没有代表性。

唯一可靠的办法是 Anthropic 开放出来,各家企业、组织在自己的项目上试用一遍,但显然这一点目前是不现实的,因为它只开放给少数组织使用。

> 但是,相比于 curl 之父用 curl 做实验的错误方式,我更偏向于那些大厂和 anthropic 之间竟然能为了不破坏世界安全、达成协议封闭使用,因为资本通常是用脚投票的

相比于一个大型 Project Leader 和一群可能只会 vibe 的 CEOs ,我还是更相信 technical head 。另外资本是可以利益交换的,否则按照国内资本的走向,华为一定是全世界最强的计算卡制造商吧。考虑到目前没几家公司出来为 Mythos 用数据背书说明如何如何颠覆性,又如何判断这不是资本的造神游戏呢?

扯远了。就事论事,我不认为现阶段可以下什么最终「结论」。正如你倾向于相信资本背书,我倾向于现在业界对此事 overreact 。关于「达成协议封闭使用」,我有个更简单的猜测:模型太大或 harness 太重,算力没法 scale 上去,没有资源支持做足够的 safety alignment ,所以只能小范围测。

> 如果你认为 curl 可以用来实验,那 Knuth 老爷子的 LaTex 是不是也可以用来测试?结果也一样适用?我要测试一把锤子是不是够好用,用玻璃做实验、敲碎了,和用钢板做实验、敲不碎对比,难道实验方法、实验工具不重要吗?

正因为重要,所以需要大量不同项目的 case reports 。如果有一大批项目证明/证伪了 curl 项目的测试结论,展现出了 Mythos 的颠覆性/平庸性,那我自然会相信的。这是「科学的方法、流程,站在局外的角度」。

更进一步,我要问:为什么 Mythos 在 Curl 上表现不尽人意?是他们使用了错误的 Harness ?难道是 Curl 本身太完美了(这是不成立的,Curl 最近一年都爆出了几次安全漏洞)?以及 Mythos 如何比现有的 Opus 等公开模型表现好?漏洞检出率提升了多少?为什么假阳性率如此高( 4 in 5 )?

至少我会对官方宣称的闭门测试结果打上问号。毕竟我见过的「为了刷榜而暗改 benchmark 的 AI 公司」比「为了反对 AI 而伪造实验结果的 Project Lead 」要多得多。

> 我反对的,单纯就是 curl 之父不严谨的测试工具和方法。

而我想表达的也仅仅是回答楼主的问题:「有大佬实际用过」,Mythos 并没有「那么牛逼」。看来在观点上并没有根本性的冲突啊。
@shyrock2026 > 挺难理解的

读原文即可:This is only natural of course since the first tools we ran had many more and easier bugs to find. As we have fixed issues along the way, finding new ones are slowly becoming harder. Additionally, a bug can be small or big so it’s not always fair to just compare numbers.

作者并没有想用这个说明什么。
@lesismal
> 他的结论来源的基础就不合理,也就是他的观点不合理

我觉得是你随意扩大了对其观点的解释。这是原话:Any project that has not scanned their source code with AI powered tooling will likely find huge number of flaws, bugs and possible vulnerabilities with this new generation of tools. Mythos will, and so will many of the others.

curl 作者想要说明的是,Mythos 本身并没有比其他模型强多少。他所说的噱头是指 "The whole world seemed to lose its marbles. Is this the end of the world as we know it?",或者说「 Mythos 颠覆性地超越了此前所有模型,并且将会引起业界巨大震动」。

他批判的是「 Mythos 强得离谱」这个观点,并没有说「 Mythos 没有提升」「 Mythos 很弱」或「 Mythos 是很一般的模型」。说人话就是要给这个 hype 降温,而不是彻底反对整个观点。这就是我为什么引用来回答楼主的问题:「 Mythos 真的那么"牛逼"么?」

至于说「 curl 作为一个高度精良的项目,拿来做实验不合理」,这就更没道理了。一方面是 Anthropic 的封闭模式导致目前客观上没有办法在「各种语言的 web 服务,还有各种企业级,乱七八糟的系统」上进行有效的评测;另一方面是 Mythos 如果想要证明自己是「颠覆性的强」,「能够在 curl 上找出高危漏洞」自然是一个充分条件,好马配好鞍。如果只是用一般的项目扫描,那现有的模型也可以做到类似的效果,只不过受限于应用 AI 的能力、技术水平、人力成本或意识形态等乱七八糟的原因,没人去做罢了。而 curl 作者用自己的项目验证了「 Mythos 并不能在顶尖开源项目中找出高威胁安全漏洞」,说明其能力并没有炒作中那么颠覆,逻辑是闭环的。
@msg7086 「有 2051 个主机需要用 ssh 管理」确实是比较罕见的需求,除了专门做渗透测试,我确实没见过有啥工作会需要很多「其他公司的跳板机」,而且还需要频繁切换访问的。

就我所见,我身边绝大部分人(包括运维)需要管理的机器都没有超过 100 台。超过这个量级的,都用堡垒机或 Web 工具管理集群了,也不太需要记录 ssh 配置。我刚看了下我自己的,只有 60 个 hosts 不到,一页屏幕就能显示完。

不过你说的「给不同主机设置颜色、字体、分组」这个确实 sounds interesting 。我的机器数量没有那么多,如果需要快速选择某台机器,我会直接用 atuin + 键入 "ssh" 来筛选最近最多使用的主机。
About     Help     Advertise     Blog     API     FAQ     Solana     3258 Online   Highest 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 40ms UTC 12:43 PVG 20:43 LAX 05:43 JFK 08:43
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86