我给 AI 测了次“基因”,发现它也爱磨洋工 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
dengsidi4ai

我给 AI 测了次“基因”,发现它也爱磨洋工

  •  
  •   dengsidi4ai 18 天前 490 次点击
    最近在折腾 DunCrew (我那款本地跑的 AI Agent )时,我攒了 300 多条真实的任务记录。本来只是想抠门省点 Token 钱,结果分析完发现,AI 犯蠢的行为模式简直跟人类上班摸鱼如出一辙。

    我把 Agent 的行为简化成四种“基本动作”:看(探索)、干(执行)、想(规划)、查(验证)。连起来看,每个任务就像一段 DNA 序列。

    1. 它是怎么把你的 Token 烧掉的?
    通过数据模型分析,我抓住了几个“现行犯”:

    反复横跳( P-X-P 模式): 这种最致命。AI 先想一下,去翻翻文件,回来又想一下……就是不动手。一旦陷入这种“想了看,看了想”的死循环,任务成功率直接暴跌 10%。

    迷之自信( E→V 缺失): 只有 2% 的情况下,AI 跑完代码会去检查结果。绝大多数时候是“写完就跑”,根本不看程序报错没,这是典型的系统性“心大”。

    想太多( P-ratio 过高): 数据证明,“过度思考”是失败的征兆。如果一个任务里 AI 都在自我反思、反复规划,那这活儿基本就交代了,它是真的在原地踏步。

    2. 解决办法:给 AI 装个“防沉迷”开关
    我做了一个叫 Governor 的拦截器。它完全不费 Token ,原理简单粗暴:盯着 AI 的动作序列看。

    看到它连续翻文件夹(探索过度),直接喊停。

    看到它刚运行完命令想溜,加一个轻轻的干预:“喂,检查一下结果再走!”

    疗效显著:成功率从 88% 提到了 94%,最重要的是,Token 成本直接砍掉了一半(-44%)。换到 SWE-agent 轨迹上测,这些规律依然准得惊人。

    分析工具已经开源了:

    工具包:github.com/FatBy/base-sequence-toolkit

    更多细节看这里:duncrew.com

    大家在搞 Agent 避坑时,还有什么奇招能治这种“无效循环”吗?欢迎交流!
    目前尚无回复
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2840 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 09:37 PVG 17:37 LAX 02:37 JFK 05:37
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86