分析了 347 条 AI Agent 执行轨迹后,我们给 Agent 做了个"基因测序" - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
dengsidi4ai

分析了 347 条 AI Agent 执行轨迹后,我们给 Agent 做了个"基因测序"

  •  
  •   dengsidi4ai 19 天前 709 次点击
    最近在做 DunCrew (一个本地运行的 AI Agent 系统)的时候,积攒了 347 条真实的任务执行记录。本来想看看 Token 成本怎么优化,结果挖出来一些有意思的东西,顺手写了篇论文发了 arXiv 。核心思路: 类比 DNA 测序。把 Agent 每一步操作编码成四种"碱基"X (探索:读文件、搜索)、E (执行:写文件、跑命令)、P (规划:思考、反思)、V (验证:检查结果)。一个任务就变成一条碱基序列,比如 X-X-P-E-E-V-E ,然后用 n-gram 、马尔可夫转移矩阵这些经典方法去分析。几个硬数据:
    P-X-P 振荡是唯一显著的高危三元组:规划→探索→又规划,命中这个模式的任务成功率下降 10.4%。Agent 在"想做什么"和"去看看情况"之间反复横跳,就是不动手。
    E→V 转移概率只有 2.1%:Agent 执行完操作后几乎不验证结果。写完文件不检查、跑完命令不看输出,这是系统性缺陷。
    P-ratio 是最强的失败预测因子( r=-0.256, p<0.0001 ):一条序列里"规划"占比越高,任务越可能失败。Agent 过度思考约等于原地踏步。
    然后我们做了个东西叫 Governor:基于上面的发现做了一个序列级的"熔断器",不调用 LLM 、零额外成本,纯粹看碱基模式来干预。比如检测到连续探索就强制刹车,检测到执行后没验证就注入提示。部署前后对比( 101 条 vs 246 条):
    成功率:88.1% → 94.3%(+6.2%)
    平均 Token 消耗:275K → 154K (-44%)
    触发了规则的任务成功率反而最高( 96.4%),说明干预是正向的
    跨系统验证:为了排除"只在自己系统上有效"的疑虑,我们拿了 2000 条 SWE-agent 在 SWE-bench 上的公开轨迹,用同样的 XEPV 编码分析。结果:探索螺旋和 E→V 验证缺失这两个核心模式在 SWE-agent 上也复现了。
    论文和分析工具都会开源:
    论文:arXiv (链接待补充)
    工具包:github.com/FatBy/base-sequence-toolkit
    官网:duncrew.com
    做 Agent 的兄弟们有没有遇到过类似的问题?特别是 Agent 在死循环里烧 Token 的情况,有什么好的处理策略?
    目前尚无回复
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2652 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 10:34 PVG 18:34 LAX 03:34 JFK 06:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86