
做过 RPA 或者爬虫的兄弟都知道,最痛苦的不是写脚本,而是维护。前端稍微改个 class 名,或者弹窗位置变一下,脚本直接暴毙。
最近琢磨了个新路子,与其写死代码,不如让 AI 看着我做一遍。
所以我搞了这个项目 Exogram 。
核心逻辑:
录制: 你正常操作一遍业务(比如在若依后台查数据)。
蒸馏: 它是把你的操作“翻译”成自然语言逻辑(“点击个代表‘查询’的蓝色按钮,如果有验证码就暂停”)。
回放: 下次执行时,Agent 是带着“脑子”去找元素的,而不是死记坐标。即使 UI 变了,只要语义没变,它就能搞定。
现状: 目前是 MVP 版本(最小可行性产品),基于 browser-use 改造。代码还比较粗糙,但在复杂的后台系统上已经能跑通了。
项目地址: [https://github.com/qingshanyuluo/exogram] (README 里有个 Demo video ,四倍速,可以看到它思考的过程)
主要想验证下这个思路,感兴趣的大佬给个 Star 或者提个 PR ,轻喷!