自己的玩具项目,增加了查看网页、搜索功能。
但是现在遇到一个问题,如果我想更进一步,对网页的元素进行控制,比如自动操作 dom ,实现自动化操作,这个怎么做到呢,感觉仅仅通过 LLM 做不到
2 connecting OP @mkroen 原理好像有点复杂 嗨,想自己搓一个轮子练习一下,有没有比较简单的方式呢 |
3 connecting OP @mkroen 因为我这边实现的目标也是不同的,我是通过修改 chromium c++实现的,目标是会调用浏览器可以进行人工干预等功能。 |
4 skallz 66 天前 我记得之前就有 ai rpa 了,做的事情就和你说的一样,但是个人感觉不是特别靠谱,ai 有幻觉,网站语义化做的也不一定很好,两个不稳定因素相加就更不稳定了 |
5 connecting OP @skallz 通过 llm 语义,我也感觉有点牵强。好奇,browser-use 它靠什么保证正确呢。。 |
![]() | 6 moefishtang 66 天前 ChatGPT 最近出的 agent 功能好像就是干这个的 |
![]() | 7 maocat 66 天前 via Android playwright/mcp |
![]() | 8 blubzz 66 天前 还是依赖大模型本身的能力 可以看这个 https://github.com/hangwin/mcp-chrome/blob/master/README_zh.md |
![]() | 9 wjx0912 66 天前 |
10 connecting OP 感谢各位大佬推荐,回头好好研究下。 突然有个想法,是不是一定得通过视觉才能保证通用性呢。文字和语义毕竟和最终的 ui 有很大的不同。 |
11 zheermao 66 天前 自己做推荐微软的 OmniParser, 思路是直接检测视觉元素, 转成文本描述给 LLM, 感觉是更通用的方案, 但是也很吃 LLM 本身的能力 |
![]() | 12 feiniu 66 天前 browser-use 不能保证操作的准确性;特别是当页面比较复杂的时候,准确率很低 |
![]() | 13 hidemyself 66 天前 Midscene |
14 connecting OP @feiniu 懂了,没有银弹 |
15 connecting OP @maocat Playwright MCP 介绍里面有句话: “Fast and lightweight. Uses Playwright's accessibility tree, not pixel-based input.” 这个应该是个好的思路。利用 accessibility 的功能来降低难度。 |
![]() | 16 pota 66 天前 https://github.com/hangwin/mcp-chrome 这个插件的功能可以,但是具体的还是得看 llm 本身了 |
![]() | 17 hafuhafu 66 天前 MCP Puppeteer 或者 Playwright 。 我用 Cheery Studio 玩过,大概就是可以自动填表单或者开网页之类的自动化操作,不过那会儿 Cheery Studio 刚上相关功能,有点 bug 就没继续玩了。 |
![]() | 18 konakona 66 天前 可以尝试用 LLM 写 cypress.io (或其他 simulator driver ,具体一点就是 playwright )感觉可行一些。 |
19 kamilic 66 天前 最近在调研一个叫 nanobrowser 的玩意儿,应该是你要的吧 |
![]() | 20 Heimo 66 天前 ![]() |
21 connecting OP @Heimo 感谢提供信息,我今晚就试试你说的这个 aria 树,看能不能搞个低配版的出来看看效果 |