似乎很火,但不知道效果如何
都用于什么方面呢?爬虫?
如果搞一个 app use 会有人用吗
![]() | 1 BingoW 14 小时 36 分钟前 之前用过,效果一般。现在用 codex 配合 chrome Devtools mcp ,效果挺不错的。你自己研究搞搞可以的,想商用赚钱就算了,因为大厂出新产品太快了,你细细打磨一年的产品,人家看到了觉得不错,分分钟出个替代品。 |
2 sacuba 13 小时 51 分钟前 还有 nana browser ,都是反应太慢了,得有特定场景然后针对性微调模型之后才可用。 |
![]() | 3 ygweric 13 小时 47 分钟前 我研究过源码,写的很精妙。 用处主要是:智能助力、UI 测试,这样子成本可以和应届生的工资比较便宜很多。 爬虫不可能,非常慢,而且 token 的图片识别还是非常贵的,不划算。 |
4 yejjgo 13 小时 16 分钟前 最开始尝试用来结合大模型做自动化测试,效果不稳定,后来换成生成自动化脚本再使用的方式还挺不错 |
![]() | 6 cz5424 12 小时 16 分钟前 一般用来让 ai 调试网页进行 debug |
7 coefu 11 小时 18 分钟前 底层实现是用的 playwright ,只是把人看到的 web 页面上的 物件 利用 LLM 对话 映射到 playwright 里的组件,做的就是中间这层转换。实际效果不会太好。 |
![]() | 8 gongym 10 小时 26 分钟前 说到无头浏览器,我发现了这个好像很牛 https://github.com/lightpanda-io/browser |
![]() | 9 GiantHard 7 小时 8 分钟前 我试了 playwright-mcp 跟 chrome-devtools-mcp ,主要场景是用 claude code 帮我执行 UI 测试,这俩 mcp 主要用 Accessbility API 给 LLM 描述页面的状态,在 playwright-mcp 中,这个功能叫 snapshot ;而现有的系统在可访问性方面做的不太好,以至于 GLM 4.5/Claude Sonnet 4 都会被很简单 UI 交互卡住,例如,滚动 Antd 4 Tree 组件的虚拟列表,我手动截图页面让 LLM 识别的话,LLM 都能知道应该用滚轮事件向下滚动,但如果只提供 Snapshot 的话,这些模型会被卡住很久并最终撂挑子。所以个人感觉在 UI 测试的场景中,还是基于视觉( screenshot )的方案更优。 最近再调研的时候,发现 Google 整了一个新的 Computer Use 模型,能够基于截图跟浏览器交互,看演示视频的效果还不错,但是限定只能用 gemini-2.5 的一个实验性版本。 |