
写了个东西,开源了:sightflow.dev (代码会在本周同步在 GitHub ,同步在网站上)
一句话:给大模型装眼睛和手。它能自己打开微信、企业微信、WhatsApp ,像人一样看界面、读消息、打字回复。
不是 API 套壳因为这几个平台根本没给开发者开放可用的 API 。
核心方案:
最难的部分(视觉执行层)我已经啃完了,代码已开源。上层留了一个本地 Skill Server ,你只需要写业务逻辑(比如自动客诉、销售跟进、群回复),不用碰底层。
适用场景:
为什么搞这个? 因为全球 5000 万+ 企业用 WhatsApp Business ,中国 1200 万+ 企业微信用户,但官方接口要么没有,要么贵得离谱。AI Agent 想落地到最赚钱的业务场景,绕不开这些平台。
现状:
有场景的开发者欢迎 clone 下来跑一跑,也欢迎讨论。
1 MoozLee 10 天前 关注下,可以在 rpa 数据采集中使用吗 |
2 partner666 10 天前 能把我打副本吗 |
3 510908220 10 天前 看起来很有意思,体验体验 |
4 xialaoban 10 天前 识别速度能做到打游戏的话! |
5 cairnechen 10 天前 怎么解决模型视觉识别的坐标漂移的啊? opus4.6 视觉识别 800×600 的图片都会缩放 官方说的 1580px 根本做不到 |
6 haoxuexiaoyao 10 天前 网址呢 |
7 v1 10 天前 但官方接口要么没有,要么贵得离谱 你猜猜能撑多久不封号? |
8 Ghostsss 9 天前 视觉应该是后面发展的一个方向。不过识别 定位 理解 执行 这一串流程,我到现在都没有完全走通,期待 |
9 Ghostsss 8 天前 非常不错的思路,使用归一化坐标,从来没想过的方向。 |
10 jacsice OP |
16 cairnechen 7 天前 @jacsice op 你有用通用模型试过这套流程吗? |
17 caoyang5689 7 天前 npm error command git --no-replace-objects ls-remote ssh://[email protected]/shiflow2023/robotjs.git npm error [email protected]: Permission denied (publickey). 这个依赖没放开,win 可以推一个安装包到 git 不 |
18 510908220 7 天前 @cairnechen #16 npm error An unknown git error occurred npm error command git --no-replace-objects ls-remote ssh://[email protected]/shiflow2023/robotjs.git npm error [email protected]: Permission denied (publickey). npm error fatal: Could not read from remote repository. |
19 jacsice OP @cairnechen 跑过,能正常运行的 |