看一遍,然后替你上场。
Understudy 是一个可教学的桌面 Agent。它像人类同事一样操作你的电脑,统一使用 GUI、浏览器、Shell、文件系统与消息通道;你示范一次,它学习意图、记住成功路径,并逐步找到更快的执行路线。
看 Understudy 如何在一个 Agent 会话中同时操作桌面应用、浏览器和终端。
以上视频经过加速处理。完整原速视频: Google Drive
这次 Showcase demo 生成出来的已发布 skill 产物放在 examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md, 可以直接查看最终产物。
Understudy 的重点不是“能不能点按钮”,而是把通用桌面执行、从演示学习、记忆沉淀和路径升级放进同一条 Agent runtime 里。
一次任务可以先网页检索,再运行本地命令,再切到原生桌面应用点击提交,最后通过消息通道把结果发出去。不是多个自动化脚本拼接,而是单一会话里的统一选路。
录的是视频和语义事件,学的是意图与工作流。系统会做场景检测、事件聚类、关键帧抽取、证据包分析,再生成 teach draft 与可发布的 SKILL.md。
GUI 是万能兜底,但不是长期终点。Understudy 允许任务从 GUI 起步,随后在验证通过的前提下逐步升级到浏览器、CLI 或 API 路径,避免永远走最慢的一条路。
这一部分只写当前文档里已经明确描述的能力,不把未来路线写成既成事实。
从截图、HiDPI 归一化、目标定位、点击点稳定化,到复杂模式下的模拟叠加验证和动作后截图校验,已经形成完整的 GUI 执行纪律。
`/teach start`、`/teach stop`、`/teach confirm`、`/teach validate`、`/teach publish` 已经形成产品接口,能把一次桌面操作演示整理成任务卡与技能文件。
仓库里已经具备 daemon、chat、agent、dashboard、webchat、channels、schedule 等入口,说明它目标是一个可持续运行的本地 Agent 系统,而不是一次性脚本。
Understudy 的产品叙事很清楚:先能做,再学会做,再记住怎么做,然后越来越快,最后才谈主动执行。
看、点、输、拖、滚、验证。任何有 GUI 的 macOS 软件都可以成为执行对象。
不录坐标,录证据。把一次示范提炼成任务卡、路线选择和可复用技能。
日常使用中自动识别重复工作,把成功路径固化为 workspace skill,不需要显式教学。
在 teach 的 prompt 和路线偏好里已经会推动任务走更快路径,虽然机制还比较简单,但这部分已经开始工作。
理解日常习惯、提出建议、在不打断用户的前提下完成常规任务。
这个设计是 Understudy 最重要的产品亮点之一:GUI 是普适起点,但不是唯一答案。
如果目标能力已经有直接工具或 API,就不应该绕回 GUI。毫秒级,最稳。
调用本地命令行、脚本和文件系统,避免图形界面重复劳动。
当 Web 页面是最自然入口时,用 Playwright 或浏览器 relay 控制站点流程。
任何有界面的应用都可被操作。这是 Understudy 能覆盖长尾软件与真实办公环境的基础。
这也是它和普通自动化脚本最大的区别:Planner 不是先决定“用哪个工具”,而是面向目标动态选路。一个任务可以查网页、读本地文件、点原生 App、再把结果发到消息通道里。
当前 README 推荐的路径是先启动 daemon,再通过终端或 dashboard 与系统交互。项目目前处于 Alpha,主力开发与测试环境是 macOS。