桌面 Agent
发一条消息,它就能查资料、生成文件、打开应用、交付结果。不用分步骤操作,不用来回切换工具。说一句话就行。
四个演示,展示 Understudy 的不同面向。
Agent 在一个本地运行时里完成网络调研、浏览器操控、技能调用,最终交付完整结果。不用分步骤操作,不用来回切换工具。说一句话就行。
在手机上通过 Telegram 发一条消息,Understudy 在你的 Mac 上将网页转换为 PDF,打开桌面版 Telegram,找到联系人并发送——全程 GUI 自动化。手机画面和电脑画面并排呈现。
演示一个任务——Understudy 看着你做,理解你的意图,然后发布一个可复用的技能。交互式精调生成的技能,再用自然语言调用。重放时 Agent 自动泛化:Google 图片搜索变成浏览器自动化,下载变成 shell 命令,Pixelmator Pro 仍用 GUI 操控。
六阶段 Pipeline:在 Chrome 浏览真实 App Store,通过 iPhone Mirroring 在真机上安装应用,自主探索从未见过的功能,在本地合成带旁白和字幕的评测视频,上传 YouTube,清理设备。中间阶段是真正的 Agentic:51 条质量门控规则引导 Agent,但它在陌生应用中自由导航,自主做出编辑判断。约一小时,零人工干预。
一个本地 Agent,能看屏幕、开应用、浏览网页、跑命令、发消息——全部在一条指令里完成。
发一条消息,它就能查资料、生成文件、打开应用、交付结果。不用分步骤操作,不用来回切换工具。说一句话就行。
在手机上通过 Telegram、Slack 等发一条消息,Understudy 就在你的 Mac 上工作,做完再把结果发回来。人不在电脑前也没关系。
Telegram、Slack、Discord、WhatsApp、Signal、LINE、iMessage、Web。用你已经在用的聊天工具来操控 Agent。
就像一个新同事慢慢成长——Understudy 从听指令开始,逐渐学会你的习惯,找到更好的做事方式。
不用订阅,不被绑定。在本地运行,数据完全可控,模型自己选。
MIT 协议,源码全部在 GitHub。可以自由查看、修改和贡献。
支持 Anthropic、OpenAI、Google、MiniMax 等。用你自己的 API Key,不需要额外订阅。
在你自己的电脑上运行。截图、录像、任务数据默认都存在本地。
目前在 macOS 上支持完整的原生 GUI 自动化。Linux 和 Windows 支持计划中,欢迎贡献。
通过 npm 安装,向导会带你完成配置。
五层能力,循序渐进。每一层都建立在前一层之上。