Understudy
Understudy
开源免费 · 自带模型和 API Key

一句话,操作你的整台电脑

Understudy 是一个开源的本地 AI Agent。给它一个指令,它就能帮你查资料、浏览网页、操作桌面应用、管理文件,还能通过你常用的聊天工具回复你。教它一次,它就学会。用得越多,它就越快。

操作任意应用 浏览、点击、输入,像你一样使用电脑
跟你学 演示一次,它就记住了
越用越好 自动找到更快的方式完成任务

看看它能做什么

四个演示,展示 Understudy 的不同面向。

一句话触发多工具协作

Agent 在一个本地运行时里完成网络调研、浏览器操控、技能调用,最终交付完整结果。不用分步骤操作,不用来回切换工具。说一句话就行。

示例:"帮我调研 Cowork 并在 downloads 文件夹生成一个科技风落地页"

手机发消息,桌面出结果

在手机上通过 Telegram 发一条消息,Understudy 在你的 Mac 上将网页转换为 PDF,打开桌面版 Telegram,找到联系人并发送——全程 GUI 自动化。手机画面和电脑画面并排呈现。

示例:"把 Cowork 网页转成 PDF 发给 Telegram 里的 Alex"

演示一次,精调后泛化重放

演示一个任务——Understudy 看着你做,理解你的意图,然后发布一个可复用的技能。交互式精调生成的技能,再用自然语言调用。重放时 Agent 自动泛化:Google 图片搜索变成浏览器自动化,下载变成 shell 命令,Pixelmator Pro 仍用 GUI 操控。

示例:"找一张 [某人] 的照片,去除背景,用 Telegram 发送给 [某人]"

一条 Prompt,真机 iPhone,发布到 YouTube

六阶段 Pipeline:在 Chrome 浏览真实 App Store,通过 iPhone Mirroring 在真机上安装应用,自主探索从未见过的功能,在本地合成带旁白和字幕的评测视频,上传 YouTube,清理设备。中间阶段是真正的 Agentic:51 条质量门控规则引导 Agent,但它在陌生应用中自由导航,自主做出编辑判断。约一小时,零人工干预。

示例:"从零制作一个 Snapseed 评测视频——重点拍背景移除和黑白滤镜,加旁白字幕,上传 YouTube,清理设备"
发布的评测视频
制作过程

它像你一样操作电脑

一个本地 Agent,能看屏幕、开应用、浏览网页、跑命令、发消息——全部在一条指令里完成。

💻

桌面 Agent

发一条消息,它就能查资料、生成文件、打开应用、交付结果。不用分步骤操作,不用来回切换工具。说一句话就行。

📱

远程操控

在手机上通过 Telegram、Slack 等发一条消息,Understudy 就在你的 Mac 上工作,做完再把结果发回来。人不在电脑前也没关系。

💬

8 个消息渠道

Telegram、Slack、Discord、WhatsApp、Signal、LINE、iMessage、Web。用你已经在用的聊天工具来操控 Agent。

它会越用越好

就像一个新同事慢慢成长——Understudy 从听指令开始,逐渐学会你的习惯,找到更好的做事方式。

第 1 天
执行
你说什么它做什么
第 1 周
学习
看着你做,记住流程
第 1 个月
记住
独立完成日常任务
第 3 个月
优化
自己找到更快的路
第 6 个月
预判
你还没开口它就做了
"在剧场里,替角先观察主角,学会角色,然后在需要时登台。"

开源免费,用你自己的模型

不用订阅,不被绑定。在本地运行,数据完全可控,模型自己选。

🔓

完全开源

MIT 协议,源码全部在 GitHub。可以自由查看、修改和贡献。

🧰

自带模型

支持 Anthropic、OpenAI、Google、MiniMax 等。用你自己的 API Key,不需要额外订阅。

🔒

本地优先

在你自己的电脑上运行。截图、录像、任务数据默认都存在本地。

💻

macOS 优先

目前在 macOS 上支持完整的原生 GUI 自动化。Linux 和 Windows 支持计划中,欢迎贡献。

几分钟就能上手

快速开始

通过 npm 安装,向导会带你完成配置。

# 安装
npm install -g @understudy-ai/understudy
understudy wizard

# 启动
understudy daemon --start
understudy chat

发展路线

五层能力,循序渐进。每一层都建立在前一层之上。

已实现
操作软件 看、点、输入,操作 macOS 应用
已实现
演示学习 演示教学,发布可复用技能
开发中
记住 自动把成功路径固化下来
开发中
加速 发现并升级到更快的执行方式
远景
预判 在不打扰你的前提下主动行动
支持的模型:Anthropic (Claude)、OpenAI (GPT / Codex)、Google (Gemini)、MiniMax 等,通过可配置的 provider 接入更多模型。