开源免费 · 自带模型和 API Key

一句话，操作你的整台电脑

Understudy 是一个开源的本地 AI Agent。给它一个指令，它就能帮你查资料、浏览网页、操作桌面应用、管理文件，还能通过你常用的聊天工具回复你。教它一次，它就学会。用得越多，它就越快。

开始使用观看演示

▶

操作任意应用 浏览、点击、输入，像你一样使用电脑

✓

跟你学 演示一次，它就记住了

⇧

越用越好 自动找到更快的方式完成任务

看看它能做什么

四个演示，展示 Understudy 的不同面向。

一句话触发多工具协作

Agent 在一个本地运行时里完成网络调研、浏览器操控、技能调用，最终交付完整结果。不用分步骤操作，不用来回切换工具。说一句话就行。

示例："帮我调研 Cowork 并在 downloads 文件夹生成一个科技风落地页"

手机发消息，桌面出结果

在手机上通过 Telegram 发一条消息，Understudy 在你的 Mac 上将网页转换为 PDF，打开桌面版 Telegram，找到联系人并发送——全程 GUI 自动化。手机画面和电脑画面并排呈现。

示例："把 Cowork 网页转成 PDF 发给 Telegram 里的 Alex"

演示一次，精调后泛化重放

演示一个任务——Understudy 看着你做，理解你的意图，然后发布一个可复用的技能。交互式精调生成的技能，再用自然语言调用。重放时 Agent 自动泛化：Google 图片搜索变成浏览器自动化，下载变成 shell 命令，Pixelmator Pro 仍用 GUI 操控。

示例："找一张 [某人] 的照片，去除背景，用 Telegram 发送给 [某人]"

完整未剪辑录屏 →

一条 Prompt，真机 iPhone，发布到 YouTube

六阶段 Pipeline：在 Chrome 浏览真实 App Store，通过 iPhone Mirroring 在真机上安装应用，自主探索从未见过的功能，在本地合成带旁白和字幕的评测视频，上传 YouTube，清理设备。中间阶段是真正的 Agentic：51 条质量门控规则引导 Agent，但它在陌生应用中自由导航，自主做出编辑判断。约一小时，零人工干预。

示例："从零制作一个 Snapseed 评测视频——重点拍背景移除和黑白滤镜，加旁白字幕，上传 YouTube，清理设备"

发布的评测视频

制作过程

完整未剪辑录屏 →

它像你一样操作电脑

一个本地 Agent，能看屏幕、开应用、浏览网页、跑命令、发消息——全部在一条指令里完成。

💻

桌面 Agent

发一条消息，它就能查资料、生成文件、打开应用、交付结果。不用分步骤操作，不用来回切换工具。说一句话就行。

📱

远程操控

在手机上通过 Telegram、Slack 等发一条消息，Understudy 就在你的 Mac 上工作，做完再把结果发回来。人不在电脑前也没关系。

💬

8 个消息渠道

Telegram、Slack、Discord、WhatsApp、Signal、LINE、iMessage、Web。用你已经在用的聊天工具来操控 Agent。

它会越用越好

就像一个新同事慢慢成长——Understudy 从听指令开始，逐渐学会你的习惯，找到更好的做事方式。

第 1 天

执行

你说什么它做什么

第 1 周

学习

看着你做，记住流程

第 1 个月

记住

独立完成日常任务

第 3 个月

优化

自己找到更快的路

第 6 个月

预判

你还没开口它就做了

"在剧场里，替角先观察主角，学会角色，然后在需要时登台。"

开源免费，用你自己的模型

不用订阅，不被绑定。在本地运行，数据完全可控，模型自己选。

🔓

完全开源

MIT 协议，源码全部在 GitHub。可以自由查看、修改和贡献。

🧰

自带模型

支持 Anthropic、OpenAI、Google、MiniMax 等。用你自己的 API Key，不需要额外订阅。

🔒

本地优先

在你自己的电脑上运行。截图、录像、任务数据默认都存在本地。

💻

macOS 优先

目前在 macOS 上支持完整的原生 GUI 自动化。Linux 和 Windows 支持计划中，欢迎贡献。

几分钟就能上手

快速开始

通过 npm 安装，向导会带你完成配置。

# 安装
npm install -g @understudy-ai/understudy
understudy wizard

# 启动
understudy daemon --start
understudy chat

发展路线

五层能力，循序渐进。每一层都建立在前一层之上。

已实现

操作软件 看、点、输入，操作 macOS 应用

已实现

演示学习 演示教学，发布可复用技能

开发中

记住自动把成功路径固化下来

开发中

加速发现并升级到更快的执行方式

远景

预判在不打扰你的前提下主动行动

支持的模型：Anthropic (Claude)、OpenAI (GPT / Codex)、Google (Gemini)、MiniMax 等，通过可配置的 provider 接入更多模型。