最新消息:

Cua Driver,让 AI Agent 在后台无干扰控制PC,Codex最炫酷功能的开源实现

佳软 yeeach 282浏览 0评论

过去一段时间,AI Agent 正在从“会不会聊天”转向“能不能干活”。所谓干活,不只是调用 API、写代码、搜索网页,而是像人一样面对真实软件界面:看屏幕、点按钮、输入文字、切换窗口、处理文件、在浏览器和桌面应用之间来回操作。

这类能力通常被称为 Computer Use Agent,Anthropic 在 2024 年 10 月 22 日 发布了 Claude 的 Computer Use ,允许 Claude 通过看屏幕、移动光标、点击按钮、输入文字来操作电脑环境;OpenAI 在 2025 年 1 月 23 日 发布了 Operator,Agent能自行浏览器自动化任务,比如点击、输入、滚动、填写表单等。

不管是 Claude Computer Use 还是OpenAI Operator 在执行自动化任务时,会移动用户光标、抢键盘焦点、把窗口拉到前台,因此不能并行执行多个任务。

而且 Claude Computer Use、OpenInterpreter、、字节跳动 UI-TARS-desktopE2B Open Computer UseSelf-Operating Computer  等类似的Computer Use应用都运行在Sandox 的虚拟显示环境里操作,不是在真实PC桌面运行。

OpenAI 在 2026 年 4 月 16 日 发布了 Codex for almost everything ,最大的亮点之一是支持 background computer use:Codex 可以通过“自己的光标”看、点、输入来使用你电脑上的应用;多个 Agent 可以在 macOS 上并行工作,同时不干扰其他应用里的工作(此功能目前只支持macOS,不支持Windows)。

Codex background computer use推出后,开源社区迅速跟进,其中最亮眼的就是 trycua/cua 项目,一套完整的开源基础设施,专为训练、评估和部署能控制完整桌面的 AI 代理而生。

Cua:https://github.com/trycua/cua

Hacker News讨论:https://news.ycombinator.com/item?id=47936312

 

Cua 全称 “Open-source infrastructure for Computer-Use Agents”,定位不是单一的 AI 代理,而是 底层基础设施栈。提供沙箱(Sandbox)、SDK、驱动程序、基准测试和虚拟化工具,让开发者能在 macOS、Linux、Windows(甚至 Android)上安全、可复现地运行桌面级 AI 代理。

Cua 的核心功能包括:

  • 跨平台沙箱:一套统一 API 管理 Linux 容器、VM、macOS/Windows 镜像,甚至自定义 .qcow2/.iso 文件。本地或云端(cua.ai)均可运行。
  • Cua Driver(macOS ):最大杀手级功能,在后台驱动任何原生 macOS 应用,完全不抢光标、不抢焦点、不切换 Space。即使是 Chromium 画布、Blender、Figma 等非 Accessibility 支持的应用,也能精准点击、输入和验证。解决了传统自动化工具“抢焦点”的痛点。
  • 可重放会话:每一次交互都记录为轨迹(trajectory),便于调试、训练和强化学习(RL)。
  • CuaBot CLI:一键在隔离沙箱中运行 Claude、OpenClaw 等代理,支持原生窗口显示、共享剪贴板、音频和 H.265 流。
  • cua-bench 基准测试:集成 OSWorld、ScreenSpot、Windows Arena 等数据集,支持并行评估并导出 RL 训练数据。
  • Lume 虚拟化:基于 Apple Virtualization.Framework,在 Apple Silicon 上近原生运行 macOS/Linux VM。

 

Cua Driver的技术实现是利用 macOS 私有 SkyLight API 中的 SLEventPostToPid,结合类似 yabai 的 “focus without raise” 技巧,以及一次离屏预点击,让事件能够投递到目标应用进程,而不移动真实光标、不抢前台焦点、不把窗口抬到最前。这样,开发者就可以在同一台 Mac 上后台运行 UI 自动化、视觉 QA、Agent 操作和 demo 录制,同时继续使用主桌面。

 

Cua 项目本身维护了一个精选列表 ACU – Awesome Agents for Computer Use,收录了大量相关的论文、数据集、基准和工具,值得收藏。

Cua 不仅解决了“后台无干扰控制”这个行业痛点,还提供了可扩展的沙箱和评估体系,让个人开发者、企业都能低成本构建、生产级桌面代理,是目前此领域最为全面的开源框架。

 

 

 

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址