
虽然已经有众多的浏览器自动化工具,除了 Playwright、Puppeteer、Selenium 这样的老牌浏览器自动化工具外,在AI时代,浏览器自动化工具更是风起云涌,包括browser-use、LaVague、Skyvern、Stagehand、Crawl4AI、Firecrawl等。
这些浏览器自动化工具功能全面,适合用脚本化控制浏览器进行大规模自动化测试、爬虫爬取、自动化,但对日常简单内容采集、AI Agent 工具链、终端快速操作这样的轻量级操作,这些自动化工具就过于重量级。
尤其是这些自动化工具接入Claude Code、AI Agent、MCP时候,会遇到三个致命的“天花板”:
- 调用工具数量爆炸:一个简单“登录后下载文章”的任务,LLM 可能要连续调用 8~15 次工具才能完成
- Token 消耗高:为了让 LLM 找到一个按钮,需要把页面 HTML 塞进 Context,既昂贵又容易让 AI 出现幻觉
- 选择器幻觉:LLM 极其不擅长处理动态 ID 或复杂的 Shadow DOM,很容易出现幻觉,导致程序崩溃
因此像 LaVague 这样的新一代浏览器自动化工具都遵循“让 LLM 不需要理解 DOM”的核心思路。
OpenCLI 是一个最近开源的浏览器自动化工具,支持把任何网站或 Electron 应用变成命令行工具。
OpenCLI:https://github.com/jackwener/opencli
OpenCLI 核心功能:
- 账号安全复用:直接用浏览器里的 Cookie 和登录态,无需 API Token 或手动抓包
- AI 代理就绪:explore 自动探索页面能力、synthesize 生成 YAML 适配器、generate 一键创建新命令、cascade 处理 API 流水线
- 双引擎架构:YAML 声明式 + TypeScript 注入,支持动态加载 clis/ 目录下的适配器
- 下载与导出神器:支持图片、视频、文章批量下载(集成 yt-dlp)
- Electron 全兼容:最新支持 Cursor、Notion、Discord、飞书等桌面应用控制
- 内置命令覆盖 Bilibili、Zhihu、Xiaohongshu、Twitter/X、Reddit、YouTube 等 80+ 站点
PlayWright VS. OpenCLI

类似项目
最近有很多与 OpenCLI 类似,为AI Agent提供命令行的开源项目:
Vercel agent-browser
https://github.com/vercel-labs/agent-browser
Vercel Labs 开发的专为 AI Agent 设计的浏览器自动化 CLI,提供 50+ 语义命令和快照
bb-browser
https://github.com/epiral/bb-browser
为Agent 提供浏览器操作CLI + MCP服务 ,让 AI Agent 直接用浏览器已有的登录状态自动化操作
CLI-Anything
https://github.com/HKUDS/CLI-Anything
让任何有源码的软件一键生成命令行交互界面,实现真正的“Agent-Native”
Agent-Reach
https://github.com/Panniantong/Agent-Reach
只需一个命令行界面,零 API 费用,即可浏览和搜索 Twitter、Reddit、YouTube、GitHub、Bilibili、小红书等内容。