
在传统的网页爬取中,开发者需要手动寻找页面 DOM 选择器并编写脚本。在 AI 自动化中,Agent 需要解析庞大且杂乱的 HTML 源码来寻找操作点。
Actionbook 是面向AI Agent 的“浏览器动作引擎”,通过将繁琐的网页操作(点击、填写、翻页、提取)以结构化、可搜索、可重用的方式保存为”动作手册(Action Manuals)”,让AI Agent 在真实网页执行时更稳健、更高效。
Actionbook 官网:https://actionbook.dev/
Actionbook Github:https://github.com/actionbook/actionbook
Actionbook 有效解决了 AI Agent 在自动化网页交互中的三大问题:
- Token 焦虑症:不再需要将几万行的 HTML 塞进 LLM,只需传输几十个字节的语义化动作定义,Token 消耗降低 100 倍。
- 选择器崩溃症:网页前端代码的小改动常会导致传统脚本失效。ActionBook 通过版本化的手册管理,将 UI 的变动与 Agent 的逻辑解耦。
- Agent 幻觉与不确定性:防止 AI 面对复杂的表单、级联菜单或日期选择器时“胡乱点击”。
Actionbook 核心功能:
1、语义化动作手册 (Semantic Action Manuals)
ActionBook 预先录制并维护了目标网站的高频动作。AI 只需要发送这些语义化指令,ActionBook 负责将其转化为具体的 DOM 操作。
2、检索式 DOM 索引 (RAG for DOM)
ActionBook 引入了类似 RAG(检索增强生成)的机制。Agent 在操作前,ActionBook 会根据当前上下文,仅提取与任务相关的 DOM 元素切片(Concise JSON),极大地减轻了模型的认知负担。
3、跨模型/框架的通用性
ActionBook 支持 MCP协议,可以无缝集成到 Cursor、Claude Desktop 等工具中。同时,提供 CLI、SDK 等多种接入方式,支持 OpenAI、Anthropic、Gemini 等主流模型。
4、内置指纹与稳定性优化
虽然 ActionBook 的卖点在于语义层,但底层依然基于 Playwright 做了深度加固,内置了指纹抹除、自动重试和超时管理,确保手册中的动作执行具有极高的“确定性”。
Actionbook 与其他浏览器自动化工具的关系:
Actionbook并不是要取代 Puppeteer/Playwright以及各种基于 Chromium 的自动化工具 ,可以与这些爬虫框架搭配使用。
在引入Actionbook后,可以把AI 自动化操作三层:动作语义层(Actionbook)→ 执行层(Puppeteer/Playwright)→ 基础设施(BlitzBrowser / 容器 / 任务队列)。
一个典型组合使用场景:
- 用 Actionbook 编写动作手册:为主要目标网站维护“动作剧本”:搜索、筛选、选择房源、填表、支付检查点等)
- 运行时使用 BlitzBrowser 管理浏览器实例:如果需要大量并发或希望在容器云化部署 headful 浏览器以更好模拟真实用户行为,BlitzBrowser 帮助管理实例/回收/监控
- 用 Playwright/Puppeteer 作为执行层:使用Playwright/Puppeteer 及其成熟的生态的各类工具完成爬取任务