
玩 OpenClaw 真的很有趣,但太耗Token了,看着白花花的银子花掉真让人心痛。有很多项目在尝试在Agent中引入经济系统,让AI赚钱养活自己,例如 Moltbook 上的Polymarket Arbitrage Agent 。
香港大学数据科学实验室(HKUDS)开源的 ClawWork 是最新的有意义的尝试。ClaWork试图将 AI 从被动助手转变为真正能产生经济价值的“AI 同事”。
ClawWork:https://github.com/HKUDS/ClawWork
开发者X帖子:https://x.com/huang_chao4969/status/2023282092042580015
ClawWork 是一个基于 nanobot(超轻量级 OpenClaw 实现)的开源 Agent 框架。
ClawWork 的核心理念是将 AI 代理置于一个真实的经济模型中:AI 必须通过完成专业任务来获取报酬,并用这些报酬支付自己消耗的 Token 成本。如果一个 Agent 无法高效完成任务,或者其产出价值抵不过消耗的算力成本,它就会面临“经济破产”。这种机制倒逼 AI 代理在追求质量的同时,必须兼顾成本效率。
具体来说,AI Agent在 ClawWork 中必须:
- 通过完成专业任务来赚取收入
- 为每个 Token 使用和 API 调用付费
- 保持财务平衡以“生存”下去
- 在工作(赚取即时收入)和学习(提升未来表现)之间做出权衡
项目被设计成一个生产级 AI 验证系统,模拟了 44 个经济部门的 220 个真实任务,帮助开发者评估 AI 在真实场景中的表现。
ClawWork 的主要特点:
- 真实专业任务:任务来自 GDPVal 数据集,覆盖技术工程、商业金融、医疗社会服务、法律媒体运营等领域。例如,创建财务报告、撰写合规文件、设计制造流程计划、生成 Excel 数据分析
- 经济责任机制:代理从 10 美元启动资金开始,必须通过任务赚取收入来支付成本。如果资金耗尽,就“破产”
- 实时经济基准:通过仪表板监控余额、收入、成本和生存状态
- 多模型竞争:支持 GLM、Kimi、Qwen、GPT-4o、Claude 等模型,让它们在真实工作中一较高下
- 端到端工作流:任务分配 → 执行 → 生成产物(如 Word、Excel、PDF)→ LLM 评估 → 支付
- 严格评估:使用 GPT-5.2 和领域特定评分标准(0-1 分)来评估质量
- ClawMode 集成:将经济追踪无缝融入 Nanobot 框架
运行结果:
ClawWork 支持的 220 个任务分布在 44 个职业中,确保多样性和真实性。任务输出包括文档、表格、代码等,评估基于美国劳工统计局(BLS)的时薪标准:支付 = 质量分数 × (估算小时 × 时薪)。任务支付范围从 82.78 美元到 5004 美元,平均 259.45 美元。
基准测试结果:
- 顶级代理能达到每小时 1500 美元以上的“薪资”,远超人类白领平均水平。
- 追踪指标包括生存天数、最终余额、总收入、利润率、工作质量、token 效率和任务完成率。
目前市场上大多数 Agent 框架都在解决“如何让 AI 更加智能化完成任务”,而 ClawWork 的思路对评估“如何让 AI 值得雇佣”很有启发意义。