最新消息:

移动端自动化工具汇总

佳软 yeeach 1812浏览 0评论

 

由于移动端Android/iOS原生系统对自动化和常驻 Agent 的限制非常严格,真正“本地、常驻、全自动”的 AI Agent 在手机上几乎不可行。

这也是最近豆包手机助手与努比亚深度定制,将原生 AI 能力更深度地融合进设备系统中被各大厂商封杀引起热议的原因之一。

在移动端上要执行自动化操作,主要有2大技术方案:

1、基于Accessibility Service (无障碍服务)的自动化操作方案

2、基于多模态大语言模型的AI Agent自动化操作方案

由于纯多模态方案成本过高、效率较低,而Accessibility Service 方案对图形界面语义理解有限,因此移动端自动化操作主流方案会采用 LLM语义理解+Accessibility Service 结合方案。

在实现上 Agent 在服务端或本地PC运行,手机作为交互与触发端,Agent通过 ADB/WebDriverAgent 等协议远程遥控手机。。

 

 

汇总一下针对移动端的自动化方案,详细分类及代表工具可以参见附图。由于iOS限制较多,适用的场景有限,这里主要汇总个人感兴趣的Android开源项目。

基于多模态大语言模型的AI Agent自动化操作方案

Open-AutoGLM

https://github.com/zai-org/Open-AutoGLM

智谱开源的手机端智能助理框架,类似豆包手机助手的效果

 

 

Mobile-Agent

https://github.com/X-PLUG/MobileAgent

利用多模态大模型(MLLM)进行视觉感知,能够处理长序列的操作任务

 

 

Android Use

https://github.com/actionstatelabs/android-action-kernel

基于 PC 端 ADB 控制 + LLM 语义理解 的自动化框架,相比多模态方案成本低、效率高

利用Android系统Accessibility API 获取结构化的 UI 数据(按钮、文本、坐标),提交给LLM决策,通过使用Accessibility API执行自动化操作

 

 

肉包 Roubao

https://github.com/Turbo1123/roubao

无需电脑的开源 AI 手机自动化助手,需要 Shizuku 以获取系统权限

 

 

Open-AutoGLM-Hybrid

https://github.com/xietao778899-rgb/Open-AutoGLM-Hybrid

直接在 Android 手机上运行 Open-AutoGLM,无需连接电脑,实现真正的移动端 AI 自动化

 

 

AutoGLM-For-Android

https://github.com/Luokavin/AutoGLM-For-Android

基于 Open-AutoGLM 的 Android 原生手机智能助手应用,纯 Android 端 Open-AutoGLM 实现,无需电脑

 

 

DroidRun

https://github.com/droidrun/droidrun

允许 LLM Agent 通过自然语言控制 Android 和 iOS 设备,实现自动化交互、任务执行和 UI 操作。适用于测试、RPA 和数据提取

 

 

Midscene.js

https://midscenejs.com/

支持通过自然语言编写自动化脚本,用于 Web、移动 App 的自动化和测试。

Android 通过 ADB,iOS 通过 WebDriverAgent

 

 

Arbigent

https://github.com/takahirom/arbigent

AI Agent 用于测试 Android、iOS 和 Web 应用,能将复杂任务分解为小场景,实现可预测的自动化

 

 

Mobile-use

https://github.com/minitap-ai/mobile-use

 

 

AgentDroid

https://github.com/sav7ng/AgentDroid

基于AI的移动设备智能控制与自动化平台

 

 

DroidClaw

https://droidclaw.ai/

https://github.com/unitedbyai/droidclaw

将旧手机变成AI Agent

 

 

AutoGen

https://github.com/microsoft/autogen

 

 

AppAgent

https://github.com/TencentQQGYLab/AppAgent

 

 

OMG-Agent

https://github.com/Safphere/OMG-Agent/

开源移动端 GUI Agent 桌面客户端,通过自然语言指令驱动 AI 自动操作 Android 手机

 

 

基于Accessibility Service的自动化操作方案

1)、基于Auto.js的工具

Auto.js

https://github.com/TonyJiangWJ/Auto.js

 

 

AutoJs6

https://github.com/SuperMonster003/AutoJs6

 

 

AutoX

https://github.com/automan-bot/AutoX

 

 

Hamibot

https://hamibot.com/

 

 

2)、非Auto.js的第三方自动化工具

GKD (Global Key Dispatch)

https://github.com/gkd-kit/gkd

基于 高级选择器 + 订阅规则 + 快照审查 的自定义屏幕点击 Android 应用,在指定界面,满足指定条件(如屏幕上存在特定文字)时,点击特定的节点或位置或执行其他操作,典型应用:自动跳过开屏广告

 

 

Smart AutoClicker

https://github.com/Nain57/Smart-AutoClicker

 

 

uiautomator2

https://github.com/openatx/uiautomator2

 

 

更新日志

2026/02/19 新增 DroidClaw

2026/01/01 新增 OMG-Agent

2025/12/30  新增 AutoGLM-For-Android

2025/12/20 新增 AgentDroid

2025/12/18 新增 Open-AutoGLM-Hybrid

2025/12/17 新增 肉包 Roubao

2025/12/15 创建

 

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址