一、摘要
Open-AutoGLM 是智谱AI开源的手机智能体(Agent)框架,核心模型为 AutoGLM-Phone-9B。它通过理解手机屏幕内容并模拟真实用户操作,实现“看得懂界面、听得懂指令、点得动手机”。框架主要面向 Android 场景,适合构建手机助手、自动化运营、测试等多种应用。
二、核心特性
1、自然语言驱动:支持用中文自然语言描述任务,自动生成多步操作计划。
2、屏幕多模态理解:结合视觉与文本,识别按钮、图标、文案和布局,而非纯坐标脚本。
3、ADB 控制执行:通过 ADB 完成点击、滑动、输入等动作,可连接真机或云手机。
4、多 App 场景:面向微信、淘宝、抖音、美团等高频应用设计,支持跨 App 任务链。
5、模型开源:AutoGLM-Phone-9B 作为通用手机 Agent 模型开源,便于二次训练与适配。
三、安装
1、环境准备:安装 Python 与必要依赖库,建议使用虚拟环境。
2、克隆仓库:git clone Open-AutoGLM,并按 README 配置项目。
3、模型下载:从官方提供的 ModelScope 或 HuggingFace 地址获取 AutoGLM-Phone-9B 权重。
4、连接设备:开启 Android 开发者模式与 USB 调试,使用 ADB 确认设备已连接。
5、运行示例:执行示例脚本,测试简单指令以验证链路。
四、典型用例
1、智能手机助手:自动打开 App、搜索内容、发送消息、分享链接。
2、电商与本地生活自动化:搜索商品、比价、下单、查看订单进度。
3、运营与客服工具:在社交/IM App 中进行批量回复或流程化引导。
4、自动化测试:对多机型、多版本 App 进行 UI 回归测试和场景回放。
五、生态与竞品
1、与 GLM 系列协同:依托智谱自研多模态大模型体系,提供从基座到 Agent 的一体化方案。
2、与传统脚本工具对比:Open-AutoGLM 更偏“会理解界面的智能体”,脚本维护成本更低、泛化更强。
3、与其他手机 Agent 方案:其开源+可私有化部署的特点,更有利于厂商和企业自建能力。
六、局限与注意事项
1、算力成本:9B 规模模型在本地推理仍需要较强算力,可能依赖 GPU 或云环境。
2、兼容与维护:不同机型、系统版本、App 更新会影响识别效果,需要持续调优。
3、安全与合规:涉及账号、支付、隐私数据时需严格控制权限,遵守法律和各 App 使用条款。
4、反滥用风险:不宜用于刷量、恶意爬取等场景,需在组织内制定清晰使用边界。
七、项目地址
https://github.com/zai-org/Open-AutoGLM
八、常见问题
问题:Open-AutoGLM 开源许可是什么?能否用于商用场景?
回答:项目采用宽松的开源协议(如 Apache-2.0),在遵守协议及相关法律、平台条款前提下,可用于商用开发与部署。
问题:AutoGLM-Phone-9B 模型必须和 Open-AutoGLM 一起用吗?
回答:不必须。AutoGLM-Phone-9B 可单独作为多模态模型,在其他 Agent 框架中使用,但与 Open-AutoGLM 搭配能获得更完整的手机自动化能力。
问题:Open-AutoGLM 现在主要支持哪个平台?
回答:当前重点支持 Android 设备,依赖 ADB 通道进行控制,iOS 侧需要额外能力或方案配合。
问题:在生产环境部署手机 Agent 有哪些最佳实践?
回答:建议使用专用设备或云手机,最小化权限,分离测试与正式账号,并对关键操作增加人工确认或风控策略。