智谱AI开源 Open-AutoGLM 与 AutoGLM-Phone-9B：手机智能体新起点

Ai开源 • Admin • 2025/12/9 • 538 次浏览

一、摘要

Open-AutoGLM 是智谱AI开源的手机智能体（Agent）框架，核心模型为 AutoGLM-Phone-9B。它通过理解手机屏幕内容并模拟真实用户操作，实现“看得懂界面、听得懂指令、点得动手机”。框架主要面向 Android 场景，适合构建手机助手、自动化运营、测试等多种应用。

二、核心特性

1、自然语言驱动：支持用中文自然语言描述任务，自动生成多步操作计划。

2、屏幕多模态理解：结合视觉与文本，识别按钮、图标、文案和布局，而非纯坐标脚本。

3、ADB 控制执行：通过 ADB 完成点击、滑动、输入等动作，可连接真机或云手机。

4、多 App 场景：面向微信、淘宝、抖音、美团等高频应用设计，支持跨 App 任务链。

5、模型开源：AutoGLM-Phone-9B 作为通用手机 Agent 模型开源，便于二次训练与适配。

三、安装

1、环境准备：安装 Python 与必要依赖库，建议使用虚拟环境。

2、克隆仓库：git clone Open-AutoGLM，并按 README 配置项目。

3、模型下载：从官方提供的 ModelScope 或 HuggingFace 地址获取 AutoGLM-Phone-9B 权重。

4、连接设备：开启 Android 开发者模式与 USB 调试，使用 ADB 确认设备已连接。

5、运行示例：执行示例脚本，测试简单指令以验证链路。

四、典型用例

1、智能手机助手：自动打开 App、搜索内容、发送消息、分享链接。

2、电商与本地生活自动化：搜索商品、比价、下单、查看订单进度。

3、运营与客服工具：在社交/IM App 中进行批量回复或流程化引导。

4、自动化测试：对多机型、多版本 App 进行 UI 回归测试和场景回放。

五、生态与竞品

1、与 GLM 系列协同：依托智谱自研多模态大模型体系，提供从基座到 Agent 的一体化方案。

2、与传统脚本工具对比：Open-AutoGLM 更偏“会理解界面的智能体”，脚本维护成本更低、泛化更强。

3、与其他手机 Agent 方案：其开源+可私有化部署的特点，更有利于厂商和企业自建能力。

六、局限与注意事项

1、算力成本：9B 规模模型在本地推理仍需要较强算力，可能依赖 GPU 或云环境。

2、兼容与维护：不同机型、系统版本、App 更新会影响识别效果，需要持续调优。

3、安全与合规：涉及账号、支付、隐私数据时需严格控制权限，遵守法律和各 App 使用条款。

4、反滥用风险：不宜用于刷量、恶意爬取等场景，需在组织内制定清晰使用边界。

七、项目地址

https://github.com/zai-org/Open-AutoGLM

八、常见问题

问题：Open-AutoGLM 开源许可是什么？能否用于商用场景？

回答：项目采用宽松的开源协议（如 Apache-2.0），在遵守协议及相关法律、平台条款前提下，可用于商用开发与部署。

问题：AutoGLM-Phone-9B 模型必须和 Open-AutoGLM 一起用吗？

回答：不必须。AutoGLM-Phone-9B 可单独作为多模态模型，在其他 Agent 框架中使用，但与 Open-AutoGLM 搭配能获得更完整的手机自动化能力。

问题：Open-AutoGLM 现在主要支持哪个平台？

回答：当前重点支持 Android 设备，依赖 ADB 通道进行控制，iOS 侧需要额外能力或方案配合。

问题：在生产环境部署手机 Agent 有哪些最佳实践？

智谱AI开源 Open-AutoGLM 与 AutoGLM-Phone-9B：手机智能体新起点

相关文章

有爆料指 OpenAI 高层坚持按期发布 GPT-5.2 员工原本希望推迟打磨

Qwen Code v0.2.2–v0.3.0 更新：引入 Stream JSON 与全局多语言支持

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

智谱AI开源 Open-AutoGLM 与 AutoGLM-Phone-9B：手机智能体新起点

相关文章

有爆料指 OpenAI 高层坚持按期发布 GPT-5.2 员工原本希望推迟打磨

Qwen Code v0.2.2–v0.3.0 更新：引入 Stream JSON 与全局多语言支持

Mem0 值得接入 Agent 吗？长期记忆有用但要管好边界

Haystack 适合什么团队？它更像可组合的 RAG 工程框架

推荐工具

提交AI工具

请确认提交信息