返回Ai开源
智谱AI开源 Open-AutoGLM 与 AutoGLM-Phone-9B:手机智能体新起点

智谱AI开源 Open-AutoGLM 与 AutoGLM-Phone-9B:手机智能体新起点

Ai开源 Admin 462 次浏览

一、摘要

Open-AutoGLM 是智谱AI开源的手机智能体(Agent)框架,核心模型为 AutoGLM-Phone-9B。它通过理解手机屏幕内容并模拟真实用户操作,实现“看得懂界面、听得懂指令、点得动手机”。框架主要面向 Android 场景,适合构建手机助手、自动化运营、测试等多种应用。

二、核心特性

1、自然语言驱动:支持用中文自然语言描述任务,自动生成多步操作计划。

2、屏幕多模态理解:结合视觉与文本,识别按钮、图标、文案和布局,而非纯坐标脚本。

3、ADB 控制执行:通过 ADB 完成点击、滑动、输入等动作,可连接真机或云手机。

4、多 App 场景:面向微信、淘宝、抖音、美团等高频应用设计,支持跨 App 任务链。

5、模型开源:AutoGLM-Phone-9B 作为通用手机 Agent 模型开源,便于二次训练与适配。

三、安装

1、环境准备:安装 Python 与必要依赖库,建议使用虚拟环境。

2、克隆仓库:git clone Open-AutoGLM,并按 README 配置项目。

3、模型下载:从官方提供的 ModelScope 或 HuggingFace 地址获取 AutoGLM-Phone-9B 权重。

4、连接设备:开启 Android 开发者模式与 USB 调试,使用 ADB 确认设备已连接。

5、运行示例:执行示例脚本,测试简单指令以验证链路。

四、典型用例

1、智能手机助手:自动打开 App、搜索内容、发送消息、分享链接。

2、电商与本地生活自动化:搜索商品、比价、下单、查看订单进度。

3、运营与客服工具:在社交/IM App 中进行批量回复或流程化引导。

4、自动化测试:对多机型、多版本 App 进行 UI 回归测试和场景回放。

五、生态与竞品

1、与 GLM 系列协同:依托智谱自研多模态大模型体系,提供从基座到 Agent 的一体化方案。

2、与传统脚本工具对比:Open-AutoGLM 更偏“会理解界面的智能体”,脚本维护成本更低、泛化更强。

3、与其他手机 Agent 方案:其开源+可私有化部署的特点,更有利于厂商和企业自建能力。

六、局限与注意事项

1、算力成本:9B 规模模型在本地推理仍需要较强算力,可能依赖 GPU 或云环境。

2、兼容与维护:不同机型、系统版本、App 更新会影响识别效果,需要持续调优。

3、安全与合规:涉及账号、支付、隐私数据时需严格控制权限,遵守法律和各 App 使用条款。

4、反滥用风险:不宜用于刷量、恶意爬取等场景,需在组织内制定清晰使用边界。

七、项目地址

 https://github.com/zai-org/Open-AutoGLM

八、常见问题

问题:Open-AutoGLM 开源许可是什么?能否用于商用场景?

回答:项目采用宽松的开源协议(如 Apache-2.0),在遵守协议及相关法律、平台条款前提下,可用于商用开发与部署。

问题:AutoGLM-Phone-9B 模型必须和 Open-AutoGLM 一起用吗?

回答:不必须。AutoGLM-Phone-9B 可单独作为多模态模型,在其他 Agent 框架中使用,但与 Open-AutoGLM 搭配能获得更完整的手机自动化能力。

问题:Open-AutoGLM 现在主要支持哪个平台?

回答:当前重点支持 Android 设备,依赖 ADB 通道进行控制,iOS 侧需要额外能力或方案配合。

问题:在生产环境部署手机 Agent 有哪些最佳实践?

回答:建议使用专用设备或云手机,最小化权限,分离测试与正式账号,并对关键操作增加人工确认或风控策略。

Open-AutoGLM手机智能体框架介绍 AutoGLM-Phone-9B手机Agent能力解析 Open-AutoGLM理解手机屏幕多模态能力 Open-AutoGLM中文自然语言驱动手机操作 基于Open-AutoGLM构建Android手机助手 Open-AutoGLM支持微信淘宝抖音美团应用 使用Open-AutoGLM实现跨App自动化任务链 Open-AutoGLM视觉文本结合识别按钮图标 Open-AutoGLM通过ADB控制真机与云手机 Open-AutoGLM支持点击滑动输入等操作指令 AutoGLM-Phone-9B模型开源下载与部署指南 Open-AutoGLM环境准备与安装配置步骤 Open-AutoGLM模型从ModelScope或HF获取方法 使用ADB连接Android设备运行Open-AutoGLM 通过示例脚本快速体验Open-AutoGLM指令链路 Open-AutoGLM在电商和本地生活自动化场景 Open-AutoGLM在社交IM批量回复运营中的应用 使用Open-AutoGLM进行AppUI自动化测试回归 Open-AutoGLM多机型多版本UI回放与兼容方案 Open-AutoGLM与传统坐标脚本自动化工具对比 Open-AutoGLM降低脚本维护成本提升泛化能力 Open-AutoGLM与智谱GLM多模态模型体系协同 企业私有化部署Open-AutoGLM手机Agent实践 AutoGLM-Phone-9B作为通用多模态模型使用 AutoGLM-Phone-9B接入其他Agent框架最佳实践 Open-AutoGLM本地推理算力与GPU资源评估 使用云端部署AutoGLM-Phone-9B推理的建议 Open-AutoGLM适配不同机型和Android系统版本 Open-AutoGLM应对App频繁更新的调优策略 手机Agent涉及账号支付数据的安全合规要点 使用Open-AutoGLM需遵守平台条款与相关法律 防止Open-AutoGLM被用于刷量恶意爬取等滥用 组织内部制定Open-AutoGLM使用边界和规范 Open-AutoGLM开源协议Apache2点0商用说明 Open-AutoGLM在商用场景落地的注意事项 AutoGLM-Phone-9B是否必须配合Open-AutoGLM使用 Open-AutoGLM当前对Android平台支持范围 使用云手机集群部署Open-AutoGLM的最佳实践 生产环境部署Open-AutoGLM手机Agent操作指南 Open-AutoGLM测试账号与正式账号隔离策略 Open-AutoGLM关键高风险操作增加人工确认 基于Open-AutoGLM构建企业级智能手机助手 Open-AutoGLM典型自动化任务与应用场景清单 Open-AutoGLMGitHub项目地址与核心目录说明 Open-AutoGLM与其他手机Agent方案优劣对比 Open-AutoGLM在运营客服流程提效中的价值 Open-AutoGLM在电商搜索比价下单场景案例 Open-AutoGLM在内容搜索分享链接实战应用 Open-AutoGLM设计跨App任务链路的实现思路 Open-AutoGLM未来功能扩展方向与社区生态

推荐工具

更多