1. Abstract
Open-AutoGLM est un cadre d’agent mobile open source pour Zhipu AI, et le modèle de base est AutoGLM-Phone-9B. Il comprend le contenu de l’écran du téléphone mobile et simule les opérations réelles de l’utilisateur afin de « comprendre l’interface, comprendre les instructions et cliquer sur le téléphone mobile ». Le framework est principalement destiné aux scénarios Android et convient à la création de diverses applications telles que les assistants mobiles, les opérations automatisées et les tests.
2. Caractéristiques principales
- Piloté par le langage naturel : Permet de décrire les tâches en langue naturelle chinoise et de générer automatiquement des plans d’opérations en plusieurs étapes.
- Compréhension multimodale des écrans : combiner vision et texte pour reconnaître boutons, icônes, rédaction et mises en page plutôt que de simples scripts de coordonnées.
- Exécution du contrôle ADB : Les actions de clic, de balayage, d’entrée et d’autres peuvent être effectuées via ADB, et peuvent être connectées à la machine réelle ou au téléphone cloud.
- Scénarios multi-applications : Conçu pour des applications à haute fréquence comme WeChat, Taobao, Douyin et Meituan, et prend en charge les chaînes de tâches inter-applications.
- Modèle open source : AutoGLM-Phone-9B est open source en tant que modèle général d’agent mobile, ce qui est pratique pour la formation secondaire et l’adaptation.
3. Installation
- Préparation de l’environnement : Installez Python et les bibliothèques de dépendances nécessaires, il est recommandé d’utiliser un environnement virtuel.
- Cloner le dépôt : git cloner Open-AutoGLM et configurer le projet selon le README.
- Téléchargement du modèle : Obtenez le poids AutoGLM-Phone-9B à l’adresse officielle ModelScope ou HuggingFace.
- Connecter l’appareil : activez le mode développeur Android et le débogage USB, et utilisez ADB pour confirmer que l’appareil est connecté.
- Exécuter des exemples : exécuter des scripts d’exemple et tester des instructions simples pour vérifier le lien.
4. Cas d’usage typiques
- Assistant smartphone : ouvrir automatiquement les applications, rechercher du contenu, envoyer des messages et partager des liens.
- E-commerce et automatisation de la vie locale : recherchez des produits, comparez les prix, passez des commandes et vérifiez l’avancement des commandes.
- Outils opérationnels et de service client : réponses par lots ou conseils de processus dans les applications de réseaux sociaux/messagerie instantanée.
- Tests automatisés : Effectuer des tests de régression de l’interface utilisateur et la lecture de scènes pour les applications multi-modèles et multi-versions.
5. Écologie et produits concurrents
- Synergie avec la série GLM : S’appuyant sur le système multimodal de grands modèles auto-développé par Zhipu, il fournit une solution intégrée de la base à l’agent.
- Comparé aux outils de script traditionnels : Open-AutoGLM est davantage « un agent qui comprend l’interface », avec des coûts de maintenance de script plus faibles et une généralisation plus forte.
- Autres solutions d’agent mobile : ses caractéristiques open source + déploiement privatisé sont plus adaptées aux capacités d’auto-construction des fabricants et des entreprises.
6. Limitations et précautions
- Coût en puissance de calcul : Le modèle à l’échelle 9B nécessite encore une forte puissance de calcul pour l’inférence locale et peut dépendre de GPU ou d’environnements cloud.
- Compatibilité et maintenance : Différents modèles, versions système et mises à jour des applications affectent l’effet de reconnaissance et nécessitent un réglage continu.
- Sécurité et conformité : En ce qui concerne les comptes, les paiements et les données privées, un contrôle strict des autorisations doit être strictement réglementé, et les lois ainsi que les conditions d’utilisation de chaque application doivent être respectées.
- Risque anti-abus : Il n’est pas adapté à des scénarios tels que le volume de brossage ou le rampement malveillant, et il est nécessaire d’établir des limites claires à utiliser au sein de l’organisation.
7. Adresse
du projet https ://github.com/zai-org/Open-AutoGLM
8. FAQ
: Qu’est-ce que la licence open source Open-AutoGLM ? Peut-il être utilisé dans des scénarios commerciaux ?
Réponse : Le projet adopte un protocole open source lâche (tel qu’Apache-2.0) et peut être utilisé pour le développement commercial et le déploiement sous condition de respecter l’accord, les lois pertinentes et les conditions de la plateforme.
Question : Le modèle AutoGLM-Phone-9B doit-il être utilisé avec Open-AutoGLM ?
Réponse : Non, ce n’est pas nécessaire. AutoGLM-Phone-9B peut être utilisé seul comme modèle multimodal dans d’autres frameworks d’agents, mais il peut être utilisé avec Open-AutoGLM pour une capacité d’automatisation téléphonique plus complète.
Question : Quelle plateforme Open-AutoGLM supporte-t-il principalement actuellement ?
Réponse : Actuellement, l’accent est mis sur le support des appareils Android, en s’appuyant sur les canaux ADB pour le contrôle, et le côté iOS nécessite des capacités ou des solutions supplémentaires.
Q : Quelles sont les meilleures pratiques pour déployer des agents mobiles en production ?
Réponse : Il est recommandé d’utiliser des appareils spéciaux ou des téléphones cloud, de minimiser les permissions, de séparer les comptes de test et officiels, et d’ajouter des politiques de confirmation manuelle ou de contrôle des risques pour les opérations clés.