Retour à L’IA est open source
Zhipu AI Open Source Open-AutoGLM et AutoGLM-Phone-9B : un nouveau point de départ pour les agents de téléphonie mobile

Zhipu AI Open Source Open-AutoGLM et AutoGLM-Phone-9B : un nouveau point de départ pour les agents de téléphonie mobile

L’IA est open source Admin 462 vues

1. Abstract

Open-AutoGLM est un cadre d’agent mobile open source pour Zhipu AI, et le modèle de base est AutoGLM-Phone-9B. Il comprend le contenu de l’écran du téléphone mobile et simule les opérations réelles de l’utilisateur afin de « comprendre l’interface, comprendre les instructions et cliquer sur le téléphone mobile ». Le framework est principalement destiné aux scénarios Android et convient à la création de diverses applications telles que les assistants mobiles, les opérations automatisées et les tests.

2. Caractéristiques principales

  1. Piloté par le langage naturel : Permet de décrire les tâches en langue naturelle chinoise et de générer automatiquement des plans d’opérations en plusieurs étapes.
  2. Compréhension multimodale des écrans : combiner vision et texte pour reconnaître boutons, icônes, rédaction et mises en page plutôt que de simples scripts de coordonnées.
  3. Exécution du contrôle ADB : Les actions de clic, de balayage, d’entrée et d’autres peuvent être effectuées via ADB, et peuvent être connectées à la machine réelle ou au téléphone cloud.
  4. Scénarios multi-applications : Conçu pour des applications à haute fréquence comme WeChat, Taobao, Douyin et Meituan, et prend en charge les chaînes de tâches inter-applications.
  5. Modèle open source : AutoGLM-Phone-9B est open source en tant que modèle général d’agent mobile, ce qui est pratique pour la formation secondaire et l’adaptation.

3. Installation

  1. Préparation de l’environnement : Installez Python et les bibliothèques de dépendances nécessaires, il est recommandé d’utiliser un environnement virtuel.
  2. Cloner le dépôt : git cloner Open-AutoGLM et configurer le projet selon le README.
  3. Téléchargement du modèle : Obtenez le poids AutoGLM-Phone-9B à l’adresse officielle ModelScope ou HuggingFace.
  4. Connecter l’appareil : activez le mode développeur Android et le débogage USB, et utilisez ADB pour confirmer que l’appareil est connecté.
  5. Exécuter des exemples : exécuter des scripts d’exemple et tester des instructions simples pour vérifier le lien.

4. Cas d’usage typiques

  1. Assistant smartphone : ouvrir automatiquement les applications, rechercher du contenu, envoyer des messages et partager des liens.
  2. E-commerce et automatisation de la vie locale : recherchez des produits, comparez les prix, passez des commandes et vérifiez l’avancement des commandes.
  3. Outils opérationnels et de service client : réponses par lots ou conseils de processus dans les applications de réseaux sociaux/messagerie instantanée.
  4. Tests automatisés : Effectuer des tests de régression de l’interface utilisateur et la lecture de scènes pour les applications multi-modèles et multi-versions.

5. Écologie et produits concurrents

  1. Synergie avec la série GLM : S’appuyant sur le système multimodal de grands modèles auto-développé par Zhipu, il fournit une solution intégrée de la base à l’agent.
  2. Comparé aux outils de script traditionnels : Open-AutoGLM est davantage « un agent qui comprend l’interface », avec des coûts de maintenance de script plus faibles et une généralisation plus forte.
  3. Autres solutions d’agent mobile : ses caractéristiques open source + déploiement privatisé sont plus adaptées aux capacités d’auto-construction des fabricants et des entreprises.

6. Limitations et précautions

  1. Coût en puissance de calcul : Le modèle à l’échelle 9B nécessite encore une forte puissance de calcul pour l’inférence locale et peut dépendre de GPU ou d’environnements cloud.
  2. Compatibilité et maintenance : Différents modèles, versions système et mises à jour des applications affectent l’effet de reconnaissance et nécessitent un réglage continu.
  3. Sécurité et conformité : En ce qui concerne les comptes, les paiements et les données privées, un contrôle strict des autorisations doit être strictement réglementé, et les lois ainsi que les conditions d’utilisation de chaque application doivent être respectées.
  4. Risque anti-abus : Il n’est pas adapté à des scénarios tels que le volume de brossage ou le rampement malveillant, et il est nécessaire d’établir des limites claires à utiliser au sein de l’organisation.

7. Adresse

 du projet https ://github.com/zai-org/Open-AutoGLM

8. FAQ

: Qu’est-ce que la licence open source Open-AutoGLM ? Peut-il être utilisé dans des scénarios commerciaux ?

Réponse : Le projet adopte un protocole open source lâche (tel qu’Apache-2.0) et peut être utilisé pour le développement commercial et le déploiement sous condition de respecter l’accord, les lois pertinentes et les conditions de la plateforme.

Question : Le modèle AutoGLM-Phone-9B doit-il être utilisé avec Open-AutoGLM ?

Réponse : Non, ce n’est pas nécessaire. AutoGLM-Phone-9B peut être utilisé seul comme modèle multimodal dans d’autres frameworks d’agents, mais il peut être utilisé avec Open-AutoGLM pour une capacité d’automatisation téléphonique plus complète.

Question : Quelle plateforme Open-AutoGLM supporte-t-il principalement actuellement ?

Réponse : Actuellement, l’accent est mis sur le support des appareils Android, en s’appuyant sur les canaux ADB pour le contrôle, et le côté iOS nécessite des capacités ou des solutions supplémentaires.

Q : Quelles sont les meilleures pratiques pour déployer des agents mobiles en production ?

Réponse : Il est recommandé d’utiliser des appareils spéciaux ou des téléphones cloud, de minimiser les permissions, de séparer les comptes de test et officiels, et d’ajouter des politiques de confirmation manuelle ou de contrôle des risques pour les opérations clés.

Introduction du cadre d’agent mobile Open-AutoGLM Analyse des capacités de l’AutoGLM-Phone-9B Mobile Agent Open-AutoGLM comprend les capacités multimodales des écrans de téléphone mobile Open-AutoGLM, le langage naturel chinois pilote les opérations des téléphones mobiles Créer un assistant téléphone Android basé sur Open-AutoGLM Open-AutoGLM prend en charge les applications WeChat, Taobao, Douyin et Meituan Utilisez Open-AutoGLM pour automatiser les chaînes de tâches entre les applications Texte visuel Open-AutoGLM combiné à des icônes de boutons de reconnaissance Open-AutoGLM contrôle de vraies machines et téléphones cloud via ADB Open-AutoGLM prend en charge l’entrée par clic pour balayer et d’autres commandes d’opération Guide de téléchargement et de déploiement open source du modèle AutoGLM-Phone-9B Étapes de préparation et d’installation de l’environnement Open-AutoGLM Les modèles Open-AutoGLM obtiennent des méthodes de ModelScope ou HF Utilisez ADB pour connecter votre appareil Android à l’Open-AutoGLM Découvrez rapidement le lien de commande Open-AutoGLM avec des scripts d’exemple Open-AutoGLM dans les scénarios de commerce électronique et d’automatisation de la vie locale Application de l’Open-AutoGLM dans l’opération de réponse batch de messagerie instantanée sociale Utilisez Open-AutoGLM pour la régression automatisée des tests AppUI Lecture et compatibilité de l’interface utilisateur Open-AutoGLM multi-modèles et multi-versions Open-AutoGLM vs. outils traditionnels d’automatisation du script de coordonnées Open-AutoGLM réduit les coûts de maintenance des scripts et améliore les capacités de généralisation Open-AutoGLM et le système de modèles multimodaux Zhipu GLM sont synergiques Privatisation de la pratique Open-AutoGLM Mobile Agent AutoGLM-Phone-9B est utilisé comme modèle multimodal universel AutoGLM-Phone-9B est une bonne pratique pour se connecter à d’autres frameworks d’agents Puissance de calcul par inférence locale Open-AutoGLM et évaluation des ressources GPU Recommandations pour le déploiement de l’inférence AutoGLM-Phone-9B dans le cloud Open-AutoGLM est compatible avec différents modèles et versions Android Open-AutoGLM est une stratégie de réglage pour les mises à jour fréquentes des applications Mobile Agent concerne les points de sécurité et de conformité des données de paiement des comptes L’utilisation d’Open-AutoGLM est soumise aux Conditions de la plateforme et aux lois applicables Empêcher Open-AutoGLM d’être utilisé pour des abus tels que le crawling malveillant des pinceaux Établir des limites et des spécifications pour l’utilisation Open-AutoGLM au sein de l’organisation Open-AutoGLM open source Apache 2 point 0 description commerciale Précautions pour la mise en œuvre de l’Open-AutoGLM dans des scénarios commerciaux Faut-il utiliser AutoGLM-Phone-9B avec Open-AutoGLM ? Open-AutoGLM prend actuellement en charge la plateforme Android Meilleures pratiques pour le déploiement d’Open-AutoGLM à l’aide de clusters téléphoniques cloud Guide opérationnel pour déployer des agents mobiles Open-AutoGLM dans un environnement de production Politique d’isolement des comptes de test Open-AutoGLM à partir des comptes officiels Open-AutoGLM ajoute une confirmation manuelle pour les opérations clés à haut risque Construire un assistant smartphone de niveau entreprise basé sur Open-AutoGLM Liste des tâches typiques d’automatisation Open-AutoGLM et des scénarios d’application Adresse du projet Open-AutoGLMGitHub et description du répertoire central Comparaison de l’Open-AutoGLM avec d’autres solutions d’agents mobiles La valeur de l’Open-AutoGLM pour améliorer l’efficacité des processus opérationnels de service client Open-AutoGLM dans le cas de comparaison de prix par recherche e-commerce Open-AutoGLM est une application pratique de la recherche de contenu et du partage de liens Idée d’implémentation de conception Open-AutoGLM pour des liens de tâches inter-applications Orientation future de l’expansion des fonctions et écologie des communautés Open-AutoGLM

Outils Recommandés

Plus