1. Abstract
Open-AutoGLM ist ein Open-Source-Framework für Mobilfunkagenten für Zhipu AI, und das Kernmodell ist AutoGLM-Phone-9B. Es versteht den Inhalt des Handybildschirms und simuliert echte Benutzeroperationen, um "die Schnittstelle zu verstehen, die Anweisungen zu verstehen und auf das Handy zu klicken". Das Framework ist hauptsächlich für Android-Szenarien gedacht und eignet sich für den Aufbau verschiedener Anwendungen wie mobile Assistenten, automatisierte Abläufe und Tests.
2. Kernmerkmale
- Natürlichsprachlich gesteuert: Unterstützt die Beschreibung von Aufgaben in der chinesischen natürlichen Sprache und die automatische Erstellung von mehrstufigen Betriebsplänen.
- Multimodales Verständnis von Bildschirmen: Kombinieren Sie Vision und Text, um Buttons, Icons, Copywriting und Layouts zu erkennen, anstatt reine Koordinatenskripte.
- ADB-Steuerungsausführung: Klicken, Wischen, Eingaben und andere Aktionen können über ADB ausgeführt werden und können mit dem echten Gerät oder dem Cloud-Telefon verbunden werden.
- Multi-App-Szenarien: Entwickelt für Hochfrequenzanwendungen wie WeChat, Taobao, Douyin und Meituan und unterstützt appübergreifende Aufgabenketten.
- Open-Source-Modell: AutoGLM-Phone-9B ist Open Source als allgemeines Mobilfunkagentenmodell, was für die Sekundärschulung und Anpassung praktisch ist.
3. Installation
- Umgebungsvorbereitung: Installieren Sie Python und notwendige Abhängigkeitsbibliotheken, es wird empfohlen, eine virtuelle Umgebung zu verwenden.
- Das Repository klonen: Git-Clone Open-AutoGLM und konfigurieren Sie das Projekt gemäß der README.
- Modelldownload: Holen Sie sich das AutoGLM-Phone-9B-Gewicht von der offiziellen ModelScope- oder HuggingFace-Adresse.
- Verbinden Sie das Gerät: Aktivieren Sie den Android-Entwicklermodus und USB-Debugging und verwenden Sie ADB, um zu bestätigen, dass das Gerät verbunden ist.
- Beispiele ausführen: Beispielskripte ausführen und einfache Anweisungen testen, um den Link zu verifizieren.
4. Typische Anwendungsfälle
- Smartphone-Assistent: Apps automatisch öffnen, Inhalte suchen, Nachrichten senden und Links teilen.
- E-Commerce und Automatisierung des lokalen Lebens: Produkte suchen, Preise vergleichen, Bestellungen aufgeben und den Bestellfortschritt überprüfen.
- Betriebs- und Kundenservice-Tools: Batch-Antworten oder Prozessanleitungen in sozialen/IM-Apps.
- Automatisiertes Testing: Durchführung von UI-Regressionstests und Szenenwiedergaben für Multi-Model- und Multi-Version-Apps.
5. Ökologie und konkurrierende Produkte
- Synergie mit der GLM-Serie: Basierend auf Zhipus selbstentwickeltem multimodalen Großmodellsystem bietet es eine integrierte Lösung von Basis bis Agent.
- Im Vergleich zu traditionellen Skriptwerkzeugen: Open-AutoGLM ist eher "ein Agent, der die Schnittstelle versteht", mit geringeren Skriptwartungskosten und stärkerer Verallgemeinerung.
- Weitere Lösungen für Mobilfunkagenten: Ihre Open-Source-+ privatisierte Bereitstellungsmerkmale sind förderlicher für die Selbstaufbaukapazitäten von Herstellern und Unternehmen.
6. Einschränkungen und Vorsichtsmaßnahmen
- Rechenleistungskosten: Das 9B-Skalenmodell benötigt weiterhin hohe Rechenleistung für lokale Inferenz und kann auf GPUs oder Cloud-Umgebungen angewiesen sein.
- Kompatibilität und Wartung: Verschiedene Modelle, Systemversionen und App-Updates beeinflussen den Erkennungseffekt und erfordern kontinuierliche Abstimmung.
- Sicherheit und Compliance: Bei Konten, Zahlungen und privaten Daten muss eine strenge Kontrolle der Berechtigungen streng erfolgen, und Gesetze sowie Nutzungsbedingungen jeder App müssen eingehalten werden.
- Anti-Missbrauchsrisiko: Es ist nicht geeignet für Szenarien wie Brushing Volume und böswilliges Crawling und es ist notwendig, klare Grenzen für die Nutzung innerhalb der Organisation festzulegen.
7. Projektadresse
https://github.com/zai-org/Open-AutoGLM
8. FAQ
: Was ist die Open-AutoGLM-Open-Source-Lizenz? Kann es in kommerziellen Szenarien verwendet werden?
Antwort: Das Projekt verwendet ein lockeres Open-Source-Protokoll (wie Apache-2.0) und kann für kommerzielle Entwicklung und Bereitstellung unter der Bedingung der Einhaltung der Abkommensbedingungen, relevanter Gesetze und Plattformbedingungen genutzt werden.
Frage: Muss das AutoGLM-Phone-9B-Modell mit Open-AutoGLM verwendet werden?
Antwort: Nein, das ist nicht notwendig. AutoGLM-Phone-9B kann als multimodales Modell allein in anderen Agenten-Frameworks verwendet werden, aber es kann mit Open-AutoGLM für eine umfassendere Telefonautomatisierung eingesetzt werden.
Frage: Welche Plattform unterstützt Open-AutoGLM derzeit hauptsächlich?
Antwort: Derzeit liegt der Fokus auf der Unterstützung von Android-Geräten, wobei ADB-Kanäle zur Steuerung verwendet werden, und die iOS-Seite benötigt zusätzliche Funktionen oder Lösungen.
F: Was sind einige bewährte Verfahren für den Einsatz mobiler Agenten in der Produktion?
Antwort: Es wird empfohlen, spezielle Geräte oder Cloud-Telefone zu verwenden, Berechtigungen zu minimieren, Test- und offizielle Konten zu trennen und manuelle Bestätigungs- oder Risikokontrollrichtlinien für Schlüsseloperationen hinzuzufügen.