Zurück zu KI ist Open Source
Zhipu AI Open Source Open-AutoGLM und AutoGLM-Phone-9B: Ein neuer Ausgangspunkt für Mobilfunkagenten

Zhipu AI Open Source Open-AutoGLM und AutoGLM-Phone-9B: Ein neuer Ausgangspunkt für Mobilfunkagenten

KI ist Open Source Admin 462 Aufrufe

1. Abstract

Open-AutoGLM ist ein Open-Source-Framework für Mobilfunkagenten für Zhipu AI, und das Kernmodell ist AutoGLM-Phone-9B. Es versteht den Inhalt des Handybildschirms und simuliert echte Benutzeroperationen, um "die Schnittstelle zu verstehen, die Anweisungen zu verstehen und auf das Handy zu klicken". Das Framework ist hauptsächlich für Android-Szenarien gedacht und eignet sich für den Aufbau verschiedener Anwendungen wie mobile Assistenten, automatisierte Abläufe und Tests.

2. Kernmerkmale

  1. Natürlichsprachlich gesteuert: Unterstützt die Beschreibung von Aufgaben in der chinesischen natürlichen Sprache und die automatische Erstellung von mehrstufigen Betriebsplänen.
  2. Multimodales Verständnis von Bildschirmen: Kombinieren Sie Vision und Text, um Buttons, Icons, Copywriting und Layouts zu erkennen, anstatt reine Koordinatenskripte.
  3. ADB-Steuerungsausführung: Klicken, Wischen, Eingaben und andere Aktionen können über ADB ausgeführt werden und können mit dem echten Gerät oder dem Cloud-Telefon verbunden werden.
  4. Multi-App-Szenarien: Entwickelt für Hochfrequenzanwendungen wie WeChat, Taobao, Douyin und Meituan und unterstützt appübergreifende Aufgabenketten.
  5. Open-Source-Modell: AutoGLM-Phone-9B ist Open Source als allgemeines Mobilfunkagentenmodell, was für die Sekundärschulung und Anpassung praktisch ist.

3. Installation

  1. Umgebungsvorbereitung: Installieren Sie Python und notwendige Abhängigkeitsbibliotheken, es wird empfohlen, eine virtuelle Umgebung zu verwenden.
  2. Das Repository klonen: Git-Clone Open-AutoGLM und konfigurieren Sie das Projekt gemäß der README.
  3. Modelldownload: Holen Sie sich das AutoGLM-Phone-9B-Gewicht von der offiziellen ModelScope- oder HuggingFace-Adresse.
  4. Verbinden Sie das Gerät: Aktivieren Sie den Android-Entwicklermodus und USB-Debugging und verwenden Sie ADB, um zu bestätigen, dass das Gerät verbunden ist.
  5. Beispiele ausführen: Beispielskripte ausführen und einfache Anweisungen testen, um den Link zu verifizieren.

4. Typische Anwendungsfälle

  1. Smartphone-Assistent: Apps automatisch öffnen, Inhalte suchen, Nachrichten senden und Links teilen.
  2. E-Commerce und Automatisierung des lokalen Lebens: Produkte suchen, Preise vergleichen, Bestellungen aufgeben und den Bestellfortschritt überprüfen.
  3. Betriebs- und Kundenservice-Tools: Batch-Antworten oder Prozessanleitungen in sozialen/IM-Apps.
  4. Automatisiertes Testing: Durchführung von UI-Regressionstests und Szenenwiedergaben für Multi-Model- und Multi-Version-Apps.

5. Ökologie und konkurrierende Produkte

  1. Synergie mit der GLM-Serie: Basierend auf Zhipus selbstentwickeltem multimodalen Großmodellsystem bietet es eine integrierte Lösung von Basis bis Agent.
  2. Im Vergleich zu traditionellen Skriptwerkzeugen: Open-AutoGLM ist eher "ein Agent, der die Schnittstelle versteht", mit geringeren Skriptwartungskosten und stärkerer Verallgemeinerung.
  3. Weitere Lösungen für Mobilfunkagenten: Ihre Open-Source-+ privatisierte Bereitstellungsmerkmale sind förderlicher für die Selbstaufbaukapazitäten von Herstellern und Unternehmen.

6. Einschränkungen und Vorsichtsmaßnahmen

  1. Rechenleistungskosten: Das 9B-Skalenmodell benötigt weiterhin hohe Rechenleistung für lokale Inferenz und kann auf GPUs oder Cloud-Umgebungen angewiesen sein.
  2. Kompatibilität und Wartung: Verschiedene Modelle, Systemversionen und App-Updates beeinflussen den Erkennungseffekt und erfordern kontinuierliche Abstimmung.
  3. Sicherheit und Compliance: Bei Konten, Zahlungen und privaten Daten muss eine strenge Kontrolle der Berechtigungen streng erfolgen, und Gesetze sowie Nutzungsbedingungen jeder App müssen eingehalten werden.
  4. Anti-Missbrauchsrisiko: Es ist nicht geeignet für Szenarien wie Brushing Volume und böswilliges Crawling und es ist notwendig, klare Grenzen für die Nutzung innerhalb der Organisation festzulegen.

7. Projektadresse

 https://github.com/zai-org/Open-AutoGLM

8. FAQ

: Was ist die Open-AutoGLM-Open-Source-Lizenz? Kann es in kommerziellen Szenarien verwendet werden?

Antwort: Das Projekt verwendet ein lockeres Open-Source-Protokoll (wie Apache-2.0) und kann für kommerzielle Entwicklung und Bereitstellung unter der Bedingung der Einhaltung der Abkommensbedingungen, relevanter Gesetze und Plattformbedingungen genutzt werden.

Frage: Muss das AutoGLM-Phone-9B-Modell mit Open-AutoGLM verwendet werden?

Antwort: Nein, das ist nicht notwendig. AutoGLM-Phone-9B kann als multimodales Modell allein in anderen Agenten-Frameworks verwendet werden, aber es kann mit Open-AutoGLM für eine umfassendere Telefonautomatisierung eingesetzt werden.

Frage: Welche Plattform unterstützt Open-AutoGLM derzeit hauptsächlich?

Antwort: Derzeit liegt der Fokus auf der Unterstützung von Android-Geräten, wobei ADB-Kanäle zur Steuerung verwendet werden, und die iOS-Seite benötigt zusätzliche Funktionen oder Lösungen.

F: Was sind einige bewährte Verfahren für den Einsatz mobiler Agenten in der Produktion?

Antwort: Es wird empfohlen, spezielle Geräte oder Cloud-Telefone zu verwenden, Berechtigungen zu minimieren, Test- und offizielle Konten zu trennen und manuelle Bestätigungs- oder Risikokontrollrichtlinien für Schlüsseloperationen hinzuzufügen.

Einführung des Open-AutoGLM-Mobile-Agent-Frameworks AutoGLM-Phone-9B Mobile Agent-Fähigkeitsanalyse Open-AutoGLM versteht die multimodalen Fähigkeiten von Mobiltelefonbildschirmen Open-AutoGLM-Chinesisch, die natürliche Sprache steuert die Operationen von Mobiltelefonen an Android-Telefonassistent basierend auf Open-AutoGLM bauen Open-AutoGLM unterstützt Anwendungen wie WeChat, Taobao, Douyin und Meituan Verwenden Sie Open-AutoGLM, um Aufgabenketten über Apps hinweg zu automatisieren Open-AutoGLM-Visualtext kombiniert mit Erkennungsbutton-Symbolen Open-AutoGLM steuert reale Rechner und Cloud-Telefone über ADB Open-AutoGLM unterstützt Klick-zu-Swipe-Eingabe und andere Operationsbefehle AutoGLM-Phone-9B Modell Open-Source-Download- und Deployment-Leitfaden Vorbereitungs- und Installationskonfigurationsschritte für Open-AutoGLM-Umgebungen Open-AutoGLM-Modelle erhalten Methoden von ModelScope oder HF Verwenden Sie ADB, um Ihr Android-Gerät mit Open-AutoGLM zu verbinden Erleben Sie schnell den Open-AutoGLM-Befehlslink mit Beispielskripten Open-AutoGLM im E-Commerce und lokalen Lebensautomatisierungsszenarien Anwendung von Open-AutoGLM in der Social-IM-Batch-Antwort-Operation Verwenden Sie Open-AutoGLM für die automatisierte AppUI-Testregression Open-AutoGLM-Multimodell- und Multiversion-UI-Wiedergabe- und Kompatibilitätsschema Open-AutoGLM vs. traditionelle Koordinaten-Skriptautomatisierungstools Open-AutoGLM senkt die Wartungskosten für Skripte und verbessert die Verallgemeinerungsmöglichkeiten Open-AutoGLM- und Zhipu-GLM-multimodale Modellsysteme sind synergetisch Privatisierung der Open-AutoGLM Mobile Agent-Praxis AutoGLM-Phone-9B wird als universelles multimodales Modell verwendet. AutoGLM-Phone-9B ist eine Best Practice zur Verbindung mit anderen Agenten-Frameworks Open-AutoGLM Local Inference Computing Power und GPU-Ressourcenbewertung Empfehlungen zur Einführung der AutoGLM-Phone-9B-Inferenz in der Cloud Open-AutoGLM ist mit verschiedenen Modellen und Android-Versionen kompatibel Open-AutoGLM ist eine Optimierungsstrategie für häufige App-Updates Mobile Agent umfasst die Sicherheits- und Compliance-Punkte der Zahlungsdaten des Kontos Die Nutzung von Open-AutoGLM unterliegt den Plattformbedingungen und den geltenden Gesetzen Verhindern, dass Open-AutoGLM für Missbrauch wie böswilliges Crawlen von Pinseln verwendet wird Festlegen Sie Grenzen und Spezifikationen für die Nutzung von Open-AutoGLM innerhalb der Organisation Open-AutoGLM Open-Source-Protokoll Apache 2 Punkt 0 kommerzielle Beschreibung Vorsichtsmaßnahmen für die Implementierung von Open-AutoGLM in kommerziellen Szenarien Muss AutoGLM-Phone-9B mit Open-AutoGLM verwendet werden? Open-AutoGLM unterstützt derzeit die Android-Plattform Best Practices für die Bereitstellung von Open-AutoGLM mit Cloud-Telefonclustern Bedienungsanleitung für die Bereitstellung von Open-AutoGLM-Mobilagenten in einer Produktionsumgebung Open-AutoGLM-Test-Kontoisolationsrichtlinie von offiziellen Konten Open-AutoGLM fügt eine manuelle Bestätigung für wichtige Hochrisiko-Operationen hinzu Bauen Sie einen unternehmensfähigen Smartphone-Assistenten basierend auf Open-AutoGLM Open-AutoGLM-Liste typischer Automatisierungsaufgaben und Anwendungsszenarien Open-AutoGLMGitHub-Projektadresse und Kernverzeichnisbeschreibung Vergleich von Open-AutoGLM mit anderen mobilen Agentenlösungen Der Wert von Open-AutoGLM zur Verbesserung der Effizienz der operativen Kundenserviceprozesse Open-AutoGLM im E-Commerce-Suchpreisvergleichsfall Open-AutoGLM ist eine praktische Anwendung der Inhaltssuche und des Teilens von Links Open-AutoGLM-Design-Implementierungsidee für App-Cross-App-Aufgabenlinks Open-AutoGLM, zukünftige Funktionserweiterung, Richtung und Community-Ökologie

Empfohlene Tools

Mehr