1. 抽象
的Open-AutoGLMはZhipu AI向けのオープンソースの携帯電話エージェントフレームワークであり、コアモデルはAutoGLM-Phone-9Bです。 携帯電話の画面内容を理解し、実際のユーザーの操作をシミュレートして「インターフェースの理解、指示の理解、携帯電話のクリック」を実現します。 このフレームワークは主にAndroidシナリオ向けに設計されており、モバイルアシスタント、自動化操作、テストなど様々なアプリケーションの構築に適しています。
2. コア機能
- 自然言語駆動:中国語の自然言語でタスクを記述し、多段階の作業計画を自動的に生成します。
- 画面のマルチモーダル理解:純粋な座標スクリプトではなく、視覚とテキストを組み合わせてボタン、アイコン、コピーライティング、レイアウトを認識すること。
- ADB制御実行:クリック、スワイプ、入力などの操作はADBを通じて行え、実際のマシンやクラウドフォンに接続できます。
- マルチアプリシナリオ:WeChat、淘宝、抖音、美団などの高頻度アプリケーション向けに設計され、クロスアプリタスクチェーンをサポートします。
- オープンソースモデル:AutoGLM-Phone-9Bは一般的な携帯電話エージェントモデルとしてオープンソースであり、二次的な訓練や適応に適しています。
3. インストール
- 環境準備:Pythonおよび必要な依存ライブラリをインストールし、仮想環境の使用を推奨します。
- リポジトリのクローン:gitでOpen-AutoGLMをクローンし、READMEに従ってプロジェクトを設定します。
- モデルダウンロード:AutoGLM-Phone-9Bの重量は公式ModelScopeまたはHuggingFaceのアドレスから入手できます。
- デバイスを接続する:Android開発者モードとUSBデバッグをオンにし、ADBを使ってデバイス接続を確認します。
- 例を実行する:サンプルスクリプトを実行し、簡単な命令をテストしてリンクを検証します。
4. 典型的なユースケース
- スマートフォンアシスタント:アプリを自動的に開い、コンテンツを検索し、メッセージを送信し、リンクを共有することができます。
- Eコマースとローカルライフ自動化:商品検索、価格比較、注文、注文進捗確認。
- 運用およびカスタマーサービスツール:ソーシャル/IMアプリでのバッチ返信またはプロセスガイダンス。
- 自動テスト:マルチモデルおよびマルチバージョンアプリ向けにUI回帰テストとシーン再生を実施します。
5. 生態系と競合製品
- GLMシリーズとの相乗効果:Zhipuが自ら開発したマルチモーダル大型モデルシステムに基づき、ベースからエージェントまでの統合ソリューションを提供します。
- 従来のスクリプトツールと比べて、Open-AutoGLMは「インターフェースを理解するエージェント」であり、スクリプトの保守コストが低く、より強い汎用性を持っています。
- その他の携帯電話エージェントソリューション:オープンソース+民営化された展開特性は、製造業者や企業の自己構築能力により適しています。
6. 制限と注意点
- 計算能力コスト:9Bスケールモデルは依然として局所推論に強力な計算能力を必要とし、GPUやクラウド環境に依存する場合があります。
- 互換性と保守:異なるモデル、システムバージョン、アプリのアップデートによって認識効果が影響し、継続的な調整が必要です。
- セキュリティとコンプライアンス:アカウント、支払い、プライベートデータに関しては、権限の厳格な管理が必要であり、各アプリの法律や利用規約も遵守しなければなりません。
- アンチアビューズリスク:ブラッシングボリュームや悪意あるクロールなどのシナリオには適さず、組織内で使用するための明確な境界設定が必要です。
7. プロジェクトアドレス
https://github.com/zai-org/Open-AutoGLM
8. FAQ
: Open-AutoGLMのオープンソースライセンスとは何ですか? 商業的な場面で使えますか?
回答:このプロジェクトは緩やかなオープンソースプロトコル(例えばApache-2.0)を採用しており、契約、関連法律、プラットフォーム条件を遵守するという前提で商用開発と展開に利用できます。
質問:AutoGLM-Phone-9BモデルはOpen-AutoGLMで使用しなければならないのでしょうか?
回答:いいえ、必要ありません。 AutoGLM-Phone-9Bは他のエージェントフレームワークでマルチモーダルモデルとして単独で使用できますが、より完全な電話自動化機能を目的にOpen-AutoGLMと組み合わせて使用することも可能です。
質問:Open-AutoGLMは現在主にどのプラットフォームをサポートしていますか?
回答:現在はAndroidデバイスのサポートに注力しており、制御はADBチャネルに依存しています。iOS側は追加の機能やソリューションが必要です。
Q: 本番環境でのモバイルエージェント展開におけるベストプラクティスにはどのようなものがありますか?
回答:特別なデバイスやクラウドフォンの使用、権限の最小化、テストアカウントと公式アカウントの分離、主要な業務に対する手動確認またはリスク管理ポリシーの追加が推奨されます。