戻るAIはオープンソースです
Zhipu AI オープンソース Open-AutoGLM および AutoGLM-Phone-9B:モバイルエージェントの新たな出発点

Zhipu AI オープンソース Open-AutoGLM および AutoGLM-Phone-9B:モバイルエージェントの新たな出発点

AIはオープンソースです Admin 461 回閲覧

1. 抽象

Open-AutoGLMはZhipu AI向けのオープンソースの携帯電話エージェントフレームワークであり、コアモデルはAutoGLM-Phone-9Bです。 携帯電話の画面内容を理解し、実際のユーザーの操作をシミュレートして「インターフェースの理解、指示の理解、携帯電話のクリック」を実現します。 このフレームワークは主にAndroidシナリオ向けに設計されており、モバイルアシスタント、自動化操作、テストなど様々なアプリケーションの構築に適しています。

2. コア機能

  1. 自然言語駆動:中国語の自然言語でタスクを記述し、多段階の作業計画を自動的に生成します。
  2. 画面のマルチモーダル理解:純粋な座標スクリプトではなく、視覚とテキストを組み合わせてボタン、アイコン、コピーライティング、レイアウトを認識すること。
  3. ADB制御実行:クリック、スワイプ、入力などの操作はADBを通じて行え、実際のマシンやクラウドフォンに接続できます。
  4. マルチアプリシナリオ:WeChat、淘宝、抖音、美団などの高頻度アプリケーション向けに設計され、クロスアプリタスクチェーンをサポートします。
  5. オープンソースモデル:AutoGLM-Phone-9Bは一般的な携帯電話エージェントモデルとしてオープンソースであり、二次的な訓練や適応に適しています。

3. インストール

  1. 環境準備:Pythonおよび必要な依存ライブラリをインストールし、仮想環境の使用を推奨します。
  2. リポジトリのクローン:gitでOpen-AutoGLMをクローンし、READMEに従ってプロジェクトを設定します。
  3. モデルダウンロード:AutoGLM-Phone-9Bの重量は公式ModelScopeまたはHuggingFaceのアドレスから入手できます。
  4. デバイスを接続する:Android開発者モードとUSBデバッグをオンにし、ADBを使ってデバイス接続を確認します。
  5. 例を実行する:サンプルスクリプトを実行し、簡単な命令をテストしてリンクを検証します。

4. 典型的なユースケース

  1. スマートフォンアシスタント:アプリを自動的に開い、コンテンツを検索し、メッセージを送信し、リンクを共有することができます。
  2. Eコマースとローカルライフ自動化:商品検索、価格比較、注文、注文進捗確認。
  3. 運用およびカスタマーサービスツール:ソーシャル/IMアプリでのバッチ返信またはプロセスガイダンス。
  4. 自動テスト:マルチモデルおよびマルチバージョンアプリ向けにUI回帰テストとシーン再生を実施します。

5. 生態系と競合製品

  1. GLMシリーズとの相乗効果:Zhipuが自ら開発したマルチモーダル大型モデルシステムに基づき、ベースからエージェントまでの統合ソリューションを提供します。
  2. 従来のスクリプトツールと比べて、Open-AutoGLMは「インターフェースを理解するエージェント」であり、スクリプトの保守コストが低く、より強い汎用性を持っています。
  3. その他の携帯電話エージェントソリューション:オープンソース+民営化された展開特性は、製造業者や企業の自己構築能力により適しています。

6. 制限と注意点

  1. 計算能力コスト:9Bスケールモデルは依然として局所推論に強力な計算能力を必要とし、GPUやクラウド環境に依存する場合があります。
  2. 互換性と保守:異なるモデル、システムバージョン、アプリのアップデートによって認識効果が影響し、継続的な調整が必要です。
  3. セキュリティとコンプライアンス:アカウント、支払い、プライベートデータに関しては、権限の厳格な管理が必要であり、各アプリの法律や利用規約も遵守しなければなりません。
  4. アンチアビューズリスク:ブラッシングボリュームや悪意あるクロールなどのシナリオには適さず、組織内で使用するための明確な境界設定が必要です。

7. プロジェクトアドレス

 https://github.com/zai-org/Open-AutoGLM

8. FAQ

: Open-AutoGLMのオープンソースライセンスとは何ですか? 商業的な場面で使えますか?

回答:このプロジェクトは緩やかなオープンソースプロトコル(例えばApache-2.0)を採用しており、契約、関連法律、プラットフォーム条件を遵守するという前提で商用開発と展開に利用できます。

質問:AutoGLM-Phone-9BモデルはOpen-AutoGLMで使用しなければならないのでしょうか?

回答:いいえ、必要ありません。 AutoGLM-Phone-9Bは他のエージェントフレームワークでマルチモーダルモデルとして単独で使用できますが、より完全な電話自動化機能を目的にOpen-AutoGLMと組み合わせて使用することも可能です。

質問:Open-AutoGLMは現在主にどのプラットフォームをサポートしていますか?

回答:現在はAndroidデバイスのサポートに注力しており、制御はADBチャネルに依存しています。iOS側は追加の機能やソリューションが必要です。

Q: 本番環境でのモバイルエージェント展開におけるベストプラクティスにはどのようなものがありますか?

回答:特別なデバイスやクラウドフォンの使用、権限の最小化、テストアカウントと公式アカウントの分離、主要な業務に対する手動確認またはリスク管理ポリシーの追加が推奨されます。

Open-AutoGLMモバイルエージェントフレームワークの導入 AutoGLM-Phone-9B モバイルエージェントの能力分析 Open-AutoGLMは携帯電話画面のマルチモーダル機能を理解しています Open-AutoGLM、中国語自然言語が携帯電話運用を牽引 Open-AutoGLMベースのAndroid電話アシスタントをビルド Open-AutoGLMはWeChat、淘宝、抖音、美団の各アプリケーションをサポートしています Open-AutoGLMを使ってアプリ間のタスクチェーンを自動化します Open-AutoGLMのビジュアルテキストと認識ボタンアイコンの組み合わせ Open-AutoGLMはADBを通じて実際のマシンやクラウドフォンを制御します Open-AutoGLMはクリック・トゥ・スワイプ入力やその他の操作コマンドをサポートしています AutoGLM-Phone-9Bモデルのオープンソースダウンロードおよび展開ガイド Open-AutoGLM環境の準備およびインストール設定ステップ Open-AutoGLMモデルはModelScopeまたはHFからメソッドを受け継ぎます ADBを使ってAndroidデバイスを接続してOpen-AutoGLMを動かします サンプルスクリプトでOpen-AutoGLMコマンドリンクを素早く体験できます eコマースおよびローカルライフオートメーションのシナリオにおけるOpen-AutoGLM ソーシャルIMバッチ応答操作におけるOpen-AutoGLMの応用 AppUIの自動テスト回帰にはOpen-AutoGLMを使用 Open-AutoGLMのマルチモデルおよびマルチバージョンUI再生および互換性スキーム Open-AutoGLMと従来の座標スクリプト自動化ツールの比較 Open-AutoGLMはスクリプト保守コストを削減し、一般化能力を向上させます Open-AutoGLMとZhipu GLMのマルチモーダルモデルシステムは相乗効果があります オープンオートGLMモバイルエージェント実践の民営化 AutoGLM-Phone-9Bは汎用マルチモーダルモデルとして使用されています AutoGLM-Phone-9Bは、他のエージェントフレームワークと接続するためのベストプラクティスです Open-AutoGLM ローカル推論計算能力とGPUリソース評価 クラウドでのAutoGLM-Phone-9B推論展開に関する推奨事項 Open-AutoGLMは異なるモデルやAndroidバージョンに対応しています Open-AutoGLMは、頻繁なアプリ更新のためのチューニング戦略です モバイルエージェントは、アカウント決済データのセキュリティおよびコンプライアンスポイントを含みます Open-AutoGLMの使用はプラットフォーム利用規約および適用される法律の対象となります Open-AutoGLMがブラシの悪意あるクロールなどの悪用に使われるのを防ぐ 組織内でのOpen-AutoGLM利用の境界と仕様を確立する Open-AutoGLMオープンソースプロトコルApache 2 point 0の商用説明 商用シナリオにおけるOpen-AutoGLMの実装に関する注意事項 AutoGLM-Phone-9BはOpen-AutoGLMで使わなければならないのでしょうか? Open-AutoGLMは現在Androidプラットフォームをサポートしています クラウド電話クラスタを用いたOpen-AutoGLMの展開に関するベストプラクティス 本番環境でのOpen-AutoGLMモバイルエージェント展開のための運用ガイド Open-AutoGLMテストアカウントの公式アカウントからの分離ポリシー Open-AutoGLMは、主要な高リスク作業に対して手動確認機能を追加 Open-AutoGLMをベースにしたエンタープライズグレードのスマートフォンアシスタントを構築しましょう Open-AutoGLM 典型的な自動化タスクおよびアプリケーションシナリオ一覧 Open-AutoGLMGitHubプロジェクトのアドレスとコアディレクトリの記述 Open-AutoGLMと他のモバイルエージェントソリューションの比較 Open-AutoGLMが運用中のカスタマーサービスプロセスの効率向上における価値 eコマース検索価格比較ケースにおけるOpen-AutoGLM Open-AutoGLMは、コンテンツ検索とリンク共有の実用的な応用例です クロスアプリタスクリンクのためのOpen-AutoGLM設計実装アイデア Open-AutoGLMの未来機能拡張方向性とコミュニティ生態系

関連記事

OpenAIの幹部はGPT-5.2のリリースを予定通りに行うことを強く望み、従業員も当初は仕上げを延期したいと考えていたと報じられています

OpenAIの幹部はGPT-5.2のリリースを予定通りに行うことを強く望み、従業員も当初は仕上げを延期したいと考えていたと報じられています

最近、GPT-5.2が今週中にリリースされるという未確認の情報が出ています。 情報筋によると、OpenAI内の一部の従業員はモデルのパフォーマンス向上のためにリリースを遅らせることを望んでいましたが、...

Qwenコード v0.2.2–v0.3.0 アップデート:Stream JSONとグローバル多言語サポートを導入

Qwenコード v0.2.2–v0.3.0 アップデート:Stream JSONとグローバル多言語サポートを導入

v0.2.2からv0.3.0への連続したバージョンアップデートで、Qwen CodeはStream JSONサポートと完全な国際化システムの2つのコア機能を導入しました。 新バージョンは --outp...

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0はエージェントと統合する価値がありますか? 長期記憶は役立ちますが、境界線を管理する必要があります

Mem0は、AIアプリケーションやエージェント向けのオープンソースメモリ層プロジェクトで、アプリのユーザーの好み、歴史的事実、長期的な文脈を記憶するのを支援することを目的としています。 パーソナライズ...

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

ヘイスタックはどのようなチームに適しているのでしょうか? むしろコンポジタブルなRAGエンジニアリングフレームワークのようなものです

HaystackはDeepSetが保守するオープンソースのAIアプリケーションフレームワークで、RAG構築、ドキュメントQ&A、検索パイプライン、LLMワークフローの構築に一般的に使用されています。 ...

おすすめツール

もっと見る