1. 추상
적Open-AutoGLM은 Zhipu AI용 오픈소스 모바일 폰 에이전트 프레임워크이며, 핵심 모델은 AutoGLM-Phone-9B입니다. 휴대폰 화면의 내용을 이해하고 실제 사용자 조작을 시뮬레이션하여 "인터페이스 이해, 지시사항 이해, 휴대폰 클릭"을 달성합니다. 이 프레임워크는 주로 안드로이드 시나리오용이며, 모바일 어시스턴트, 자동화 운영, 테스트 등 다양한 애플리케이션 구축에 적합합니다.
2. 핵심 기능
- 자연어 구동: 중국어 자연어로 작업을 설명하고 다단계 작전 계획을 자동으로 생성합니다.
- 화면에 대한 다중 모달 이해: 비전과 텍스트를 결합하여 버튼, 아이콘, 카피라이팅, 레이아웃을 인식할 수 있도록 순수 좌표 스크립트가 아닙니다.
- ADB 제어 실행: 클릭, 스와이프, 입력 및 기타 동작은 ADB를 통해 완료할 수 있으며, 실제 기기나 클라우드 폰에 연결할 수 있습니다.
- 멀티앱 시나리오: 위챗, 타오바오, 두인, 메이투안과 같은 고빈도 애플리케이션을 위해 설계되었으며, 크로스 앱 작업 체인을 지원합니다.
- 오픈 소스 모델: AutoGLM-Phone-9B는 일반 휴대전화 에이전트 모델로서 2차 학습과 적응에 편리합니다.
3. 설치
- 환경 준비: 파이썬과 필요한 의존성 라이브러리를 설치하며, 가상 환경을 사용하는 것이 권장됩니다.
- 저장소 복제: git을 Open-AutoGLM으로 복제하고 README에 따라 프로젝트를 구성합니다.
- 모델 다운로드: 공식 ModelScope 또는 HuggingFace 주소에서 AutoGLM-Phone-9B 무게를 받아보세요.
- 기기 연결: 안드로이드 개발자 모드와 USB 디버깅을 켜고, ADB로 기기 연결이 완료되었는지 확인하세요.
- 예제 실행: 샘플 스크립트를 실행하고 간단한 명령어를 테스트하여 링크를 검증합니다.
4. 일반적인 사용 사례
- 스마트폰 어시스턴트: 자동 앱 열기, 콘텐츠 검색, 메시지 전송, 링크 공유 기능.
- 전자상거래 및 지역 생활 자동화: 상품 검색, 가격 비교, 주문 진행 상황 확인.
- 운영 및 고객 서비스 도구: 일괄 답변 또는 소셜 /IM 앱에서의 프로세스 안내.
- 자동화 테스트: 다중 모델 및 다중 버전 앱에 대한 UI 회귀 테스트 및 장면 재생을 수행합니다.
5. 생태학과 경쟁 제품
- GLM 시리즈와의 시너지: Zhipu가 자체 개발한 다중 모달 대형 모델 시스템에 의존하여 기지부터 에이전트까지 통합된 솔루션을 제공합니다.
- 전통적인 스크립팅 도구와 비교할 때: Open-AutoGLM은 '인터페이스를 이해하는 에이전트'에 가깝며, 스크립트 유지 비용이 더 적고 일반화가 더 강합니다.
- 기타 이동통신 에이전트 솔루션: 오픈 소스 + 민영화된 배포 특성은 제조업체와 기업의 자체 구축 능력에 더 적합합니다.
6. 제한 및 주의사항
- 컴퓨팅 파워 비용: 9B 규모 모델은 여전히 로컬 추론을 위해 강력한 컴퓨팅 파워를 필요로 하며, GPU나 클라우드 환경에 의존할 수 있습니다.
- 호환성 및 유지보수: 모델, 시스템 버전, 앱 업데이트에 따라 인식 효과가 영향을 받으며 지속적인 조정이 필요합니다.
- 보안 및 준수: 계정, 결제, 개인 데이터에 관해서는 권한을 엄격히 통제해야 하며, 각 앱의 법률과 이용 약관을 준수해야 합니다.
- 악용 방지 위험: 브러시 용량이나 악성 크롤링 같은 상황에는 적합하지 않으며, 조직 내에서 명확한 사용 경계를 설정하는 것이 필요합니다.
7. 프로젝트 주소
https://github.com/zai-org/Open-AutoGLM
8. FAQ
: Open-AutoGLM 오픈 소스 라이선스란 무엇인가요? 상업용 시나리오에서 사용할 수 있나요?
답변: 이 프로젝트는 Apache-2.0과 같은 느슨한 오픈 소스 프로토콜을 채택하며, 계약, 관련 법률, 플랫폼 조건을 준수한다는 전제 하에 상업적 개발 및 배포에 사용할 수 있습니다.
질문: AutoGLM-Phone-9B 모델을 Open-AutoGLM과 함께 사용해야 하나요?
답변: 아니요, 그럴 필요는 없습니다. AutoGLM-Phone-9B는 다른 에이전트 프레임워크에서 멀티모달 모델로도 사용할 수 있지만, 보다 완전한 전화 자동화 기능을 위해 Open-AutoGLM과 함께 사용할 수도 있습니다.
질문: 현재 Open-AutoGLM이 주로 지원하는 플랫폼은 무엇인가요?
답변: 현재는 안드로이드 기기 지원에 중점을 두고 있으며, 통제는 ADB 채널에 의존하고 있습니다. iOS 쪽은 추가 기능이나 해결책이 필요합니다.
Q: 모바일 에이전트를 프로덕션에서 배포할 때 어떤 모범 사례가 있나요?
답변: 특수 기기나 클라우드 폰 사용, 권한을 최소화, 테스트 계정과 공식 계정 분리, 주요 운영에 대한 수동 확인 또는 위험 관리 정책을 추가하는 것이 권장됩니다.