돌아가기 AI는 오픈 소스입니다.
GLM-4.5V 출시: 오픈 소스 시각적 추론이 다중 양식을 "생각하는" 시대로 진입

GLM-4.5V 출시: 오픈 소스 시각적 추론이 다중 양식을 "생각하는" 시대로 진입

AI는 오픈 소스입니다. Admin 4 회 조회

Z.ai 오픈 소스 시각 언어 모델 GLM-4.5V를 공식적으로 발표했습니다. 이 모델은 40+ 공개 벤치마크를 포괄하고 다중 모드 시각적 추론 기능에 중점을 둔 동급 오픈 소스 모델 중 선두주자입니다. GLM-4.5V는 GLM-4.5-Air 베이스를 기반으로 하며 106B 매개변수 MoE(Expert Hybrid) 아키텍처를 채택하여 GLM-4.1V-Thinking의 "생각" 기술 경로를 이어가고 온라인 경험 및 API 액세스를 제공합니다.


1. 모델 포지셔닝 및 기술 경로:

  1. 일반적인 시각적 추론 및 다중 모드 에이전트를 위한 오픈 소스 VLM.
  2. GLM-4.5-Air를 기준으로 총 MoE 매개변수는 약 106B이고 활성 매개변수는 약 12B입니다.
  3. "Think/Fast Mode" 전환 소개: 심층 추론과 응답 대기 시간 간의 유연한 절충.
  4. GLM-4.1V-Thinking의 확장 가능한 강화 학습 및 추론 패러다임을 계속 사용하십시오.


2. 기능 범위 및 일반적인 작업

이미지
  1. 이해 및 다중 이미지 추론: 장면 이해, 교차 그래프 정렬 및 공간 관계 추론.
  2. 비디오 이해: 긴 비디오 분할, 이벤트 인식, 시간 색인 설명.
  3. 문서 및 표: 긴 문서 읽기, OCR, 표 추출, 차트 구문 분석.
  4. GUI/에이전트 시나리오: 화면 읽기, 요소 위치 지정, 클릭/스와이프 등과 같은 운영 계획
  5. 접지: 정확한 타겟팅 및 레이아웃 이해.


3. 벤치마크 성능 및 규모 포지셔닝

  1. 관계자들은 41-42개의 공개 벤치마크를 포괄하는 동일한 규모의 오픈 소스 모델에서 선두 위치를 달성했다고 말합니다.
  2. 주요 지표에는 이미지 Q&A, 비디오 이해도, OCR/DocVQA, 차트 Q&A, 공간 및 프런트엔드 이해 등이 포함됩니다.
  3. 단순히 점수를 쫓는 것이 아니라 "재현 가능한 검증 + 엔지니어링 사용성" 사이의 균형을 맞추는 것이 목표입니다.


4. 개방형 및 사용법

  1. 오픈 소스 가중치 및 모델 카드: 쉬운 추론 및 배포를 위해 표준 및 FP8 변형을 제공합니다.
  2. 코드 및 평가: 트랜스포머를 빠르게 시작하는 데 도움이 되는 개방형 저장소 및 예제입니다.
  3. 온라인 경험 및 API: 웹 대화와 공식 플랫폼 API를 제공하여 멀티모달 입력을 지원합니다.
  4. 라이선스 및 생태학: 오픈 소스 라이선스가 채택됩니다. 평가 저장소, 데모 공간 및 커뮤니티 토론 게시판을 지원합니다.


5. 구현 제안(엔지니어링 관점)

  1. 리소스 계획: MoE 대규모 모델 배포를 위해 온라인 API/FP8 파일럿을 사용한 다음 로컬 다중 카드를 평가하는 것이 좋습니다.
  2. 평가 및 보정: 긴 문서의 견고성과 분석 정확도에 중점을 둔 자체 샘플을 사용한 A/B.
  3. 보안 및 규정 준수: OCR/문서 시나리오에 대한 둔감화, 레드라이닝 및 데이터 추적 정책을 추가합니다.
  4. 관찰 및 재생: 입력, 출력 및 사고 궤적(있는 경우)을 기록하여 쉽게 회고하고 지속적인 최적화를 수행합니다.
  5. 조합 패러다임: 검색/도구 호출과 결합하여 엔드 투 엔드 다중 모드 에이전트 워크플로를 구축합니다.


Q&A 자주 묻는 질문

Q: GLM-4.5V는 오픈 소스인가요? 라이센스는 무엇입니까?

A: 오픈 소스 모델이며 모델 카드는 MIT의 라이선스로 표시되어 있습니다.

Q: 어떤 양식이 지원됩니까?

A: 이미지, 비디오, 텍스트 및 파일 입력을 지원합니다. 출력은 텍스트이며 경계 상자 좌표와 같은 구조화된 정보와 함께 제공될 수 있습니다.

Q: 어떻게 빨리 경험하나요?

A: 온라인 대화를 위해 공식 웹사이트를 직접 사용할 수 있습니다. 공식 API나 Hugging Face Demo를 통해서도 체험할 수 있습니다.

Q: 로컬 추론을 시작하는 방법은 무엇입니까?

A: 트랜스포머 예제와 추론 스크립트가 공식적으로 제공됩니다. 메모리 압력을 줄이기 위해 FP8 변형도 사용할 수 있습니다. 프로덕션 환경은 먼저 API를 거친 다음 자체 호스팅 비용을 평가할 수 있습니다.

Q: GLM-4.1V-Thinking과의 관계?

A: "사고" 훈련 및 추론 아이디어를 계승하고 더 큰 MoE 아키텍처에서 효과적으로 확장합니다.


Hugging Face(GLM-4.5V 모델 카드)

https://huggingface.co/zai-org/GLM-4.5V

GitHub(GLM-4.5 시리즈 및 도크 설명)

< href="https://github.com/zai-org/GLM-4.5" rel="noopener noreferrer" target="_blank">https://github.com/zai-org/GLM-4.5

온라인 경험(채팅)<

a href="https://chat.z.ai" rel="noopener noreferrer" target="_blank">https://chat.z.ai


추천 도구

더보기