통이첸웬(Tongyi Qianwen)이 차세대 시각 언어 모델인 Qwen3-VL 을 출시했습니다. 주력 모델인 Qwen3-VL-235B-A22B는 Instruct 와 Thinking의 두 가지 오픈 소스 버전으로 제공됩니다. 공식 자료에 따르면 Instruct는 여러 시각 벤치마크에서 Gemini 2.5 Pro보다 우수한 성능을 보이며, Thinking은 다중 모드 추론 작업에서 탁월한 성과를 달성했습니다. 이 모델은 PC/모바일 인터페이스에서 버튼을 해석하고, 도구를 호출하고, 실제 작업을 완료할 수 있는 "시각적 에이전트"를 지원하며, OS World 와 같은 벤치마크에서 탁월한 성능을 보였습니다.
이 업그레이드는 긴 맥락과 복잡한 시나리오에 대한 처리 능력을 강화합니다. 256KB 이상의 맥락을 지원하며, 최대 1MB 까지 확장 가능하고, 약 2시간 분량의 비디오와 여러 페이지로 구성된 PDF를 처리할 수 있습니다. 또한 32개 언어로 OCR을 제공하며(흐릿하고, 비뚤어지고, 희귀한 문자에 대한 견고성 향상), 2D/3D 공간 이해, 오클루전 및 관점 추론에서 더욱 강력한 성능을 제공합니다. 개방형 생태계와 관련하여 온라인 대화(Qwen Chat), API(Alibaba Cloud Model Studio), Hugging Face/ModelScope 가중치 및 데모가 모두 동시에 출시되었습니다.
자주 묻는 질문
질문: 이번에는 어떤 변형이 오픈소스인가요?
A: Qwen3-VL-235B-A22B 지침 및 사고 , 또한 캡션/데모 리소스와 추론 예시를 제공합니다.
질문: 비주얼 에이전트는 무엇을 할 수 있나요?
답변: 화면 요소와 계층 구조를 읽고, 버튼과 양식을 이해하고, 도구 호출을 사용하여 실제 장치/애플리케이션에서 작업을 완료합니다.
질문: 긴 컨텍스트는 얼마나 크게 지원되나요?
A: 256K+ 로 표시되어 있으며 1M 레벨까지 확장이 가능하여 긴 영상과 긴 문서 시나리오에 적합합니다.
질문: 다국어 기능의 범위는 어디까지인가요?
A: 32개 언어의 OCR을 지원하고, 텍스트 기능은 교차 언어 화면 읽기 및 이해를 위한 최고 일반 모델에 맞춰 조정되었습니다.
질문: 어떻게 체험하거나 접근할 수 있나요?
A: Qwen Chat을 사용하려면 qwen3-vl-plus를 선택하세요. Alibaba Cloud Model Studio에서 API를 제공합니다. 가중치와 데모는 Hugging Face/ModelScope에서 확인할 수 있습니다.