돌아가기 AI 정보
Qwen3-VL 출시: 플래그십 235B 모델 오픈 소스, 교육/사고 버전 제공

Qwen3-VL 출시: 플래그십 235B 모델 오픈 소스, 교육/사고 버전 제공

AI 정보 Admin 116 회 조회

통이첸웬(Tongyi Qianwen)이 차세대 시각 언어 모델인 Qwen3-VL 을 출시했습니다. 주력 모델인 Qwen3-VL-235B-A22B는 InstructThinking의 두 가지 오픈 소스 버전으로 제공됩니다. 공식 자료에 따르면 Instruct는 여러 시각 벤치마크에서 Gemini 2.5 Pro보다 우수한 성능을 보이며, Thinking은 다중 모드 추론 작업에서 탁월한 성과를 달성했습니다. 이 모델은 PC/모바일 인터페이스에서 버튼을 해석하고, 도구를 호출하고, 실제 작업을 완료할 수 있는 "시각적 에이전트"를 지원하며, OS World 와 같은 벤치마크에서 탁월한 성능을 보였습니다.

이 업그레이드는 긴 맥락과 복잡한 시나리오에 대한 처리 능력을 강화합니다. 256KB 이상의 맥락을 지원하며, 최대 1MB 까지 확장 가능하고, 약 2시간 분량의 비디오와 여러 페이지로 구성된 PDF를 처리할 수 있습니다. 또한 32개 언어로 OCR을 제공하며(흐릿하고, 비뚤어지고, 희귀한 문자에 대한 견고성 향상), 2D/3D 공간 이해, 오클루전 및 관점 추론에서 더욱 강력한 성능을 제공합니다. 개방형 생태계와 관련하여 온라인 대화(Qwen Chat), API(Alibaba Cloud Model Studio), Hugging Face/ModelScope 가중치 및 데모가 모두 동시에 출시되었습니다.

자주 묻는 질문

질문: 이번에는 어떤 변형이 오픈소스인가요?

A: Qwen3-VL-235B-A22B 지침사고 , 또한 캡션/데모 리소스와 추론 예시를 제공합니다.

질문: 비주얼 에이전트는 무엇을 할 수 있나요?

답변: 화면 요소와 계층 구조를 읽고, 버튼과 양식을 이해하고, 도구 호출을 사용하여 실제 장치/애플리케이션에서 작업을 완료합니다.

질문: 긴 컨텍스트는 얼마나 크게 지원되나요?

A: 256K+ 로 표시되어 있으며 1M 레벨까지 확장이 가능하여 긴 영상과 긴 문서 시나리오에 적합합니다.

질문: 다국어 기능의 범위는 어디까지인가요?

A: 32개 언어의 OCR을 지원하고, 텍스트 기능은 교차 언어 화면 읽기 및 이해를 위한 최고 일반 모델에 맞춰 조정되었습니다.

질문: 어떻게 체험하거나 접근할 수 있나요?

A: Qwen Chat을 사용하려면 qwen3-vl-plus를 선택하세요. Alibaba Cloud Model Studio에서 API를 제공합니다. 가중치와 데모는 Hugging Face/ModelScope에서 확인할 수 있습니다.

Qwen3-VL 오픈소스 릴리스 큐웬3-VL-235B-A22B Qwen3-VLInstruct 버전 Qwen3-VLThinking 에디션 Qwen3-VL 비주얼 에이전트 Qwen3-VLVisualAgent Qwen3-VL 긴 컨텍스트 256K Qwen3-VL 컨텍스트 확장 1M Qwen3-VL 2시간 영상 이해 Qwen3-VL 다중 페이지 PDF 구문 분석 Qwen3-VL 다중 모드 추론 Qwen3-VL이 Gemini2\_5Pro를 능가합니다 Qwen3-VLOSWorld 평가 리드 Qwen3-VL32 언어 OCR Qwen3-VL 퍼지 텍스트 인식 Qwen3-VL 기울어진 텍스트 견고성 Qwen3-VL 희귀 문자 OCR Qwen3-VL2D_3D 공간 이해 Qwen3-VL 폐색 추론 Qwen3-VL 관점 추론 Qwen3-VL 화면에 버튼이 표시됩니다. Qwen3-VL 양식 자동화 Qwen3-VL 도구 호출 Qwen3-VL 실제 장치 작동 Qwen3-VLPC 모바일폰 지원 Qwen3-VL 및 QwenChat 액세스 Qwen3-VL모델스튜디오API Qwen3-VLHuggingFace 웨이트 Qwen3-VLModelScope 미러 Qwen3-VLCaption 리소스 Qwen3-VL 데모 Qwen3-VL 다국어 화면 리더 Qwen3-VL 복잡한 장면 커버리지 Qwen3-VL 긴 문서 처리 Qwen3-VL 비디오 Q&A Qwen3-VL은 다중 모달 평가에서 선두를 달리고 있습니다. Qwen3-VL 교차 언어 이해 Qwen3-VL 오픈소스 가중치 다운로드 Qwen3-VL 추론 예제 Qwen3-VLAPI 접속 가이드 Qwen3-VL 생태적 적합성 Qwen3-VL 및 툴 체인 협업 Qwen3-VL 개발자 친화적 Qwen3-VL 엔터프라이즈 애플리케이션 시나리오 Qwen3-VL 벤치마크 유니버설 모델 Qwen3-VL 화면 요소 계층 구조 Qwen3-VL 버튼 형태 이해 Qwen3-VL 장편 영상 키포인트 추출 Qwen3-VL 다중 페이지 PDF 요약 Qwen3-VL 리뷰 하이라이트

추천 도구

더보기