알리바바 클라우드는 모델 스튜디오에서 Qwen3-VL-Flash를 출시했습니다. 이 제품은 이미지 및 비디오 이해를 위한 "사고 모드" 및 "비사고 모드" 추론 경로를 모두 제공합니다. 공식 문서에 따르면 Qwen3-VL-Flash 시리즈는 비사고 모드에서 약 260,096개 토큰, 사고 모드에서 258,048개 토큰(간격별로 청구)의 컨텍스트 제한을 가지며, 이미지당 최대 16,384개 토큰의 시각적 입력을 지원합니다. 이 시리즈는 빠른 응답 속도와 낮은 통화 비용을 특징으로 하며, 긴 비디오 및 긴 문서와 같이 부하가 높은 시나리오에 적합합니다.
Model Studio 설명서에는 비디오 이해, 이벤트 위치 및 타임스탬프 추출, 2D/3D 객체 감지, 공간 관계 및 오클루전 감지 기능이 나열되어 있습니다. 또한 문서 구문 분석, 수식/표 인식, 다국어 OCR 기능을 다루며, "사고 모드"(enable_thinking)를 활성화 또는 비활성화하는 인터페이스 매개변수를 제공합니다. 공식 자료에 따르면 새로운 모델은 오픈 소스 Qwen3-VL-30B-A3B 및 Qwen2.5-72B에 비해 속도, 전반적인 기능 및 비용 측면에서 이점을 제공한다고 합니다. 구체적인 비교 세부 정보 및 제3자 재테스트 결과는 아직 공개되지 않았습니다.
자주 묻는 질문
질문: Qwen3-VL-Flash의 컨텍스트 제한은 무엇입니까?
답변: 이 문서에는 비사고 모드에서 약 260,096개의 토큰과 사고 모드에서 약 258,048개의 토큰이 나열되어 있으며, 가격은 0~32K, 32K~128K, 128K~256K의 세그먼트로 책정되어 있습니다.
질문: '생각 모드/비사고 모드'를 어떻게 전환하나요?
답변: 이는 API 호출의 enable_thinking 매개변수에 의해 제어됩니다. 사고 모델은 답변을 제공하기 전에 암묵적 추론을 수행하는 반면, 비사고 모델은 답변을 직접 생성합니다.
질문: 일반적으로 어떤 시나리오가 지원되나요?
답변: 긴 영상과 긴 문서에 대한 질의응답/요약, 2D/3D 객체 감지 및 공간적 위치 파악, 문서 구문 분석(표와 수식 포함), 다국어 OCR, 비전 기반 에이전트 작업 제어.
질문: 오픈 소스 Qwen3-VL-30B-A3B와 Qwen2.5-72B는 어떤 관계가 있나요?
A: 공식적으로는 속도, 성능, 비용 면에서 우월하다고 주장하지만, 이는 제조사 측의 주장일 뿐입니다. 이후 공개 벤치마크와 제3자 평가 결과를 주의 깊게 살펴보는 것이 좋습니다.
질문: 가격은 어디에서 확인할 수 있나요?
답변: Alibaba Cloud Model Studio의 Visual Understanding 설명서와 모델/청구 페이지에서 qwen3-vl-flash에 대한 컨텍스트, 세분화된 가격 책정 및 샘플 코드를 볼 수 있으며, 콘솔 설명서 페이지를 통해 API 지침을 얻을 수 있습니다.