Qwen은 자사의 시각 언어 모델인 Qwen3-VL이 이제 llama.cpp에서 기본적으로 지원된다고 공식 발표했으며, 2B부터 235B까지 다양한 사양을 포괄하는 전체 GGUF 가중치가 출시되었습니다. CPU, CUDA, Metal, Vulkan 및 기타 백엔드에서 직접 실행할 수 있습니다. Hugging Face와 Moda 커뮤니티에서 다운로드 링크를 통해 사용자는 기기 및 정밀도에 따라 양자화 버전을 선택할 수 있습니다.
llama.cpp에 대한 병합 요청이 기본 저장소에 통합되어 Qwen3-VL(Dense 및 MoE 변형 포함) 로딩 및 추론 지원이 추가되었음을 나타냅니다. Qwen 저장소와 문서도 로컬 실행 및 GGUF 사용 지침에 따라 업데이트되었습니다. 전반적으로 이번 업데이트는 "공식 발표 + 가중치 릴리스 + 추론 프레임워크 지원"이라는 세 가지 핵심 요소를 모두 구현하여 엣지 및 개인용 기기에서 멀티모달 대형 모델의 배포 기준을 낮춥니다.
자주 묻는 질문
질문: 이 업데이트에는 정확히 무엇이 포함되어 있나요?
A: llama.cpp 트렁크가 Qwen3-VL 지원에 통합되었습니다. 공식 웹사이트에서도 GGUF 가중치를 2B에서 235B로 공개하고, 정량화를 쉽게 다운로드하고 선택할 수 있는 수집 페이지를 제공했습니다.
질문: 어떤 하드웨어에서 실행할 수 있나요?
A: 공식 발표에 따르면 CPU, NVIDIA CUDA, Apple Metal, Vulkan 등의 백엔드를 지원하며, 일반적인 데스크톱 및 노트북 환경과 호환됩니다.
질문: 무게추는 어디서 구입하나요?
답변: Hugging Face와 ModelScope는 모두 Qwen3-VL 컬렉션과 해당 GGUF 저장소를 제공합니다.
질문: 병합 상태는 어떻게 확인되나요?
A: llama.cpp의 PR이 "병합됨"으로 표시되었습니다. 변경 사항 및 커밋 내역은 기본 저장소에서 확인할 수 있습니다.
질문: 러닝 가이드가 포함되어 있나요?
A: Qwen 설명서와 저장소는 llama.cpp를 로컬에서 실행하고 GGUF를 사용하는 방법에 대한 지침을 제공하며, 여기에는 모델 수집 및 시작 예제가 포함됩니다.