Qwen官方宣布,视觉语言模型Qwen3-VL现已在llama.cpp获得原生支持,并同步发布全系GGUF权重,覆盖2B至235B等多种规格,可在CPU、CUDA、Metal、Vulkan等后端直接本地运行。配套下载入口已在Hugging Face与魔搭社区上线,便于按设备与精度选择量化版本。
llama.cpp的合并请求已在主仓合入,说明新增对Qwen3-VL(含Dense与MoE变体)的加载与推理支持;Qwen仓库与文档亦更新本地运行与GGUF使用指引。整体来看,本次更新实现“官方宣告+权重发布+推理框架支持”三件套落地,降低了多模态大模型在边缘与个人设备的部署门槛。
常见问题
Q:这次更新具体包含什么?
A:llama.cpp主干已合入Qwen3-VL支持;官方同时发布2B至235B等GGUF权重,并提供集合页便于下载与选择量化。
Q:能在哪些硬件上运行?
A:官方口径支持CPU、NVIDIA CUDA、Apple Metal、Vulkan等后端,适配常见桌面与笔记本环境。
Q:在哪里获取权重?
A:Hugging Face与ModelScope均提供Qwen3-VL集合与对应GGUF仓库。
Q:合并状态如何确认?
A:llama.cpp的PR已显示“Merged”,可在主仓查看变更与提交记录。
Q:是否包含运行指南?
A:Qwen文档与仓库提供llama.cpp本地运行与GGUF使用说明,涵盖模型获取与启动示例。