Qwen a annoncé officiellement que son modèle de langage visuel, Qwen3-VL, est désormais pris en charge nativement par llama.cpp, et qu'une gamme complète de poids GGUF est disponible, couvrant diverses spécifications de 2 octets à 235 octets. Il peut s'exécuter directement sur le CPU, CUDA, Metal, Vulkan et d'autres plateformes. Les liens de téléchargement sont disponibles sur Hugging Face et la communauté Moda, permettant aux utilisateurs de choisir la version de quantification en fonction de leur appareil et de la précision souhaitée.
La demande de fusion pour llama.cpp a été intégrée au dépôt principal, ce qui indique l'ajout de la prise en charge du chargement et de l'inférence de Qwen3-VL (y compris les variantes Dense et MoE). Le dépôt Qwen et la documentation ont également été mis à jour avec les instructions d'exécution locale et d'utilisation de GGUF. Globalement, cette mise à jour concrétise l'ensemble des trois éléments suivants : « annonce officielle + publication des poids + prise en charge du framework d'inférence », facilitant ainsi le déploiement de modèles multimodaux de grande taille sur les appareils périphériques et personnels.
Foire aux questions
Q : Que comprend exactement cette mise à jour ?
A: Le tronc llama.cpp a été fusionné dans le support Qwen3-VL ; le site Web officiel a également publié les poids GGUF de 2B à 235B et a fourni une page de collection pour faciliter le téléchargement et la sélection des quantifications.
Q : Sur quel matériel peut-il fonctionner ?
A: Selon les déclarations officielles, il prend en charge les backends tels que CPU, NVIDIA CUDA, Apple Metal et Vulkan, et est compatible avec les environnements de bureau et portables courants.
Q : Où puis-je me procurer les poids ?
A: Hugging Face et ModelScope fournissent tous deux des collections Qwen3-VL et des dépôts GGUF correspondants.
Q : Comment le statut de fusion est-il confirmé ?
A : La PR pour llama.cpp a été marquée comme « Fusionnée ». Vous pouvez consulter l'historique des modifications et des commits dans le dépôt principal.
Q : Est-ce qu'il comprend un guide d'utilisation ?
A: La documentation et le dépôt Qwen fournissent des instructions pour exécuter llama.cpp localement et utiliser GGUF, couvrant l'acquisition du modèle et des exemples de démarrage.