Retour à Informations sur l’IA
Qwen annonce : Qwen3-VL est désormais disponible sur llama.cpp, avec des poids GGUF allant de 2B à 235B.

Qwen annonce : Qwen3-VL est désormais disponible sur llama.cpp, avec des poids GGUF allant de 2B à 235B.

Informations sur l’IA Admin 490 vues

Qwen a annoncé officiellement que son modèle de langage visuel, Qwen3-VL, est désormais pris en charge nativement par llama.cpp, et qu'une gamme complète de poids GGUF est disponible, couvrant diverses spécifications de 2 octets à 235 octets. Il peut s'exécuter directement sur le CPU, CUDA, Metal, Vulkan et d'autres plateformes. Les liens de téléchargement sont disponibles sur Hugging Face et la communauté Moda, permettant aux utilisateurs de choisir la version de quantification en fonction de leur appareil et de la précision souhaitée.

La demande de fusion pour llama.cpp a été intégrée au dépôt principal, ce qui indique l'ajout de la prise en charge du chargement et de l'inférence de Qwen3-VL (y compris les variantes Dense et MoE). Le dépôt Qwen et la documentation ont également été mis à jour avec les instructions d'exécution locale et d'utilisation de GGUF. Globalement, cette mise à jour concrétise l'ensemble des trois éléments suivants : « annonce officielle + publication des poids + prise en charge du framework d'inférence », facilitant ainsi le déploiement de modèles multimodaux de grande taille sur les appareils périphériques et personnels.

Foire aux questions

Q : Que comprend exactement cette mise à jour ?

A: Le tronc llama.cpp a été fusionné dans le support Qwen3-VL ; le site Web officiel a également publié les poids GGUF de 2B à 235B et a fourni une page de collection pour faciliter le téléchargement et la sélection des quantifications.

Q : Sur quel matériel peut-il fonctionner ?

A: Selon les déclarations officielles, il prend en charge les backends tels que CPU, NVIDIA CUDA, Apple Metal et Vulkan, et est compatible avec les environnements de bureau et portables courants.

Q : Où puis-je me procurer les poids ?

A: Hugging Face et ModelScope fournissent tous deux des collections Qwen3-VL et des dépôts GGUF correspondants.

Q : Comment le statut de fusion est-il confirmé ?

A : La PR pour llama.cpp a été marquée comme « Fusionnée ». Vous pouvez consulter l'historique des modifications et des commits dans le dépôt principal.

Q : Est-ce qu'il comprend un guide d'utilisation ?

A: La documentation et le dépôt Qwen fournissent des instructions pour exécuter llama.cpp localement et utiliser GGUF, couvrant l'acquisition du modèle et des exemples de démarrage.

Qwen3-VL prend en charge nativement llama.cpp Publication officielle des poids GGUF pour toute la série Qwen3-VL. Plusieurs spécifications, de 2B à 235B, sont disponibles au téléchargement. Prise en charge des processeurs, CUDA, Metal et Vulkan pour l'exécution locale. Compatibilité du chargement et de l'inférence des variantes denses et MoE La PR du dépôt principal pour llama.cpp a été fusionnée dans un état Fusionné. HuggingFace et Moda Community sont lancés simultanément. Sélectionnez la version de quantification en fonction de l'appareil et de la précision. Déploiement local de modèles multimodaux de langage visuel Réduire les barrières à l'entrée pour le déploiement en périphérie et sur appareils personnels Mise à jour du dépôt Qwen - Guide d'utilisation de GGUF La documentation comprend des exemples d'exécution locale et de démarrage. Le cadre d'inférence prend en charge une suite de publication de poids en trois parties. Expérience d'exécution en un clic pour les environnements de bureau et portables Large éventail d'adaptations backend sur plusieurs plateformes Pratiques multiplateformes pour Windows, macOS et Linux Guide d'inférence accélérée CUDA pour les cartes graphiques NVIDIA Tutoriel de déploiement du backend AppleMetal sur Mac Solution d'exploitation légère pour périphériques Vulkan Évaluation des performances du processeur et des besoins en mémoire vidéo Recommandations pour le choix de la précision de quantification de Qwen3-VL Méthode de téléchargement et de vérification du poids GGUF Sécurité et confidentialité de l'inférence multimodale locale Dense vs. MoE : compromis entre performance et ressources Exemple d'utilisation de l'entrée d'image de la caméra Chargement des paramètres et des paradigmes de commande dans llama.cpp Démonstration des compétences de Qwen3-VL en matière de conversation et de reconnaissance d'images Configuration combinant RAG et appels d'outils Liste de vérification des erreurs courantes de déploiement local et de dépannage Schéma de quantification pour le fonctionnement des dispositifs à faible mémoire Techniques d'optimisation de la vitesse d'inférence et de configuration des threads Structure et conventions d'appellation du répertoire de poids du modèle Points de repère pour l'évaluation communautaire et données comparatives transversales Écosystème de plugins et idées d'intégration d'interface utilisateur front-end Expérience de chargement de plusieurs GPU et de modèles de grande taille Avantages du traitement hors ligne des données personnelles protégées Considérations relatives aux licences open source et à la conformité commerciale Exemple d'appel à l'API Python Meilleures pratiques pour l'ingénierie des mots-clés multimodaux Configuration du traitement par lots automatisé et de l'inférence en flux continu Référence pour la mise en œuvre de scénarios d'application d'IA en périphérie Méthodes de mise à jour du modèle et de suivi des versions ultérieures Navigation rapide des pages de la collection Magic et HF L'impact de la largeur de bits de quantification sur la compréhension de l'image Paramètres d'échantillonnage d'images vidéo et d'analyse d'images longues Capacité de reconnaissance optique de caractères multilingue et de compréhension des sous-titres Scripts d'évaluation locaux et méthodes de collecte des journaux Ligne de commande minimale au démarrage, fonctionnelle dès la sortie de la boîte. Techniques combinant GGUF et mise en cache KV Guide du débutant pour le speedrun de Qwen3-VL

Outils Recommandés

Plus