Qwen hat offiziell bekannt gegeben, dass sein visuelles Sprachmodell Qwen3-VL nun nativ in llama.cpp unterstützt wird und eine vollständige Palette von GGUF-Gewichten für verschiedene Spezifikationen von 2 Byte bis 235 Byte veröffentlicht wurde. Es kann direkt auf CPU, CUDA, Metal, Vulkan und anderen Backends ausgeführt werden. Download-Links sind jetzt auf Hugging Face und in der Moda-Community verfügbar, sodass Benutzer die Quantisierungsversion je nach Gerät und Genauigkeit auswählen können.
Der Merge-Request für llama.cpp wurde in das Haupt-Repository integriert. Dies bedeutet, dass nun Qwen3-VL (einschließlich der Varianten Dense und MoE) geladen und inferiert werden kann. Das Qwen-Repository und die zugehörige Dokumentation wurden außerdem um Richtlinien zur lokalen Ausführung und zur Verwendung von GGUF ergänzt. Mit diesem Update ist die Umsetzung der drei Schritte „Offizielle Ankündigung + Veröffentlichung der Gewichte + Unterstützung des Inferenz-Frameworks“ abgeschlossen. Dadurch wird die Bereitstellungsschwelle für multimodale große Modelle auf Edge- und persönlichen Geräten gesenkt.
Häufig gestellte Fragen
F: Was genau beinhaltet dieses Update?
A: Der llama.cpp-Trunk wurde in die Qwen3-VL-Unterstützung integriert; auf der offiziellen Website wurden außerdem GGUF-Gewichte von 2B bis 235B veröffentlicht und eine Übersichtsseite zum einfachen Herunterladen und Auswählen von Quantifizierungen bereitgestellt.
F: Auf welcher Hardware kann es laufen?
A: Laut offiziellen Angaben unterstützt es Backends wie CPU, NVIDIA CUDA, Apple Metal und Vulkan und ist mit gängigen Desktop- und Laptop-Umgebungen kompatibel.
F: Wo bekomme ich die Gewichte her?
A: Sowohl Hugging Face als auch ModelScope bieten Qwen3-VL-Sammlungen und entsprechende GGUF-Repositories an.
F: Wie wird der Zusammenführungsstatus bestätigt?
A: Der Pull Request für llama.cpp wurde als „Zusammengeführt“ markiert. Sie können die Änderungs- und Commit-Historie im Haupt-Repository einsehen.
F: Ist eine Laufanleitung enthalten?
A: Die Qwen-Dokumentation und das Repository enthalten Anweisungen zum lokalen Ausführen von llama.cpp und zur Verwendung von GGUF, einschließlich Beispielen zur Modellerfassung und zum Startvorgang.