Zurück zu KI-Informationen
Qwen gibt bekannt: Qwen3-VL ist jetzt auf llama.cpp verfügbar, mit GGUF-Gewichten im Bereich von 2B bis 235B.

Qwen gibt bekannt: Qwen3-VL ist jetzt auf llama.cpp verfügbar, mit GGUF-Gewichten im Bereich von 2B bis 235B.

KI-Informationen Admin 490 Aufrufe

Qwen hat offiziell bekannt gegeben, dass sein visuelles Sprachmodell Qwen3-VL nun nativ in llama.cpp unterstützt wird und eine vollständige Palette von GGUF-Gewichten für verschiedene Spezifikationen von 2 Byte bis 235 Byte veröffentlicht wurde. Es kann direkt auf CPU, CUDA, Metal, Vulkan und anderen Backends ausgeführt werden. Download-Links sind jetzt auf Hugging Face und in der Moda-Community verfügbar, sodass Benutzer die Quantisierungsversion je nach Gerät und Genauigkeit auswählen können.

Der Merge-Request für llama.cpp wurde in das Haupt-Repository integriert. Dies bedeutet, dass nun Qwen3-VL (einschließlich der Varianten Dense und MoE) geladen und inferiert werden kann. Das Qwen-Repository und die zugehörige Dokumentation wurden außerdem um Richtlinien zur lokalen Ausführung und zur Verwendung von GGUF ergänzt. Mit diesem Update ist die Umsetzung der drei Schritte „Offizielle Ankündigung + Veröffentlichung der Gewichte + Unterstützung des Inferenz-Frameworks“ abgeschlossen. Dadurch wird die Bereitstellungsschwelle für multimodale große Modelle auf Edge- und persönlichen Geräten gesenkt.

Häufig gestellte Fragen

F: Was genau beinhaltet dieses Update?

A: Der llama.cpp-Trunk wurde in die Qwen3-VL-Unterstützung integriert; auf der offiziellen Website wurden außerdem GGUF-Gewichte von 2B bis 235B veröffentlicht und eine Übersichtsseite zum einfachen Herunterladen und Auswählen von Quantifizierungen bereitgestellt.

F: Auf welcher Hardware kann es laufen?

A: Laut offiziellen Angaben unterstützt es Backends wie CPU, NVIDIA CUDA, Apple Metal und Vulkan und ist mit gängigen Desktop- und Laptop-Umgebungen kompatibel.

F: Wo bekomme ich die Gewichte her?

A: Sowohl Hugging Face als auch ModelScope bieten Qwen3-VL-Sammlungen und entsprechende GGUF-Repositories an.

F: Wie wird der Zusammenführungsstatus bestätigt?

A: Der Pull Request für llama.cpp wurde als „Zusammengeführt“ markiert. Sie können die Änderungs- und Commit-Historie im Haupt-Repository einsehen.

F: Ist eine Laufanleitung enthalten?

A: Die Qwen-Dokumentation und das Repository enthalten Anweisungen zum lokalen Ausführen von llama.cpp und zur Verwendung von GGUF, einschließlich Beispielen zur Modellerfassung und zum Startvorgang.

Qwen3-VL unterstützt llama.cpp nativ. Offizielle Veröffentlichung der GGUF-Gewichte für die gesamte Qwen3-VL-Serie. Mehrere Spezifikationen von 2B bis 235B stehen zum Download bereit. Unterstützung für lokale Ausführung durch CPU, CUDA, Metal und Vulkan. Kompatibilität von dichten und MoE-Varianten beim Laden und Inferieren Der Pull Request für llama.cpp im Haupt-Repository wurde in den Status „Zusammengeführt“ übernommen. HuggingFace und Moda Community starten gleichzeitig Wählen Sie den Eintrag für die Quantisierungsversion je nach Gerät und Genauigkeit aus. Lokale Bereitstellung multimodaler visueller Sprachmodelle Senkung der Einstiegshürde für den Einsatz auf Edge- und persönlichen Geräten Qwen-Repository-Aktualisierungen GGUF-Nutzungsleitfaden Die Dokumentation enthält Beispiele für die lokale Ausführung und den Startvorgang. Das Inferenz-Framework unterstützt eine dreiteilige Gewichtungs-Veröffentlichungssuite. Ein-Klick-Bedienung von Desktop- und Laptop-Umgebungen Breites Spektrum an plattformübergreifenden Backend-Anpassungen Plattformübergreifende Vorgehensweisen für Windows, macOS und Linux Leitfaden zur CUDA-beschleunigten Inferenz für NVIDIA-Grafikkarten AppleMetal-Backend-Mac-Bereitstellungs-Tutorial Vulkan-Backend-Lösung für den ressourcenschonenden Gerätebetrieb Bewertung der CPU-Leistung und des Videospeicherbedarfs Empfehlungen zur Auswahl der Qwen3-VL-Quantisierungsgenauigkeit GGUF-Gewichts-Download-Mirror und Verifizierungsmethode Lokale multimodale Inferenzsicherheit und Datenschutz Dichte vs. MoE: Leistungs- und Ressourcenkompromisse Beispiel für die Verwendung von Kamerabildeingabe Ladeparameter und Befehlsparadigmen in llama.cpp Demonstration der Chat- und Bilderkennungsfähigkeiten von Qwen3-VL Konfiguration, die RAG und Tool-Aufrufe kombiniert Checkliste für häufige Fehler bei der lokalen Bereitstellung und deren Behebung Quantisierungsschema für den Betrieb von Geräten mit geringem Speicher Optimierung der Inferenzgeschwindigkeit und Thread-Setting-Techniken Modellgewichtsverzeichnisstruktur und Namenskonventionen Benchmarks für die Gemeindebewertung und Querschnittsvergleichsdaten Plugin-Ökosystem und Frontend-UI-Integrationsideen Multi-GPU- und Großmodell-Teilbelastungsexperiment Vorteile der Offline-Verarbeitung personenbezogener Daten Open-Source-Lizenzierung und kommerzielle Compliance-Überlegungen Beispiel für den Aufruf der Python-API Bewährte Verfahren für die Entwicklung multimodaler Hinweiswörter Konfiguration für automatisierte Stapelverarbeitung und Streaming-Inferenz Referenz für die Implementierung von Edge-KI-Anwendungsszenarien Modellaktualisierung und nachfolgende Versionsverfolgungsmethoden Magic and HF Collection Seitennavigation Schnellzugriff Der Einfluss der Quantisierungsbitbreite auf das Bildverständnis Einstellungen für Videoframe-Sampling und lange Bildanalyse Mehrsprachige OCR- und Untertitelverständnisfähigkeit Lokale Auswertungsskripte und Protokollerfassungsmethoden Minimale Startbefehlszeile, die sofort einsatzbereit ist Techniken zur Kombination von GGUF- und KV-Caching Einsteigerleitfaden für den Qwen3-VL-Speedrun

Empfohlene Tools

Mehr