Tongyi Qianwen hat mit Qwen3-VL das visuelle Sprachmodell der nächsten Generation auf den Markt gebracht. Das Flaggschiff Qwen3-VL-235B-A22B ist in zwei Open-Source-Versionen erhältlich: Instruct und Thinking . Offiziellen Unterlagen zufolge übertrifft Instruct Gemini 2.5 Pro bei mehreren visuellen Benchmarks, während Thinking bei multimodalen Denkaufgaben führende Ergebnisse erzielt. Das Modell unterstützt „visuelle Agenten“, die Schaltflächen interpretieren, Tools aufrufen und reale Aufgaben auf PC-/Mobilschnittstellen erledigen können; es hat in Benchmarks wie OS World außergewöhnlich gut abgeschnitten.
Dieses Upgrade legt den Schwerpunkt auf die Abdeckung umfangreicher Kontexte und komplexer Szenarien: Es unterstützt über 256 KB Kontext, erweiterbar auf 1 MB , und kann etwa zwei Stunden Videomaterial und mehrseitige PDFs verarbeiten. Es bietet außerdem OCR in 32 Sprachen (mit verbesserter Robustheit gegenüber verschwommenen, verzerrten und seltenen Zeichen) und bietet eine robustere Leistung bei 2D/3D-Raumverständnis, Okklusion und Perspektivenbetrachtung. Im Rahmen des offenen Ökosystems wurden Online-Konversation (Qwen Chat), API (Alibaba Cloud Model Studio) sowie Hugging Face/ModelScope-Gewichte und -Demos gleichzeitig veröffentlicht.
Häufig gestellte Fragen
F: Welche Varianten sind diesmal Open Source?
A: Qwen3-VL-235B-A22B Unterricht und Denken , bietet auch Untertitel-/Demonstrationsressourcen und Argumentationsbeispiele.
F: Was kann ein visueller Agent tun?
A: Bildschirmelemente und Hierarchien lesen, Schaltflächen und Formulare verstehen und Tool-Aufrufe verwenden, um Aufgaben auf echten Geräten/Anwendungen abzuschließen.
F: Wie groß ist der unterstützte lange Kontext?
A: Es ist mit 256K+ gekennzeichnet und kann auf 1M erweitert werden, was für lange Videos und lange Dokumentszenarien geeignet ist.
F: Wie weit reichen die Mehrsprachenfunktionen?
A: Es unterstützt OCR in 32 Sprachen und seine Textfunktionen sind auf die wichtigsten allgemeinen Modelle für sprachübergreifendes Bildschirmlesen und -verstehen abgestimmt.
F: Wie kann ich es erleben oder darauf zugreifen?
A: Wählen Sie für Qwen Chat qwen3-vl-plus . Alibaba Cloud Model Studio stellt die API bereit. Gewichte und Demos sind in Hugging Face/ModelScope verfügbar.