Zurück zu KI-Informationen
Qwen3-VL veröffentlicht: Flaggschiff-Modell 235B Open Source, Anweisungs-/Denkversionen verfügbar

Qwen3-VL veröffentlicht: Flaggschiff-Modell 235B Open Source, Anweisungs-/Denkversionen verfügbar

KI-Informationen Admin 116 Aufrufe

Tongyi Qianwen hat mit Qwen3-VL das visuelle Sprachmodell der nächsten Generation auf den Markt gebracht. Das Flaggschiff Qwen3-VL-235B-A22B ist in zwei Open-Source-Versionen erhältlich: Instruct und Thinking . Offiziellen Unterlagen zufolge übertrifft Instruct Gemini 2.5 Pro bei mehreren visuellen Benchmarks, während Thinking bei multimodalen Denkaufgaben führende Ergebnisse erzielt. Das Modell unterstützt „visuelle Agenten“, die Schaltflächen interpretieren, Tools aufrufen und reale Aufgaben auf PC-/Mobilschnittstellen erledigen können; es hat in Benchmarks wie OS World außergewöhnlich gut abgeschnitten.

Dieses Upgrade legt den Schwerpunkt auf die Abdeckung umfangreicher Kontexte und komplexer Szenarien: Es unterstützt über 256 KB Kontext, erweiterbar auf 1 MB , und kann etwa zwei Stunden Videomaterial und mehrseitige PDFs verarbeiten. Es bietet außerdem OCR in 32 Sprachen (mit verbesserter Robustheit gegenüber verschwommenen, verzerrten und seltenen Zeichen) und bietet eine robustere Leistung bei 2D/3D-Raumverständnis, Okklusion und Perspektivenbetrachtung. Im Rahmen des offenen Ökosystems wurden Online-Konversation (Qwen Chat), API (Alibaba Cloud Model Studio) sowie Hugging Face/ModelScope-Gewichte und -Demos gleichzeitig veröffentlicht.

Häufig gestellte Fragen

F: Welche Varianten sind diesmal Open Source?

A: Qwen3-VL-235B-A22B Unterricht und Denken , bietet auch Untertitel-/Demonstrationsressourcen und Argumentationsbeispiele.

F: Was kann ein visueller Agent tun?

A: Bildschirmelemente und Hierarchien lesen, Schaltflächen und Formulare verstehen und Tool-Aufrufe verwenden, um Aufgaben auf echten Geräten/Anwendungen abzuschließen.

F: Wie groß ist der unterstützte lange Kontext?

A: Es ist mit 256K+ gekennzeichnet und kann auf 1M erweitert werden, was für lange Videos und lange Dokumentszenarien geeignet ist.

F: Wie weit reichen die Mehrsprachenfunktionen?

A: Es unterstützt OCR in 32 Sprachen und seine Textfunktionen sind auf die wichtigsten allgemeinen Modelle für sprachübergreifendes Bildschirmlesen und -verstehen abgestimmt.

F: Wie kann ich es erleben oder darauf zugreifen?

A: Wählen Sie für Qwen Chat qwen3-vl-plus . Alibaba Cloud Model Studio stellt die API bereit. Gewichte und Demos sind in Hugging Face/ModelScope verfügbar.

Qwen3-VL Open-Source-Version Qwen3-VL-235B-A22B Qwen3-VLInstruct-Version Qwen3-VLThinking Edition Qwen3-VL Visueller Agent Qwen3-VLVisualAgent Qwen3-VL langer Kontext 256K Qwen3-VL-Kontexterweiterung 1M Qwen3-VL zweistündiges Videoverständnis Qwen3-VL Mehrseitiges PDF-Parsing Qwen3-VL multimodales Denken Qwen3-VL übertrifft Gemini2_5Pro Qwen3-VLOSWorld-Evaluierungsleiter Qwen3-VL 32 Sprachen OCR Qwen3-VL Fuzzy-Texterkennung Qwen3-VL-Robustheit gegenüber geneigtem Text Qwen3-VL seltene Zeichen-OCR Qwen3-VL2D_3D räumliches Verständnis Qwen3-VL Okklusionsschlussfolgerung Qwen3-VL Perspektivische Argumentation Qwen3-VL-Bildschirm liest Schaltflächen Qwen3-VL-Formularautomatisierung Qwen3-VL-Toolaufruf Qwen3-VL-Betrieb mit realen Geräten Qwen3-VLPC-Mobiltelefonunterstützung Qwen3-VL- und QwenChat-Zugriff Qwen3-VLModelStudioAPI Qwen3-VLHuggingFace Gewichte Qwen3-VLModelScope-Spiegel Qwen3-VLCaption-Ressourcen Qwen3-VL-Demo Qwen3-VL mehrsprachiger Bildschirmleser Qwen3-VL komplexe Szenenabdeckung Qwen3-VL Verarbeitung langer Dokumente Qwen3-VL-Video-Fragen und Antworten Qwen3-VL führt in der multimodalen Bewertung Qwen3-VL sprachübergreifendes Verständnis Qwen3-VL Open Source-Gewichtsdownload Qwen3-VL-Inferenzbeispiel Qwen3-VLAPI-Zugriffshandbuch Qwen3-VL Ökologische Verträglichkeit Qwen3-VL und Toolchain-Zusammenarbeit Qwen3-VL Entwicklerfreundlich Qwen3-VL Enterprise-Anwendungsszenarien Qwen3-VL-Benchmark-Universalmodell Qwen3-VL-Bildschirmelementhierarchie Qwen3-VL-Schaltflächenformular verstehen Qwen3-VL Extraktion der wichtigsten Punkte langer Videos Qwen3-VL Mehrseitige PDF-Zusammenfassung Höhepunkte der Qwen3-VL-Rezension

Empfohlene Tools

Mehr