Zurück zu KI-Informationen
Qwen veröffentlicht Qwen3-VL-30B-A3B Instruct/Thinking: 3B-Aktivierungsparameter, neue multimodale Kombination zur Unterstützung von FP8

Qwen veröffentlicht Qwen3-VL-30B-A3B Instruct/Thinking: 3B-Aktivierungsparameter, neue multimodale Kombination zur Unterstützung von FP8

KI-Informationen Admin 211 Aufrufe

Am 4. Oktober 2025 kündigte Qwen offiziell die Einführung zweier neuer multimodaler Modelle, Qwen3-VL-30B-A3B-Instruct und -Thinking, in seiner Codebasis an und stellte gleichzeitig quantisierte FP8-Versionen bereit. Zuvor wurde im September das größere Modell Qwen3-VL-235B-A22B veröffentlicht, das FP8-Varianten bereitstellte. 30B-A3B verwendet eine Mixture-of-Experts-Architektur und verfügt über etwa 3B Aktivierungsparameter pro einzelner Inferenz. Ziel ist es, Durchsatz und Bereitstellungseffizienz deutlich zu verbessern und gleichzeitig die Fähigkeiten von Qwen3-VL beizubehalten. Offiziellen Quellen zufolge kann es bei Aufgaben wie STEM, VQA, OCR, Videoverständnis und Agent mit GPT-5-Mini und Claude 4 Sonnet konkurrieren und ist in einigen Benchmarks „oft führend“, eine unabhängige Bewertung steht jedoch noch aus.

Qwen Chat bietet derzeit optionalen Modellzugriff, und HuggingFace und ModelScope haben entsprechende gewichtete und quantisierte Versionen veröffentlicht. Die API-Seite listet auch die Modellreihen auf. Wichtig zu beachten ist, dass es sich bei den Release-Posts und Repository-Protokollen um offizielle Informationen handelt und einige Leistungsvergleiche vom Anbieter selbst gemeldet werden. Ohne Replikationsversuche von Drittanbietern ist es unangemessen, „gleich/übertrifft“ als definitive Aussage zu werten. Für kosten- und einsatzorientierte Teams zielt die FP8-Version darauf ab, Speicher- und Bandbreitennutzung zu reduzieren und den Durchsatz zu verbessern. Die konkreten Vorteile hängen jedoch von der Hardware und dem Inferenz-Stack ab. Es wird empfohlen, vor der Umstellung auf die Produktion A/B-Tests mit dem Zieldatensatz und dem Inferenzszenario durchzuführen.

Häufig gestellte Fragen

F: Wann wird der Qwen3-VL-30B-A3B veröffentlicht?

A: Laut der offiziellen Repository-Neuigkeit ist der Veröffentlichungstermin der 4. Oktober 2025. Die zugehörigen Blogs und Modellkarten werden an diesem Tag und danach schrittweise aktualisiert.

F: Was bedeutet der sogenannte „3B-Aktivierungsparameter“?

A: Dies ist ein Merkmal der MoE-Architektur (Mixture of Experts). Das komplette Modell verfügt über etwa 30 Milliarden Parameter, aber bei jedem Vorwärtsdurchlauf werden nur etwa 3 Milliarden aktiviert, was die Kosteneffizienz und den Durchsatz verbessert.

F: Wozu dient die FP8-Version?

A: Die FP8-Quantisierung optimiert die Inferenzeffizienz und Ressourcennutzung. Sie kann grundsätzlich den Videospeicher- und Bandbreitenbedarf reduzieren und den Durchsatz verbessern. Die Vorteile hängen von der Hardware und der Implementierung ab.

F: Ist der Vergleich mit GPT-5-Mini und Claude 4 Sonnet glaubwürdig?

A: Dies ist die eigene Aussage des Herstellers. Es fehlen ausreichende Reproduktionsversuche von Drittanbietern und öffentliche Benchmark-Details. Dies sollte als Propaganda betrachtet werden. Es wird empfohlen, eine unabhängige Bewertung abzuwarten.

F: Wo kann ich Gewichte erfahren oder erhalten?

A: Qwen Chat bietet Online-Testversionen, während HuggingFace und ModelScope Modell- und Quantisierungsversionen anbieten. Unternehmen können über die API von Alibaba Cloud Model Studio auf die Modellreihe zugreifen.

Empfohlene Tools

Mehr