Das Team von Alibaba Cloud Tongyi Qianwen hat die Version Qwen3-Omni-Flash 2025-12-01 eingeführt, die Video- und Audiodialoge, Sprachinteraktion und mehrsprachige Verarbeitung deutlich verbessert hat. Die neue Version ist dem natürlichen Dialog in mehreren Runden des Video- und Audioverständnisses näher, kann kontinuierlich Szenen- und Kontextwechsel verfolgen und unterstützt individuelle Dialogpersönlichkeiten über Systemeingaben, die sich an unterschiedliche Anwendungsszenarien wie Rollenspiele und virtuelle Assistenten anpassen.
Was Sprache und Sprache betrifft, unterstützt die neue Version von Qwen3-Omni-Flash 119 Textsprachen und 19 Sprachsprachen, mit Fokus auf stabilere mehrsprachige Dialog- und Erkennungsfähigkeiten, und der Sprachsyntheseeffekt betont "nahe an realen Menschen", was sich für langfristiges Sprachchat, Inhaltserstellung sowie intelligenten Kundenservice und andere Szenarien eignet. Die offizielle Webversion des Portals ermöglicht es den Nutzern, Sprach- und Videogespräche direkt über die VoiceChat- und VideoChat-Buttons am unteren Rand von Qwen Chat zu erleben.
Dieses Upgrade eröffnet sowohl Echtzeit- als auch Offline-API-Formen: eine Echtzeit-API für das Streamen von Sprachgesprächen und multimodaler Interaktion sowie eine Offline-API für Batch-Verarbeitung und lokale Integration. Entwickler können die Demoversion auch über den öffentlichen Bereich auf Hugging Face und ModelScope erleben, Dokumentationen ansehen und Zugriffsberechtigungen in der Alibaba Cloud Console konfigurieren. Während der Nutzung müssen Sie auf Kontoquoten, Gebühren und Sprachdatensicherheit achten und je nach Geschäftsbedarf den Online- oder Offline-Modus wählen.
FAQsQ
: Was ist die Qwen3-Omni-Flash Version 2025-12-01?
A: Dies ist ein wichtiges Upgrade zu Qwen3-Omni-Flash, das sich auf die Verbesserung des mehrrundigen AV-Verständnisses, der mehrsprachigen Verarbeitung und der menschlichen Sprachsynthese konzentriert.
F: Was sind die neuen Funktionen dieses Upgrades?
A: Beinhaltet mehr natürliche Video- und Audiogespräche mit mehreren Runden, Persönlichkeitsanpassungen mit Systemeingaben, stabilere Unterstützung für 119 Textsprachen und 19 Stimmen sowie realistischere Sprachsynthese.
F: Wie können gewöhnliche Nutzer die neue Version von Qwen3-Omni-Flash erleben?
A: Sie können den Sprach- oder Videogesprächsmodus auf der Qwen Chat-Webseite über die VoiceChat- und VideoChat-Buttons unten rechts in der Benutzeroberfläche aktivieren, ohne zusätzliche Installation.
F: Was ist der Unterschied zwischen der Realtime-API und der Offline-API?
A: Die Realtime-API konzentriert sich auf Streaming-Gespräche mit niedriger Latenz und Echtzeit-Sprachszenarien, während die Offline-API besser für Batch-Verarbeitung, Backend-Dienste oder Anwendungsintegrationen mit geringer Netzwerkabhängigkeit geeignet ist.
F: Was sind die Überlegungen bei der Nutzung von Sprach- und Videofunktionen?
A: Achten Sie auf Kontozugriffsrechte, Anrufkosten und Datencompliance und vermeiden Sie unbefugtes Hochladen von Sprach- und Videodaten mit sensibler Privatsphäre oder überwachten Inhalten.