Zurück zu KI-Informationen
Tongyi Qianwen veröffentlicht Qwen3-TTS-Flash: Englisch und Chinesisch, einheitliche Architektur unterstützt 17 Töne

Tongyi Qianwen veröffentlicht Qwen3-TTS-Flash: Englisch und Chinesisch, einheitliche Architektur unterstützt 17 Töne

KI-Informationen Admin 96 Aufrufe

Das Alibaba Tongyi-Team hat die Veröffentlichung von Qwen3-TTS (einschließlich der Qwen3-TTS-Flash- Variante) angekündigt, einem Text-to-Speech-Modell der nächsten Generation. Dieses Modell bietet mehrstimmige, mehrsprachige und mehrdialektische Synthese und legt den Schwerpunkt auf eine natürlichere und ausdrucksstärkere Sprachausgabe. Offizielle Demos und Blogbeiträge demonstrieren die herausragende Leistung des Modells sowohl in englischer als auch in chinesischer Sprache. Eine neue, einheitliche Architektur unterstützt Mehrsprachigkeit und mehrdialekte innerhalb desselben Modells. Eine Online-Demo und Zugangsanweisungen sind ab sofort verfügbar.

Aus der beiliegenden Produktdokumentation und der Konsolenseite geht hervor, dass Qwen3-TTS-Flash 17 anthropomorphe Stimmen bietet, mehrere Sprachen und Dialekte (einschließlich Mandarin und einige andere Dialekte) mit derselben Stimme ausgeben kann und API-Abrechnungsspezifikationen bereitstellt. Es bietet außerdem eine Echtzeit-Sprachsyntheseoption (Qwen3-TTS Realtime), um die End-to-End-Latenz zu reduzieren. Medienberichte stellten zudem die am selben Tag erfolgte Veröffentlichung von Qwen3-TTS der von Qwen3-Omni gegenüber und betonten, dass es sich dabei um wichtige Updates der multimodalen Tongyi-Familie handele.

Häufig gestellte Fragen

F: Was sind die Hauptfunktionen von Qwen3-TTS?

A: Es integriert mehrere Töne, Sprachen und Dialekte, betont die Natürlichkeit und Ausdruckskraft von Englisch und Chinesisch und bietet Online-Demonstrationen und API-Zugriff.

F: Was ist der Unterschied zu Qwen-TTS?

A: Die offizielle Dokumentation empfiehlt die Verwendung von Qwen3-TTS, das eine größere Bandbreite an Tönen und Sprachen (einschließlich mehrerer Dialekte) abdeckt und in den Formaten Flash und Echtzeit verfügbar ist.

F: Ist das Gewicht Open Source?

A: Derzeit werden hauptsächlich API und Online-Demo verwendet. Ihr Gewicht wird nicht bekannt gegeben. Informationen zur Verwendung finden Sie in der offiziellen Benutzeroberfläche und Konsole.

F: Welche Sprachen/Dialekte und Töne werden unterstützt?

A: Das Dokument bietet 17 Töne, die Chinesisch (einschließlich einiger Dialekte) und mehrere Fremdsprachen abdecken. Eine detaillierte Liste und Preise finden Sie auf der Produktseite.

F: Wo kann ich Updates erfahren und erhalten?

A: Sie können es auf dem offiziellen Blog/der Demoseite ausprobieren und das Modell und die Echtzeit-Sprachoptionen in der Produktdokumentation von Alibaba Cloud Tongyi Qianwen ansehen.

Empfohlene Tools

Mehr