Wan 2.5 hat die Vorschauversion um die Funktion „native audiogesteuerte Videogenerierung“ erweitert. Benutzer können Audio direkt als Steuersignal bereitstellen, kombiniert mit Textanweisungen oder Referenzbildern für Text-zu-Video- und Bild-zu-Video-Aufgaben. Die offizielle Beschreibung betont die Möglichkeiten zur Audio- und Videosynchronisierung. Die Vorschauphase umfasst Ausgabespezifikationen für 1080p, 24 fps und eine maximale Videolänge von 5 oder 10 Sekunden, abhängig vom gewählten Modell und den Schnittstellenparametern. Dieses Update soll es ermöglichen, dass Kommentare, Musik oder Umgebungsgeräusche den Rhythmus und die Erzählrichtung der Aufnahmen bestimmen und so zu einer stimmigeren Kurzfilmgenerierung führen.
Alibaba Cloud Bailian und seine Produktwebsite weisen außerdem darauf hin, dass die Vorschau „Video mit Ton“ von Wan 2.5 automatische Synchronisation oder die Eingabe benutzerdefinierter Audiodateien unterstützt und sich daher für Szenarien wie Werbung, E-Commerce-Demonstrationen und kreative Kurzfilme eignet. Da es sich noch in der Vorschauphase befindet, können Funktionalität und Verfügbarkeit plattform- und regionsübergreifend schrittweise erweitert werden. Die spezifische Leistung muss jedoch noch in Verbindung mit dem Filmmaterial und den nachgelagerten Prozessen überprüft werden. Bewertungen durch Dritte zeigen zudem, dass die Leistung bei der Porträt- und Bewegungsstabilität noch schwankt. Daher wird für jedes Projekt die Auswertung kleiner Stichproben von Testmaterial empfohlen.
Häufig gestellte Fragen
F: Welche Rolle spielt Audio bei der Generierung?
A: Sie können Audio als treibendes Signal hochladen und es mit Textaufforderungen oder Referenzbildern kombinieren, um den Rhythmus, die Emotionen und die Lippensynchronisation der Aufnahme zu steuern.
F: Welche Länge und Spezifikationen werden unterstützt?
A: Die Vorschauoberfläche bietet zwei Einstellungen: 5 Sekunden und 10 Sekunden, fest auf 24 fps, bis zu 1080p und kann in MP4 (H.264) exportiert werden.
F: Welche Eingänge gibt es?
A: Auf der Produktseite von Tongyi Wanxiang/Wan und der Alibaba Cloud Bailian API sind Vorschaumodelle mit Audiofunktionen und Parameterbeschreibungen aufgeführt.
F: Wie ist die Stabilität?
A: Die offizielle Demo zeigt, dass eine Audio- und Videosynchronisierung möglich ist, aber Bewertungen von Drittanbietern zeigen, dass die Konsistenz von Porträts und Bewegungen noch schwankt und in verschiedenen Szenarien getestet werden muss.
F: Kommerzielle und regionale Verfügbarkeit?
A: Dies ist eine Vorschaufunktion. Umfang und Aktivierungsbedingungen hängen von den Plattformseiten und Kontoberechtigungen der einzelnen Plattformen ab und können je nach Region schrittweise erweitert werden.