1. Zusammenfassung
HY-Motion 1.0 ist eine Serie von Text-zu-Bewegung-Modellen von Tencent Hunyuan, basierend auf Diffusion Transformer (DiT) und Flow Matching, um skelettgesteuerte 3D-Charakteranimationssequenzen basierend auf natürlichen Sprachbeschreibungen zu erzeugen, die weiter mit gängigen DCC/Engine-Animationspipelines zur Umleitung und Assetisierung verbunden werden können. Das Projekt bietet sowohl Standardversionen (etwa 1,0 Milliarden Parameter) als auch leichte Versionen (etwa 0,46 Milliarden Parameter) und verwendet eine vollständige Verbindung von "vortrainierter → hochwertiger Feinabstimmung → Verstärkungslernen" für das Training zur Verbesserung der semantischen Ausrichtung und der physischen Natürlichkeit.
2. Kernmerkmale
1. DiT + Flow Matching im Milliardenmaß: Erweitert das DiT-ähnliche Flow-Matching Generation Framework auf 1 Milliarde Parameter und zielt auf ein besseres Verständnis von Anweisungen und Handlungsqualität ab.
2. Geschlossenes Training in allen Phasen: Groß angelegtes Vortraining lernt allgemeine Aktionsprioritäten, feinjustiert Details und Flüssigkeit mit hochwertigen Daten und fügt schließlich Textsemantik und Handlungsnatürlichkeit durch Verstärkungslernen im Zusammenhang mit menschlichem Feedback und Belohnungsmodellen weiter in Einklang gebracht.
3. Reichhaltige Kategorienabdeckung: Nach der Reinigung und Annotierung der Datenpipeline deckt sie 6 Kategorien und 200+ Aktionskategorien ab, was es erleichtert, eine "nutzbarere" Aktionsbibliothek aufzubauen.
4. Technisches Schließen und optionale Prompt-Verbesserung: Bereitstellung lokaler Batch-Reasoning-Skripte und Gradio-Schnittstelle; Es unterstützt außerdem das optionale Modul "Duration Prediction and Prompt Rewriting" (sofern nicht aktiviert, müssen die relevanten Parameter explizit deaktiviert werden).
3. Installation
- Installieren Sie PyTorch (wählen Sie die CUDA/CPU-Version gemäß den offiziellen Richtlinien).
2. Code abrufen und Abhängigkeiten installieren: Nachdem Sie das Repository git clone, führen Sie die pip install -r requirements.txt im Verzeichnis aus.
3. Gewichte herunterladen: Fügen Sie die Modellgewichte gemäß den Anweisungen im Repository ckpts/README.md das angegebene Verzeichnis (Standard- oder Lite-Version) ein.
4. Inferenz ausführen: Verwenden Sie local_infer.py für die lokale Batch-Generierung (zeigen Sie über --model_path auf das entsprechende Gewichtsverzeichnis).
5. Visualisierung starten: Führen Sie gradio_app.py aus, um die lokale Weboberfläche für interaktive Vorschau und Tests zu öffnen.
4. Typische Anwendungsfälle
- Spiel- und Animationsvorfertigung: Verwenden Sie natürliche Sprache, um schnell Aktionsentwürfe zu erstellen und so den Iterationszyklus vom Storyboard zur Aktionsbibliothek zu verkürzen.
- Digitale menschliche/virtuelle Anker-Aktionsbibliothek: Materialien in Chargen nach Stil, Rhythmus und emotionalen Befehlen generieren und anschließend Knochenumleitung und -reinigung einheitlich durchführen.
- DCC/Engine Pipeline Access: Importiere die generierten Skelettaktionen in Blender/Maya oder Unity/Unreal und implementiere sie als wiederverwendbare Assets mit IK, Redirection und Kurvenbearbeitung.
- Unterstützung bei Datenverbesserung und Abruf: Als Aktionsgenerator wird er verwendet, um die Abdeckung von Lang-Tail-Aktionsbeschreibungen zu erweitern oder einen Abruf- und Annotationsprozess für die "Text-Aktion"-Ausrichtung zu erstellen (manuelle Zufallskontrolle ist erforderlich).
5. Ökologie und konkurrierende Produkte
- Ökologischer Standort: HY-Motion 1.0 orientiert sich an die Verbindung "Text → 3D-menschliche Bewegung" und kann mit SMPL/SMPLH-bezogenen menschlichen Darstellungen, DCC-Toolchains und Prompt-Engineering-Modulen kombiniert werden, um einen "produktionsfähigen" Aktionsasset-Prozess zu bilden.
- Open-Source-Referenzen für Konkurrenten: MDM (Human Motion Diffusion Model), T2M-GPT sowie frühe Text-to-Motion-Baselines und HumanML3D-Daten/Benchmarks werden in der Community weit verbreitet verwendet. Die Hauptunterschiede von HY-Motion 1.0 sind die 1B-Skala und ein vollständigerer Trainings-Closed-Loop. Es wird dennoch empfohlen, die tatsächlichen Vor- und Nachteile basierend auf der Promptverteilung, dem Charakterskelett und der Landungspipeline zu vergleichen und zu bewerten.
6. Einschränkungen und Vorsichtsmaßnahmen
- Rechenleistung und Latenz: Eine Inferenz von 1 Milliarde Parametern erfordert höhere Anforderungen an Videospeicher und Durchsatz, und ressourcenbegrenzte Szenarien können der Lite-Version Priorität geben.
- Unterschiede zwischen Skelett und Charakter: Was erzeugt wird, ist eine skelettgesteuerte Aktion, und das Landen auf einem bestimmten Charakter erfordert in der Regel eine Richtung, eine Anpassung der Knochenlänge, eine Korrektur des Sohlen-Rutschschritts und eine Wechselkorrektur.
- Abhängigkeit von prompter Umschreibung/Dauervorhersage: Wenn das relevante Modul aktiviert ist, müssen Sie die verfügbare Serviceadresse oder das lokale Modell konfigurieren. Andernfalls sollten die entsprechenden Parameter deaktiviert werden, um Fehler zu vermeiden.
- Kategorien- und Datenbias: 200+ Klassenabdeckung bedeutet nicht, dass "jede Beschreibung stabil ist", und Szenarien wie komplexe Interaktionen, Requisiten und mehrere Personen können zusätzliche Einschränkungen oder Nachbearbeitung erfordern.
- Lizenzierung und Compliance: Gewichte und Codes werden von bestimmten Gemeinschaften lizenziert, und die Bedingungen sollten vor der Kommerzialisierung/Verbreitung sorgfältig geprüft werden; Urheberrechts- und Sicherheitsüberprüfungen sollten an den generierten Inhalten durchgeführt werden.
7. Projektadresse
https://github.com/Tencent-Hunyuan/HY-Motion-1.0
8. Häufig gestellte Fragen
F: Wie gehe ich mit Fehlern im Zusammenhang mit duration_est/Rewrite um, wenn ich local_infer.py nach der Installation von HY-Motion 1.0 ausführe?
A: Wenn Sie die Serviceadresse oder das lokale Gewicht des Prompt-Override-/Dauervorhersagemoduls nicht konfigurieren, müssen Sie die entsprechenden Funktionen in den Inferenzparametern deaktivieren (z. B. duration_est deaktivieren und neu schreiben) oder das Modul gemäß den Anweisungen des Repositorys korrekt konfigurieren.
F: Wie wählt man zwischen HY-Motion-1.0 und HY-Motion-1.0-Lite?
A: Die Standardversion wählen, wenn man eine höhere Aktionsqualität und eine stärkere Befehlsfolge anstrebt und über ausreichende Rechenleistung verfügt; Wenn du einen geringeren Ressourcenverbrauch oder schnellere Iterationen brauchst, nutze zuerst Lite und repliziere dann Schlüsselfragmente mit der Standardedition.
F: Wie verbindet sich die Ausgabe von HY-Motion 1.0 mit der Blender/UE/Unity-Animationspipeline?
A: Der übliche Vorgang ist: Export/Konvertiert der generierten Skelettaktionen in Ihr toolchain-lesbares Format, leitet dann die Bones zum Zielcharakter-Rig um und führt Nachbearbeitung wie IK, Sole Locking und Curve Smoothing durch. Verschiedene Projektrahmenstandards unterscheiden sich, und es muss eine stabile Redirect-Vorlage etabliert werden.
F: Ist HY-Motion 1.0 geeignet für "Aktionen mit Requisiten/Mehrspieler/komplexen Szenen"?
A: Es richtet sich hauptsächlich an die Einzelspieler-Generierung von 3D-menschlichen Bewegungen; Komplexe Interaktionen erfordern oft stärkere bedingte Eingaben, Nachbearbeitung oder spezialisierte Datenunterstützung, daher wird empfohlen, zunächst eine Verifikation im kleinen Maßstab durchzuführen und eine manuelle Korrektur vorzubereiten.