Retour à Informations sur l’IA
L’équipe LongCat de Meituan a lancé LongCat-Video-Avatar : pour la génération de vidéos de haut-parleurs de longue date et les scènes multi-personnages

L’équipe LongCat de Meituan a lancé LongCat-Video-Avatar : pour la génération de vidéos de haut-parleurs de longue date et les scènes multi-personnages

Informations sur l’IA Admin 126 vues

L’équipe LongCat de Meituan a annoncé la sortie de LongCat-Video-Avatar dans la mise à jour de la base de code LongCat-Video, tout en lançant simultanément la page projet et les poids Hugging Face. Basé sur l’architecture LongCat-Video, le modèle prend en charge l’audio-texte-vers-vidéo (AT2V), audio-texte-image-verse-vidéo (ATI2V) et la continuation vidéo avec conditions audio, couvrant la génération de contenu individuelle, multi-caractères et de longue durée.

Selon les documents publics, LongCat-Video-Avatar met l’accent sur la stabilité des longues séquences et une performance dynamique plus naturelle : le point latent en croix réduit la dégradation et les problèmes de couture lors de la génération vidéo longue, et utilise l’attention de saut de référence pour réduire les traces « papier » tout en maintenant la cohérence de l’identité ; Parallèlement, une stratégie de guidage de découplage est proposée pour réduire la dépendance excessive aux signaux vocaux et améliorer le problème des segments silencieux trop rigides. L’équipe a cité EvalTalker comme référence pour l’évaluation humaine dans la fiche modèle et a montré la comparaison entre naturel et réalisme, mais des détails tels que les classements externes des listes et la taille des participants n’ont pas été entièrement divulgués sur la page publique, et les conclusions pertinentes doivent encore être basées sur l’article d’évaluation et les expériences reproductibles.

FAQ

Q : Quel modèle est le LongCat-Video-Avatar ?

R : LongCat-Video-Avatar est un modèle de génération vidéo audio pour la performance des personnages, mettant l’accent sur la stabilité de longévité, la synchronisation labiale et la cohérence des identités.

Q : Quels modes génération le LongCat-Video-Avatar sorti par l’équipe LongCat de Meituan prend-il en charge ?

R : LongCat-Video-Avatar prend en charge AT2V, ATI2V, ainsi que la continuation vidéo et l’extension vidéo longue pour les conditions audio.

Q : Quelle est la différence entre LongCat-Video-Avatar et InfiniteTalk ?

R : LongCat-Video-Avatar met l’accent sur une dynamique plus naturelle et une performance plus stable en longues séquences dans l’introduction, et utilise Reference Skip Attention pour réduire l’artefact de « copier-coller » causé par l’injection d’images de référence.

Q : Quels risques les développeurs doivent-ils connaître lorsqu’ils utilisent LongCat-Video-Avatar ?

R : Les développeurs doivent prêter attention aux licences portrait et audio, à la conformité et à la sécurité du contenu, et éviter de générer du contenu de personnages mal utilisé sans autorisation.

Meituan LongCat a publié le modèle vidéo Avatar Meituan LongCat a lancé un avatar piloté par l’audio Les poids LongCat-Video-Avatar sont publics LongCat-Video-Avatar prend en charge les vidéos longues LongCat-Video-Avatar se concentre sur la stabilité Le Meituan LongCat renforce la forme et l’identité des lèvres LongCat-Video-Avatar prend en charge AT2V LongCat-Video-Avatar prend en charge ATI2V LongCat-Video-Avatar prend en charge la continuation Meituan LongCat couvre la génération de personnages multiples Meituan LongCat prend en charge une seule longue durée Dégradation de la couture de chute LongCat-Vidéo-Avatar LongCat-Video-Avatar introduit la couture Meituan LongCat utilise le stallage latent LongCat-Video-Avatar est plus naturel et dynamique LongCat-Video-Avatar réduit les artefacts Meituan LongCat utilise Skip attention LongCat-Video-Avatar garantit la même identité Meituan LongCat réduit les traces en copie papier Guidance de découplage LongCat-Vidéo-Avatar Le Meituan LongCat améliore le silence et la raideur LongCat-Video-Avatar affaiblit les dépendances vocales Avis cité de Meituan LongCat sur EvalTalker Comparaison entre LongCat, Vidéo-Avatar Show Meituan LongCat n’a pas divulgué les détails de la liste LongCat-Video-Avatar doit être reproductible La page du projet de synchronisation LongCat de Meituan est en ligne Poids HF synchrones Meituan LongCat libérés LongCat-Video-Avatar est orienté vers la performance LongCat-Vidéo-Avatar met l’accent sur le réalisme LongCat-Vidéo-Avatar met l’accent sur la naturalité Meituan LongCat a mis à jour la base de code publiée LongCat-Video-Avatar convient à la création Meituan LongCat favorise la génération audio et vidéo LongCat-Video-Avatar prend en charge la continuation conditionnelle LongCat-Video-Avatar prend en charge les extensions Meituan LongCat superpose la génération de conditions audio LongCat-Video-Avatar prend en charge Wensheng Video LongCat-Video-Avatar prend en charge l’audiovisuel Meituan LongCat améliore la cohérence des séquences longues LongCat-Video-Avatar résout les coutures Injection du diagramme de référence d’optimisation Meituan LongCat LongCat-Video-Avatar est comparé à InfiniteTalk Meituan LongCat met l’accent sur les différences et les points forts LongCat-Video-Avatar convient à plusieurs scénarios Meituan LongCat met en garde contre les risques liés aux licences de portraits LongCat-Video-Avatar est soumis à une utilisation conforme Meituan LongCat met l’accent sur les limites de sécurité du contenu LongCat-Video-Avatar évite les abus de simulation

Outils Recommandés

Plus