Retour à L’IA est open source
Nouvelle percée dans le modèle du monde de l’IA : l’open source HunyuanWorld-Voyager, qui remodèle la réalité virtuelle et le développement de jeux

Nouvelle percée dans le modèle du monde de l’IA : l’open source HunyuanWorld-Voyager, qui remodèle la réalité virtuelle et le développement de jeux

L’IA est open source Admin 77 vues

HunyuanWorld-Voyager Open Source : Reconstruction 3D native pilotée par l’IA et modèle de monde à ultra-longue portée

HunyuanWorld-Voyager est officiellement open source, connu comme le premier modèle de monde à ultra-longue portée, prenant en charge la fusion de la reconstruction 3D native et de la génération de vidéos. Il est en tête du classement WorldScore, avec des capacités innovantes telles que la sortie 3D directe et la mémoire 3D, apportant de nouveaux scénarios d’application de la chaîne d’outils d’IA à la réalité virtuelle, aux jeux et à la simulation.


1. Points forts de base

1. Sortie 3D directe : Libéré du processus SfM traditionnel, le format 3D de sortie directe

Voyager prend en charge l’IA pour générer directement des nuages de points et des vidéos RGB-D, ne s’appuyant plus sur COLMAP et d’autres outils, les développeurs peuvent importer directement les résultats dans Unity, UE et d’autres moteurs, raccourcissant considérablement le lien entre la génération de l’IA et l’utilisation réelle.

2. 3D Mémoire : le mécanisme de cache du monde assure la cohérence géométrique

L’intelligence artificielle introduit un mécanisme de cache du monde évolutif, permettant à la caméra de maintenir la stabilité de la scène lorsqu’elle se déplace sous n’importe quelle trajectoire, évitant la dérive géométrique et assurant le réalisme et l’immersion de l’itinérance 3D longue distance.

(1) Différence par rapport aux méthodes traditionnelles

Dans le passé, le processus de reconstruction multi-perspectives était complexe et hors ligne, mais Voyager produit directement des informations 3D natives par le biais de grands modèles, réalisant ainsi une expérience intégrée d’automatisation et d’intelligence.


2. Avantages en termes de performances

1. WorldScore se classe premier

Selon le benchmark WorldScore, le score complet de Voyager se classe premier, avec des performances exceptionnelles en matière de génération de vidéos et de reconstruction 3D dans de multiples indicateurs, mettant en évidence son avance en matière d’intelligence spatiale des grands modèles.

2. Exigences en matière de mémoire vidéo et seuil de puissance de calcul

La recommandation officielle est que 80 Go de mémoire vidéo sont nécessaires pour la génération 540p afin d’assurer la stabilité des vidéos 3D de longue durée. Cela signifie que le seuil de déploiement sur site est élevé, mais cela montre également que le modèle est plus adapté aux scénarios d’outils d’IA scientifiques et d’entreprise au niveau de l’entreprise.

(1) Limites de licence et d’utilisation open source

Le code et les poids de Voyager sont open source, mais l’utilisation d’accords de licence communautaire n’est pas tout à fait équivalente à une utilisation commerciale sans restriction, et les utilisateurs d’entreprise doivent évaluer soigneusement la conformité.


3. Scénarios d’application

1. VR et développement de jeux

Les nuages de points et RGB-D générés par l’IA peuvent être directement importés dans le moteur de jeu pour créer rapidement des niveaux virtuels, des jumeaux numériques et des expériences interactives, réduisant ainsi considérablement les coûts d’art et de modélisation.

2. Intégration de la chaîne d’outils d’IA

Combiné à ChatGPT et Claude, les utilisateurs peuvent générer automatiquement des invites de scène, des suivis de caméra et des storyboards d’objectif, puis effectuer une reconstruction 3D via Voyager, formant ainsi une chaîne de montage intelligente de la créativité aux actifs.


4. Limites et perspectives

1. La stabilité des objets dynamiques et des objectifs longs doit être optimisée

Bien que les performances soient excellentes, des artefacts peuvent toujours se produire dans les mouvements de caméra à longue portée ou les scènes contenant des objets dynamiques, qui doivent être encore optimisés.

2. Tendances futures

À court terme, la modélisation de l’IA et le raffinement artificiel se développeront en parallèle ; À long terme, avec l’itération de grands modèles et d’outils d’IA, les modèles de monde comme Voyager deviendront l’infrastructure de base de la réalité virtuelle, de la simulation et du métavers.


5. Adresse associée :

GitHub|Tencent-Hunyuan/HunyuanWorld-Voyager

https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

Foire aux questions (Q&A) sur

HuggingFace|tencent/HunyuanWorld-https://huggingface.co/tencent/HunyuanWorld-Voyager




Voyager

(Q&R)

Q : Quels sont les avantages de Voyager par rapport au COLMAP+NeRF traditionnel ?

R : Voyager produit directement des nuages RVB-D et de points, éliminant ainsi le besoin d’acquisition multi-perspectives et de processus de reconstruction hors ligne, permettant l’automatisation et l’intelligence, ainsi qu’une efficacité et une contrôlabilité accrues.

Q : Comment puis-je utiliser les nuages de points générés par l’IA avec RGB-D pour la réalité virtuelle ou les jeux ?

R : Les résultats générés peuvent être directement importés dans Unity ou UE, et les matériaux et les scripts peuvent être générés par des outils d’IA pour un développement interactif rapide.

Q : Voyager est-il entièrement open source et disponible dans le commerce ?

R : Voyager utilise un accord de licence communautaire, et le code et les poids sont ouverts, mais il n’est pas illimité pour un usage commercial, et les entreprises doivent suivre la LICENCE.

Q : Quelle est l’orientation future des modèles mondiaux d’IA ?

R : La tendance future est que les modèles de monde de l’IA collaborent avec des concepteurs humains, l’IA est responsable de la génération rapide et de la cohérence, et les humains sont responsables du raffinement et de la créativité, afin d’obtenir une production automatisée à plus grande échelle.

HunyuanWorld-Voyager open source Modèle mondial à très longue portée Capacité de reconstruction 3D native Analyse directe de la sortie 3D Cache du monde de la mémoire 3D Procédé de reconstruction sans SfM Génération de vidéos RVB-D Sortie directe du nuage de points Pratique d’importation Unity Importation d’Unreal Engine Construction rapide de niveaux VR Outils de modélisation d’IA pour les jeux Simulation et jumeaux numériques Stabilité de l’itinérance 3D à longue portée Cohérence géométrique garantie Résultats du classement WorldScore Performances SOTA spatiales intelligentes Comparaison avec COLMAP Différences avec NeRF Comparaison du splatting gaussien Exigences de mémoire de la génération 540p Seuil de mémoire vidéo de 80 Go Configuration de l’environnement local Applications au niveau de l’entreprise et de la recherche scientifique Accords open source et conformité commerciale Autorisation de la communauté d’utiliser les limites Lien vers le projet GitHub Poids du modèle HuggingFace Tutoriel d’installation et d’utilisation Performances et débit d’inférence Vidéo 3D longue séquence Les traces de caméra sont générées automatiquement Storyboard et script d’objectif par l’IA Intégration avec la chaîne d’outils ChatGPT Intégration avec les flux de travail Claude Compatibilité avec les moteurs de jeu Automatisation du matériel et des scripts Liens de génération 3D de bout en bout Défis de la gestion dynamique des objets Problème d’artefacts à long terme Efficacité de la production de contenu VRAR Tendances futures du modèle mondial Les grands modèles pilotent la modélisation 3D La reconstruction par IA remplace les processus traditionnels Prise en charge de l’écosystème et des plugins Mesure et benchmark du développeur Scénarios de cas d’atterrissage d’entreprise Tutoriels et ressources de démonstration Documents de recherche et interprétations techniques Les ressources 3D sont produites rapidement

Outils Recommandés

Plus