Nouvelle percée dans le modèle du monde de l’IA : l’open source HunyuanWorld-Voyager, qui remodèle la réalité virtuelle et le développement de jeux

HunyuanWorld-Voyager Open Source : Reconstruction 3D native pilotée par l’IA et modèle de monde à ultra-longue portée

HunyuanWorld-Voyager est officiellement open source, connu comme le premier modèle de monde à ultra-longue portée, prenant en charge la fusion de la reconstruction 3D native et de la génération de vidéos. Il est en tête du classement WorldScore, avec des capacités innovantes telles que la sortie 3D directe et la mémoire 3D, apportant de nouveaux scénarios d’application de la chaîne d’outils d’IA à la réalité virtuelle, aux jeux et à la simulation.

1. Points forts de base

1. Sortie 3D directe : Libéré du processus SfM traditionnel, le format 3D de sortie directe

Voyager prend en charge l’IA pour générer directement des nuages de points et des vidéos RGB-D, ne s’appuyant plus sur COLMAP et d’autres outils, les développeurs peuvent importer directement les résultats dans Unity, UE et d’autres moteurs, raccourcissant considérablement le lien entre la génération de l’IA et l’utilisation réelle.

2. 3D Mémoire : le mécanisme de cache du monde assure la cohérence géométrique

L’intelligence artificielle introduit un mécanisme de cache du monde évolutif, permettant à la caméra de maintenir la stabilité de la scène lorsqu’elle se déplace sous n’importe quelle trajectoire, évitant la dérive géométrique et assurant le réalisme et l’immersion de l’itinérance 3D longue distance.

(1) Différence par rapport aux méthodes traditionnelles

Dans le passé, le processus de reconstruction multi-perspectives était complexe et hors ligne, mais Voyager produit directement des informations 3D natives par le biais de grands modèles, réalisant ainsi une expérience intégrée d’automatisation et d’intelligence.

2. Avantages en termes de performances

1. WorldScore se classe premier

Selon le benchmark WorldScore, le score complet de Voyager se classe premier, avec des performances exceptionnelles en matière de génération de vidéos et de reconstruction 3D dans de multiples indicateurs, mettant en évidence son avance en matière d’intelligence spatiale des grands modèles.

2. Exigences en matière de mémoire vidéo et seuil de puissance de calcul

La recommandation officielle est que 80 Go de mémoire vidéo sont nécessaires pour la génération 540p afin d’assurer la stabilité des vidéos 3D de longue durée. Cela signifie que le seuil de déploiement sur site est élevé, mais cela montre également que le modèle est plus adapté aux scénarios d’outils d’IA scientifiques et d’entreprise au niveau de l’entreprise.

(1) Limites de licence et d’utilisation open source

Le code et les poids de Voyager sont open source, mais l’utilisation d’accords de licence communautaire n’est pas tout à fait équivalente à une utilisation commerciale sans restriction, et les utilisateurs d’entreprise doivent évaluer soigneusement la conformité.

3. Scénarios d’application

1. VR et développement de jeux

Les nuages de points et RGB-D générés par l’IA peuvent être directement importés dans le moteur de jeu pour créer rapidement des niveaux virtuels, des jumeaux numériques et des expériences interactives, réduisant ainsi considérablement les coûts d’art et de modélisation.

2. Intégration de la chaîne d’outils d’IA

Combiné à ChatGPT et Claude, les utilisateurs peuvent générer automatiquement des invites de scène, des suivis de caméra et des storyboards d’objectif, puis effectuer une reconstruction 3D via Voyager, formant ainsi une chaîne de montage intelligente de la créativité aux actifs.

4. Limites et perspectives

1. La stabilité des objets dynamiques et des objectifs longs doit être optimisée

Bien que les performances soient excellentes, des artefacts peuvent toujours se produire dans les mouvements de caméra à longue portée ou les scènes contenant des objets dynamiques, qui doivent être encore optimisés.

2. Tendances futures

À court terme, la modélisation de l’IA et le raffinement artificiel se développeront en parallèle ; À long terme, avec l’itération de grands modèles et d’outils d’IA, les modèles de monde comme Voyager deviendront l’infrastructure de base de la réalité virtuelle, de la simulation et du métavers.

5. Adresse associée :

GitHub|Tencent-Hunyuan/HunyuanWorld-Voyager

https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

Foire aux questions (Q&A) sur

HuggingFace|tencent/HunyuanWorld-https://huggingface.co/tencent/HunyuanWorld-Voyager

Voyager

(Q&R)

Q : Quels sont les avantages de Voyager par rapport au COLMAP+NeRF traditionnel ?

R : Voyager produit directement des nuages RVB-D et de points, éliminant ainsi le besoin d’acquisition multi-perspectives et de processus de reconstruction hors ligne, permettant l’automatisation et l’intelligence, ainsi qu’une efficacité et une contrôlabilité accrues.

Q : Comment puis-je utiliser les nuages de points générés par l’IA avec RGB-D pour la réalité virtuelle ou les jeux ?

R : Les résultats générés peuvent être directement importés dans Unity ou UE, et les matériaux et les scripts peuvent être générés par des outils d’IA pour un développement interactif rapide.

Q : Voyager est-il entièrement open source et disponible dans le commerce ?

R : Voyager utilise un accord de licence communautaire, et le code et les poids sont ouverts, mais il n’est pas illimité pour un usage commercial, et les entreprises doivent suivre la LICENCE.

Q : Quelle est l’orientation future des modèles mondiaux d’IA ?

R : La tendance future est que les modèles de monde de l’IA collaborent avec des concepteurs humains, l’IA est responsable de la génération rapide et de la cohérence, et les humains sont responsables du raffinement et de la créativité, afin d’obtenir une production automatisée à plus grande échelle.

Articles connexes

Actualités de l’IA 24 heures sur 24 : le raffinement réglementaire et les fusions et acquisitions d’entreprises vont de pair, et la piste des agents s’intensifie

Le grand modèle 560B LongCat-Flash-Chat est en ligne : l’inférence de l’IA est entrée dans l’ère du 100 TPS

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés