Retour à Informations sur l’IA
De la vidéo à l'interaction : implémentation technique du splat gaussien 3D génératif

De la vidéo à l'interaction : implémentation technique du splat gaussien 3D génératif

Informations sur l’IA Admin 42 vues

Le 3D Gaussian Splat génératif repousse les limites de la « transformation vidéo en 3D interactive » : une seule scène peut générer jusqu'à 50 millions de splats, créant un effet de survol d'une qualité quasi photographique. Cependant, le post-traitement V2V peut encore entraîner des assemblages incohérents et des sauts d'exposition. Grâce à des chaînes d'outils d'IA et à la normalisation des données, ces artefacts peuvent être minimisés à des niveaux acceptables.


1. Pourquoi ces grandes scènes « ne semblent pas artificielles »

1. L'essence du 3D Gaussian Splat

Mots-clés : Le 3D Gaussian Splat utilise des volumes gaussiens anisotropes au lieu de voxels ou de maillages, ce qui permet un apprentissage rapide et un rendu en temps réel, ce qui le rend naturellement adapté aux grandes scènes et aux angles de vue libres. Par rapport à Nerf, il offre une densité plus adaptative, permettant une incorporation détaillée grâce à la densification et au contrôle de l'échelle.

2. Une nouvelle voie vers la 3D générative

Mots-clés La 3D générative utilise des modèles de diffusion et des expressions Splat pour prendre en charge la génération directe de scènes à partir d'images ou de vidéos, et peut les convertir de manière sélective en maillage et en textures pour l'implémentation et l'édition du moteur.

(1) Pourquoi peut-il y avoir plus de 50 millions de splats ?

Mots-clés Grandes scènes

Le cœur est l'entraînement par blocs et le rendu hiérarchique : diviser des pâtés de maisons ou de longs couloirs en sous-blocs, puis effectuer un alignement et un recadrage globaux, ce qui rend la mémoire vidéo et la fréquence d'images plus contrôlables.

(2) La source des artefacts d'assemblage v2v

Mots-clés post-traitement v2v

Cela peut introduire une dérive des couleurs, un mauvais alignement de l'assemblage et une incohérence temporelle. La cause première est le tremblement de la trajectoire de la caméra, l'incohérence de l'exposition et la dérive de correspondance des caractéristiques.


II. Transformer « éblouissant » en « utilisable » : purification en trois étapes, de l'acquisition à l'apprentissage

1. Côté données : trajectoire stable et exposition unifiée

Mots-clés : 3D générative : Commencez par étalonner l'objectif et lisser la trajectoire ; les longues tranches vidéo conservent les fréquences d'images qui se chevauchent, unifient la balance des blancs et l'obturateur, et réduisent la dominante de couleur et l'assemblage ultérieurs.

2. Côté apprentissage : densité des calques et recadrage

Mots-clés : Éclat gaussien 3D : Commencez par étalonner globalement à faible densité, puis localement ; masquez ou étalonnez le ciel non pertinent et les paysages lointains, en laissant des éclaboussures pour les structures importantes.

(1) Régularisation de la cohérence et étalonnage des couleurs

Mots-clés : v2v : ajoutez des contraintes de couleur pour les blocs voisins et des pondérations pour les zones de chevauchement des limites pendant l'optimisation, et effectuez un mappage de tons local après l'apprentissage pour réduire le « zippering » des limites.

(2) Côté publication : LOD et interactivité

Mots-clés Grandes scènes Génération de LOD multi-niveaux et de packages partitionnés ; le Web ou le côté client utilise la distance et le découpage frustum pour garantir une interaction en temps réel.


III. Chaîne d'outils d'IA : de la « vidéo à la scène »

1. La boucle fermée la plus courte entre l'acquisition et la reconstruction

Mots-clés 3D générative Utiliser des outils de reconstruction multi-vues pour fournir des poses de caméra, accéder à l'entraînement Splat et au découpage automatique ; si nécessaire, convertir en maillage en un clic pour le mappage et la collision.

2. Inspection et réparation automatiques de la qualité

Mots-clés v2v Utiliser des scripts proxy pour détecter par lots les coutures, les sauts de couleur et les trous, réinjecter automatiquement de petites zones pour le réentraînement ; et fournir des invites de « reprise de vue ou de recalcul » pour les fluctuations de texture.

(1)Musique et démonstration

Mots-clés Grande scène Lors de la publication d'une démo, il est recommandé de corriger le chemin et le rythme de la caméra pour réduire le scintillement causé par un panoramique rapide, ce qui rend l'« incroyable » plus stable et plus fluide.

(2)Atterrissage orienté moteur

Mots-clés Éclaboussure gaussienne 3D Combinez avec des plug-ins de moteur ou convertissez en maillage, unifiez les coordonnées et les unités, ajoutez des sondes lumineuses et des sondes de réflexion, et obtenez « ce que vous voyez est ce que vous utilisez ».


Foire aux questions (Q&R)

Q : 50 millions d'éclaboussures seront-elles trop lourdes pour être exécutées en temps réel ?

R : Mots-clés Grande scène En utilisant le chargement par blocs et le niveau de détail, le recadrage multi-vues peut maintenir la fluidité sur cartes graphiques de milieu à haut de gamme ; les terminaux mobiles peuvent utiliser le sous-échantillonnage et le streaming régional.

Q : Comment puis-je corriger l'assemblage v2v incohérent ?

R : Mots-clés : v2v effectue la correspondance des couleurs et l'entraînement au chevauchement aux limites ; ajoute un lissage aux trajectoires de la caméra et une exposition uniforme ; effectue un mappage de tons local et une suppression du scintillement avant la publication.

Q : Quelle est la différence entre la 3D générative et la « reconstruction photo » ?

R : Mots-clés : La 3D générative peut compléter des visages invisibles et des détails stylisés, mais nécessite des contraintes de cohérence pour éviter la dérive structurelle ; la reconstruction photo est une géométrie plus « fidèle » mais a des contraintes stylistiques limitées.

Q : Comment importer des ressources Splat dans un moteur de jeu ?

R : Mots-clés : Le Splat gaussien 3D peut être rendu directement à l'aide du plugin de rendu Splat, ou converti en textures Mesh et PBR. Pour les scènes de grande taille, il est recommandé de conserver Splat pour l'aperçu et Mesh pour la livraison finale.

Outils Recommandés

Plus