Retour à L’IA est open source
Interprétation open source Apple ml-sharp (SHARP) : un nouveau schéma de synthèse en perspective pour générer un Splat gaussen 3D en quelques secondes à partir d’une seule photo

Interprétation open source Apple ml-sharp (SHARP) : un nouveau schéma de synthèse en perspective pour générer un Splat gaussen 3D en quelques secondes à partir d’une seule photo

L’IA est open source Admin 451 vues

1. Résumé

ml-sharp est l’implémentation open source du code et du modèle du projet SHARP par Apple, avec pour objectif de revenir directement aux représentations 3D gaussiennes (3DGS) de la scène à partir d’une seule image et d’obtenir une génération d’inférence « moins d’une seconde » sur les GPU standards. Le 3DGS résultant peut être rendu en temps réel pour une nouvelle synthèse de perspective haute résolution à partir de perspectives proches, avec un accent sur l’échelle « métrique » et absolue, permettant une navigation et un rendu plus proches du mouvement réel de la caméra.

2. Caractéristiques principales

  1. Image unique → 3DGS : Entrer une seule photo et sortir des splats gaussiens 3D (.ply) comme représentation de scène, ce qui est pratique pour accéder à divers outils de rendu/visualisation 3DGS.
  2. Génération de second niveau : Utilise un paramètre gaussen 3D de régression réseau en avant unique, en se concentrant sur une faible latence et une expérience interactive.
  3. Échelle mesurable : La sortie représente les attributs de mesure avec l’échelle absolue et le mouvement de la caméra, ce qui est plus propice au rendu de la trajectoire de la caméra et à l’aperçu AR/VR avec un « vrai sens de la distance ».
  4. Généralisation zéro prise : Positionnée comme un schéma de généralisation robuste à travers les ensembles de données, adapté pour convertir rapidement « n’importe quelle photo » en une expression 3D navigable.

5. CLI d’ingénierie : Fournit sharp outils en ligne de commande pour supporter la prédiction par lots, spécifier les points de contrôle et afficher les trajectoires des Gaussiens générés (avec limitations matérielles).

3. Installation

1. Créer un environnement (exemple) : conda create -n sharp python=3.13, puis conda activate sharp.

2. Installer les dépendances : exécuter le pip install -r requirements.txt dans le répertoire racine du dépôt.

3. Vérifier l’installation : Exécuter sharp --help pour confirmer que la commande est disponible.

4. Les poids par défaut des modèles seront automatiquement téléchargés et mis en cache localement pour la première exécution (vous pouvez également les télécharger manuellement selon le lien fourni dans le README et les spécifier avec -c).

4. Cas d’usage typiques

  1. Rédaction rapide de contenu 3D : Convertir rapidement une seule séquence en 3DGS pour la preuve de concept, la répétition de l’objectif et l’affichage interactif.
  2. Aperçu des scènes AR/VR : Convertir des photos en scènes navigables, effectuer des mouvements en gros plan et une vue immersive.
  3. 3D front du pipeline d’actifs : Transformer la carte de référence 2D en une représentation 3D rapprochée et rendue pour fournir la forme initiale à la reconstruction/édition ultérieure.
  4. Recherche et évaluation : Comparer la performance des différentes méthodes de synthèse de nouvelles perspectives en termes de rapidité, de détail et de stabilité, et reproduire les conclusions expérimentales.

5. Écologie et produits concurrents

1. Connexion écologique : La sortie .ply de SHARP est compatible avec les moteurs de rendu 3DGS courants ; Il convient de noter qu’il utilise les conventions de coordonnées OpenCV (x à droite, y en bas, z en avant), et peut nécessiter un ajustement de l’échelle/rotation/centre de gravité dans des moteurs de rendu tiers.

  1. Direction de la comparaison : La page du projet propose une comparaison vidéo visuelle avec diverses méthodes connexes (telles que Gen3C, ViewCrafter, TMPI, Flash3D, LVSM, SVC, etc.). Trois éléments sont généralement mis en avant lors du choix d’un modèle : la vitesse de génération (secondes), la netteté des détails (si la structure est stable) et la cohérence géométrique lors du mouvement de la caméra.

6. Limitations et précautions

1. Limitations matérielles des pistes de rendu : Les prédictions pour générer des 3DGS peuvent s’exécuter dans des environnements tels que CPU/CUDA/MPS, mais le rendu des pistes vidéo à travers --render nécessite actuellement des GPU CUDA.

  1. Limitations inhérentes à une seule image : Pour les réflexions fortes, les objets transparents, les textures répétitives et les scènes occultées, la géométrie et les textures peuvent dériver ou former des artefacts, il est donc recommandé de filtrer manuellement les entrées et les résultats.
  2. Détails de compatibilité de rendu tiers : différents visualiseurs ont des conventions différentes sur les systèmes de coordonnées, les échelles unitaires et les champs couleur/attribut, donc vérifiez d’abord les coordonnées et les transformations d’échelle lors de l’importation d’exceptions.
  3. Licence et usage commercial : Le code et les poids du modèle peuvent adopter des conditions de licence différentes ; Assurez-vous de bien lire la LICENCE et les LICENSE_MODEL de l’entrepôt avant de produire ou d’utiliser commercialement.

7. Adresse du projet

https://github.com/apple/ml-sharp

8. Questions fréquemment posées

Q : Quel est le format du fichier 3DGS produit par ml-sharp (SHARP) et comment l’utiliser ?

R : La sortie par défaut est un fichier .ply de splats 3D Gaussiens, qui peut être importé dans les outils courants de rendu/visualisation 3DGS pour une navigation ou un rendu interactif.

Q : Les poids des modèles de ml-sharp seront-ils téléchargés automatiquement, et où se trouve le cache ?

R : La première exécution de la prédiction téléchargera automatiquement le point de contrôle par défaut et le mettra en cache sur le chemin du cache Torch dans le répertoire utilisateur local ; Il peut également être téléchargé manuellement et spécifié avec -c.

Q : Pourquoi ai-je une erreur ou un échec pour afficher une vidéo avec sharp predict --render ?

R : Le rendu vidéo de piste repose actuellement sur des GPU CUDA ; Si votre environnement ne dispose pas de chaîne d’outils CUDA ou ne respecte pas les dépendances, il est recommandé de construire uniquement .ply et d’utiliser d’autres moteurs de rendu pour compléter la visualisation.

Q : ML-sharp peut-il fonctionner sur Mac (MPS) ?

R : La prédiction (générer 3DGS) peut généralement s’exécuter sur les backends de dispositifs pris en charge, mais le rendu de trajectoire repose toujours sur CUDA ; Sur Mac, il peut être .ply et rendu avec des outils externes.

Q : SHARP est-il adapté pour le monde ouvert dans les « scènes de longue distance » ?

R : Il convient davantage à la synthèse de nouvelles perspectives en « perspective proche » et aux mouvements de caméra à courte portée ; De grands déplacements, une forte occlusion et des changements extrêmes d’angle de vue peuvent entraîner une dégradation de la qualité.

régression SHARP à image unique open-source ml-sharp 3DGS SHARP permet la génération 3D d’une seule photo La scène gaussienne représente Implémentation d’ingénierie de génération d’inférence de second niveau ml-sharp de 3DGS La production SHARP mesure les avantages de 3DGS à l’échelle absolue La généralisation à zéro prise en ML tranchante transforme n’importe quelle photo en 3D en quelques secondes SHARP génère le format PLY pour 3DGS et un guide d’utilisation ML-dièse fournit la note de dièsez Processus de prédiction et de rendu par lots de CLI SHARP génère 3DGS en moins d’une seconde sur un GPU standard ML-Sharp est utilisé pour la synthèse et la navigation en perspective nouvelle haute résolution SHARP insiste sur le fait que les échelles métriques supportent un rendu de mouvement de caméra réaliste Configuration d’installation ML-sharp Conda avec dépendances : étapes complètes SHARP exécute pour la première fois des instructions de téléchargement automatique des poids et de localisation du cache ml-sharp Comment changer les poids du modèle avec les paramètres de point de contrôle SHARP prend en charge, le processeur CUDA Stratégie de déroulement par inférence MPS Pourquoi avez-vous besoin d’une carte graphique CUDA pour afficher des vidéos de trace en ML-sharp ? Interprétation des idées de régression réseau SHARP d’un seul graphe vers 3DGS Scénario d’application de ml-sharp dans l’aperçu de scène ARVR SHARP transforme des cartes de référence 2D en représentations 3D rapprochées et rendables ML-sharp est utilisé pour le brouillon rapide de contenu 3D et l’aperçu des plans Points de compatibilité pour l’accès SHARP aux moteurs de rendu 3DGS courants ml-sharp adopte les précautions d’importation du système de coordonnées OpenCV Ajustement de l’échelle des coordonnées SHARP du centre de gravité de rotation ml-sharp et Gen3C ainsi que d’autres méthodes SHARP vs. ViewCrafter en termes de vitesse et de détails ml-sharp comparé à l’observation de la cohérence géométrique de Flash3D La raison pour laquelle SHARP convient aux perspectives proches et à la synthèse de nouvelles perspectives ML-sharp n’est pas adapté à la frontière de grandes scènes déplacées sur de longues distances Analyse SHARP des artefacts courants sur des objets transparents hautement réfléchissants ML-sharp fait face au risque de qualité que des textures répétées occultent la scène Suggestions de filtrage d’entrée pour la dérive de résultat et les artefacts SHARP Guide de compatibilité des champs de couleur pour visualiseurs tiers d’importation ML-Sharp Méthode de gestion de la différence d’échelle d’unité SHARP pour différents moteurs de rendu ml-sharp génère des pré-solutions pipeline pour les actifs 3DGS en lots SHARP fournit la valeur du motif initial pour les modifications de reconstruction ultérieures ML-Sharp est utilisé pour étudier et évaluer la stabilité des détails de vitesse Avantages clés du rendu en temps réel et de l’expérience interactive de SHARP ml-sharp comment générer un 3DGS navigable et exporter PLY SHARP Prédire la conception des paramètres de commande et les meilleures pratiques ml-sharp sur Mac avec MPS pour déduire un chemin viable SHARP génère PLY des schémas de rendu post-externes sur Mac Erreur de rendu ml-sharp dépannage et vérification de la chaîne d’outils CUDA La génération de second niveau de SHARP apporte des flux de travail interactifs en brouillons 3D Des pistes de caméra sensibles à la distance réalistes en ml-sharp pour les aperçus AR SHARP met l’accent sur la cohérence géométrique et améliore la stabilité des mouvements de la caméra Comparaison de la stabilité de ml-sharp et TMPI dans une structure fine Le compromis entre SHARP et LVSM dans le délai d’inférence Licence ML-Sharp et une liste des termes à vérifier avant une utilisation commerciale

Outils Recommandés

Plus