- Résumé
Z-Image est une famille de modèles de base de génération d’images à 6 milliards de paramètres open source développée par Tongyi-MAI, utilisant l’architecture Single-Stream Diffusion Transformer (S3-DiT). Contrairement à Z-Image-Turbo, qui met l’accent sur la vitesse, Z-Image est positionné comme un modèle « pleine capacité, non distillé » pour les créateurs, chercheurs et développeurs qui ont besoin d’un meilleur contrôle, d’une couverture stylistique plus riche et d’une plus grande diversité générative.
- Caractéristiques principales
- Modèle de base non distillé : conserve des signaux d’entraînement complets et supporte un CFG (Classification Free Guidance) complet, qui convient mieux à l’ingénierie de prompts complexes et aux flux de travail professionnels.
- Large couverture de l’esthétique et du style : de la photographie réaliste, de la qualité du film à l’illustration, l’animation et une variété d’expressions stylisées, adaptées à l’exploration créative multidimensionnelle.
- Une plus grande diversité de sortie : La composition, l’identité faciale des personnages et les changements d’éclairage sont plus significatifs sous différentes graines aléatoires, ce qui facilite le fait d’avoir « leurs propres personnages » dans les scènes multijoueur.
- Prompts négatifs robustes : Réponses plus stables aux prompts négatifs, qui peuvent être utilisés pour supprimer les artefacts, contrôler la composition et réduire les éléments indésirables.
- Orienté vers le développement secondaire : Il est naturellement adapté comme base d’ajustement fin LoRA et peut être étendu au contrôle des conditions structurelles (comme ControlNet) et au contrôle sémantique.
- Installation
- Obtenir le code : cloner le dépôt officiel GitHub, créer un environnement Python selon les instructions du dépôt et installer les dépendances.
- Obtenez le poids : Téléchargez la variante correspondante (Z-Image / Turbo / Omni-Base / Edit) dans Hugging Face ou ModelScope.
- Exécuter l’inférence : Consultez le script de démarrage rapide ou d’exemple de l’entrepôt pour sélectionner des paramètres tels que les étapes, le CFG et la résolution selon les exigences de mémoire et de vitesse.
- Cas d’usage typiques
- Exploration du style et divergence créative : Il est plus avantageux lorsqu’un grand nombre d’images candidates à fortes différences (compositions/lumières et ombres/personnages différents) sont nécessaires.
- Projet professionnel de mots à consigne : Comptez sur le CFG, les mots négatifs et plusieurs cycles d’itérations pour obtenir un atterrissage d’image « plus contrôlable ».
- Ajustement fin en aval : Z-Image/Omni-Base est utilisé comme base pour la LoRA de style d’entraînement, la LoRA des personnages et la LoRA du matériel industriel.
- Retouche d’image : Utilisez Z-Image-Edit pour des modifications locales pilotées par le langage naturel, des transferts de style et un montage cohérent.
- Intégration du développement : intégrer les capacités de génération dans le flux de travail (brouillon, génération en lots de matériaux, comparaison visuelle A/B des solutions).
- Écologie et produits concurrents
- Écosystème : Le code et les poids sont distribués sur GitHub, Hugging Face et ModelScope, et des démonstrations/galeries en ligne sont proposées pour l’expérience.
- Perspective concurrente du produit : Comparé aux modèles courants d’accélération par distillation, Z-Image met l’accent sur « les capacités de base, la contrôlabilité et l’ajustement fin » ; L’avantage par rapport aux modèles commerciaux à code fermé est qu’ils sont open source, transparents et personnalisables, mais le résultat final dépend toujours de la qualité de vos invites, paramètres et des réglages en aval.
- Limitations et précautions
- Lorsque le modèle de base poursuit un degré de liberté, une reproduction stable de la même image nécessite une gestion plus stricte de la graine/paramètre/version.
- Le CFG, la résolution et le nombre d’étapes affecteront significativement la qualité et la rapidité, il est donc recommandé d’établir des cas d’utilisation par défaut et de régression au niveau de l’équipe.
- Des scénarios tels que la cohérence multi-personne et la composition complexe du texte sont toujours recommandés pour l’échantillonnage manuel et la correction ultérieure.
- Les différentes variantes sont positionnées différemment : le turbo convient à un haut débit et à une faible latence ; Z-Image est meilleur pour la création et l’ajustement fin ; Édition pour les tâches de montage ; Omni-Base est plutôt une « base universelle ».
- Adresse du projet
https://github.com/Tongyi-MAI/Z-Image
- Questions fréquemment posées
Q : Quelle est la différence fondamentale entre Z-Image et Z-Image-Turbo ?
R : Z-Image est orientée vers « base de non-distillation pleine capacité + contrôlabilité CFG + ajustable fin », et Turbo est orientée vers « accélération par distillation + graphismes plus rapides avec moins d’étapes ».
Q : Pourquoi Z-Image est-elle mieux adaptée comme base LoRA/ControlNet ?
R : Les modèles non distillés conservent généralement des capacités de représentation plus complètes et des signaux d’entraînement, ce qui est plus propice à l’injection de nouveaux styles et au contrôle conditionnel en aval.
Q : Comment utiliser les indications négatives pour améliorer la stabilité de l’image Z ?
R : Les artefacts courants, déformations, membres dupliqués, basse définition, mauvais texte, etc. sont clairement écrits dans les consignes négatives, et les paramètres sont ajustés avec la CFG et le nombre de pas.
Q : Pour quelles tâches de montage Z-Image-Edit convient-il ?
R : Il convient davantage à la « retouche directive », comme le remplacement local, le transfert de style, l’ajustement de fond et la repeinture pour maintenir la cohérence du sujet.