L'équipe Qwen a publié Qwen-Image-Edit-2509, une refonte mensuelle de Qwen-Image-Edit axée sur l'édition multi-images et la cohérence des images individuelles. Le mode multi-images permet d'insérer jusqu'à 1 à 3 images de référence, telles que « personne + produit » ou « personne + scène », afin de préserver la cohérence du sujet et du matériau lors de la synthèse du modèle, minimisant ainsi les défauts d'alignement et créant un effet « assemblage ». En édition d'images individuelles, les visages conservent leur identité quelles que soient les poses et les styles, tandis que les produits conservent leurs caractéristiques clés dans les publicités et les affiches. L'édition de texte permet de modifier simultanément le contenu, les polices, les couleurs et les textures, prenant en charge la mise en page de textes longs et l'intégration de textes et d'images.
Cette version prend en charge nativement les entrées conditionnelles ControlNet (profondeur, arêtes, points clés, etc.), facilitant ainsi le remplacement des poses et l'alignement structurel. Des expériences en ligne officielles et des ressources open source sont disponibles, notamment un portail d'édition d'images QwenChat, le modèle et la démonstration Hugging Face, des instructions GitHub et une image ModelScope. Des discussions communautaires ont également débuté sur la quantification GGUF et l'adaptation ComfyUI. Pour connaître les fonctionnalités spécifiques et les bonnes pratiques, veuillez consulter la documentation et le dépôt officiels.
Questions fréquemment posées
Q : Quelles sont les principales améliorations par rapport à la version précédente ?
A : Ajout de l'édition multi-images ; cohérence considérablement améliorée entre les personnages et les produits dans une seule image ; l'édition de texte prend en charge un contrôle précis des polices/couleurs/matériaux, etc.
Q : Quelle est la quantité d’entrée recommandée pour l’édition multi-images ?
R : Actuellement, 1 à 3 photos sont les meilleures, et des combinaisons telles que « personnes + personnes/personnes + produits/personnes + scénarios » sont prises en charge.
Q : ControlNet est-il intégré ?
R : Oui, il prend en charge nativement les entrées conditionnelles telles que la profondeur, les bords et les points clés pour le contrôle de la posture et de la structure.
Q : Où puis-je expérimenter et obtenir le modèle ?
R : Vous pouvez utiliser le portail d'édition d'images dans QwenChat ; GitHub/Hugging Face/ModelScope fournissent des poids, des exemples et des démonstrations en ligne.
Q : Est-ce open source ?
R : Les pondérations des modèles et des exemples de codes sont fournis. La communauté a déjà implémenté la quantification et l'adaptation des flux de travail. Pour les autorisations et les utilisations spécifiques, veuillez consulter les pages de la plateforme.