Tencent Hunyuan a lancé HunyuanImage 3.0-Instruct, un modèle multimodal natif pour l’édition d’images. L’introduction officielle adopte une architecture hybride expert (MoE) avec 80B de paramètres et environ 13B de paramètres d’activation, qui comprendra et raisonnera d’abord avant de générer des résultats après avoir reçu les images et instructions utilisateur, en mettant l’accent sur l’amélioration de l’alignement des instructions et de la stabilité de l’édition.
Au niveau des capacités, le modèle se concentre sur le « montage précis » et la « fusion multi-images », ce qui permet d’ajouter, supprimer, modifier, transformer le style, restaurer d’anciennes photos, extraire des personnages ou éléments de plusieurs images pour synthétiser une scène unifiée, et essayer de garder les zones non cibles intactes. Côté produit, des fonctionnalités associées sont également utilisées dans des applications telles que les émoticônes, le partage social, les affiches e-commerce et la coproduction virtuelle de personnages. Le portail d’expérience en ligne est indiqué comme disponible sur PC.
En termes de performance, les introductions officielles et pertinentes indiquent que la qualité et la performance d’alignement de l’image peuvent être comparées aux principaux modèles à code fermé, mais les conclusions de la comparaison indépendante par un tiers sous différentes tâches et la distribution des données doivent encore être soutenues par une évaluation publique accrue. Lors de l’utilisation des fonctions de retouche et de fusion d’images, des préoccupations subsistent concernant la confidentialité et la conformité au droit d’auteur, le risque d’altération accidentelle des portraits et du contenu textuel, ainsi que l’incertitude quant à la cohérence des résultats générés.
FAQ
Q : Quel type de modèle est HunyuanImage 3.0-Instruct ?
R : Il s’agit d’un modèle image-à-image et de retouche d’image publié par Tencent Hunyuan, qui met l’accent sur la capacité à comprendre les images d’entrée et à raisonner avant de les générer.
Q : Quelles opérations de montage Tencent Hunyuan Image 3.0 supporte-t-il pour la génération d’images ?
R : Les plus courants incluent l’ajout d’éléments, la suppression d’objets, le changement de style, la restauration d’anciennes photos, la modification de personnages et de contenus textuels, etc., et la tentative de garder la zone non retouchée aussi stable que possible.
Q : Quelle est la capacité de fusion multi-images de HunyuanImage 3.0-Instruct ?
R : Il peut extraire des personnes ou des éléments de plusieurs images pour les faire compositer afin de générer des photos de groupe cohérentes ou de nouveaux dessins de scène.
Q : Quelle est l’échelle et l’architecture des paramètres de HunyuanImage 3.0-Instruct ?
R : Les informations publiques indiquent qu’il s’agit d’une architecture MoE à 80 milliards de paramètres, et environ 13 milliards de paramètres sont activés lors de l’inférence pour prendre en compte à la fois l’effet et l’efficacité.
Q : Quels sont les risques d’utiliser Mixed Image 3.0 pour générer des images ?
R : Il est nécessaire de prêter attention à la confidentialité et à l’autorisation du droit d’auteur, à la possibilité de modifier par erreur les portraits et le texte, ainsi qu’au coût de la refonte causé par des limites et détails d’édition incohérents.