I. Résumé
HunyuanImage 3.0 est le modèle texte-image multimodal natif et open source de Tencent Hunyuan. Il utilise une architecture MoE et une approche de transfusion pour unifier l'apprentissage texte-image. Selon les informations officielles, le modèle comporte plus de 80 octets de paramètres, dont environ 13 octets sont activés par jeton pour l'inférence. Il prend en charge la compréhension de milliers de mots-clés, génère du texte avec précision à partir d'images et met l'accent sur le raisonnement par la connaissance du monde. La version actuelle se concentre sur le texte-image et sera étendue aux interactions image-image, à l'édition et aux interactions multi-tours.
- Fonctionnalités principales
1. MoE×Native Multimodality : Cadre autorégressif unifié, LLM profondément couplé et génération de diffusion.
2. Formation à grande échelle : 5B paires image-texte et données multi-sources, combinées à 6 To de corpus textuel (selon les normes officielles).
3. Alignement des invites longues : les invites complexes de mille mots ont un alignement sémantique plus fort.
4. Lisibilité du texte : La génération de « texte dans les images » dans les affiches/interfaces graphiques/formulaires est plus stable.
5. Optimisation de l'inférence : compatible avec FlashAttention, FlashInfer et prend en charge plusieurs GPU.
- Installation
- Environnement : Linux, Python 3.12, PyTorch 2.7.1 (CUDA 12.8).
- Poids : téléchargez depuis Hugging Face vers un répertoire local (évitez d'inclure « . » dans le nom du répertoire).
3. Dépendance : pip install -r requirements.txt, installation facultative de FlashAttention/FlashInfer.
4. Exemple : exécutez run_image_gen.py --model-id ./HunyuanImage-3 --prompt "…" pour générer.
Cas d'utilisation typiques
- Affiches de marque/bannières de commerce électronique : nécessitent un texte clair et lisible et une mise en page complexe.
- Bandes dessinées et illustrations : Contrôle de la cohérence des descriptions longues aux images multi-éléments.
- Contenu éducatif et packages d'émoticônes : style unifié et sortie standardisée de texte sous forme d'images et d'images.
- Carte conceptuelle du produit/de l'interface utilisateur : génération contrôlable des éléments d'interface et du texte de mise en page.
- Écosystème et produits compétitifs
- Écosystème : fournit du code d'inférence GitHub, des poids Hugging Face et une démo Gradio locale ; prévoit de prendre en charge VLLM, de lancer Instruct/Distillation et la génération de graphiques.
- Concurrents : Les applications open source comme SDXL, SD3 et FLUX sont principalement basées sur DiT. HunyuanImage 3.0 se distingue par son MoE et sa multimodalité native, en se concentrant sur les invites longues et le rendu textuel. Les performances spécifiques sont soumises à des benchmarks publics et à des tests en conditions réelles.
VI. Limitations et précautions
- Besoins en ressources élevés : ≥ 3 × 80 Go de mémoire vidéo sont recommandés ; l'activation de la bibliothèque d'accélération pour la première fois peut nécessiter un temps de compilation supplémentaire.
- Conformité de la licence : Hugging Face affiche la licence « tencent-hunyuan-community ». Veuillez lire attentivement la licence du dépôt avant utilisation.
- Portée fonctionnelle : Actuellement, seuls le texte vers image, l'image vers image, l'édition et l'interaction multi-tours sont au programme.
- Ingénierie des invites : les poids pré-entraînés ne remplacent pas les invites par défaut, mais les poids d'instruction prennent en charge les chaînes d'auto-remplacement et de « réflexion ».
- Adresse du projet
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- Questions fréquemment posées
Q : Quelle est la configuration matérielle requise pour HunyuanImage 3.0 ?
R : La recommandation officielle est une taille de disque d'environ 170 Go, une mémoire vidéo ≥ 3×80 Go, CUDA 12.8 et PyTorch 2.7.1.
Q : Comment améliorer la vitesse d’inférence ?
A : Installez FlashAttention et FlashInfer et utilisez plusieurs GPU avec l’implémentation d’attention/MoE appropriée.
Q : Quelle est la différence entre Instruct et les poids pré-entraînés ?
R : La pré-formation se concentre sur la génération de base ; Instruct prend également en charge les invites pour l'auto-réécriture et le processus de « réflexion », avec un contrôle plus fort sur les invites longues.
Q : Prend-il en charge la génération et l’édition d’images ?
R : Le support est prévu dans la feuille de route officielle, et la version actuelle se concentre sur Wenshengtu.
Q : La licence peut-elle être utilisée à des fins commerciales ?
R : Conformément aux conditions spécifiques de « tencent-hunyuan-community », veuillez lire les instructions de licence de l'entrepôt et la carte modèle avant d'évaluer.