一、摘要
HunyuanImage 3.0 是腾讯混元开源的原生多模态文生图模型,采用 MoE 架构与 Transfusion 思路统一训练文本与图像。据官方信息:总参数超 80B,推理每 token 激活约 13B;支持理解千词级提示、在图像中精准生成文字,并强调“具备世界知识的推理”。当前版本聚焦文生图,后续将扩展到图生图、编辑与多轮交互。
二、核心特性
1、MoE×原生多模态:统一自回归框架,深度耦合 LLM 与扩散生成。
2、大规模训练:5B 图文对与多源数据,配合 6T 文本语料(按官方口径)。
3、长提示对齐:复杂、千词提示的语义遵循更强。
4、文本可读性:在海报/GUI/表单等“图中文字”生成更稳定。
5、推理优化:兼容 FlashAttention、FlashInfer,支持多 GPU。
三、安装
1、环境:Linux,Python 3.12,PyTorch 2.7.1(CUDA 12.8)。
2、权重:从 Hugging Face 下载至本地目录(目录名避免包含“.”)。
3、依赖:pip install -r requirements.txt,可选安装 FlashAttention/FlashInfer。
4、示例:运行 run_image_gen.py --model-id ./HunyuanImage-3 --prompt "…" 即可生成。
四、典型用例
1、品牌海报/电商 Banner:要求清晰可读文字与复杂版式。
2、漫画与插画:长描述到多元素画面的一致性控制。
3、教育内容与表情包:风格统一、图中文字规范输出。
4、产品/UI 概念图:界面元素与布局文字的可控生成。
五、生态与竞品
1、生态:提供 GitHub 推理代码、Hugging Face 权重与本地 Gradio Demo;计划支持 VLLM、推出 Instruct/蒸馏与图生图等。
2、竞品:同属开源的 SDXL、SD3、FLUX 等多为 DiT 路线;HunyuanImage 3.0 以 MoE+原生多模态为差异点,长提示与文字渲染是主打方向。具体效果以公开基准与实测为准。
六、局限与注意事项
1、资源要求高:建议≥3×80GB 显存;首次启用加速库可能需额外编译时间。
2、许可合规:Hugging Face 显示为“tencent-hunyuan-community”许可证,使用前需仔细阅读仓库 LICENSE。
3、功能范围:当前仅文生图;图生图、编辑与多轮交互在路线图中。
4、提示工程:预训练权重不默认重写提示,Instruct 权重支持自我重写与“思考”链。
七、项目地址
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
八、常见问题
Q: HunyuanImage 3.0 的硬件需求是多少?
A: 官方建议磁盘约 170GB,显存≥3×80GB,CUDA 12.8 与 PyTorch 2.7.1。
Q: 如何提升推理速度?
A: 安装 FlashAttention 与 FlashInfer,并使用多 GPU 与合适的注意力/ MoE 实现。
Q: Instruct 与预训练权重有何区别?
A: 预训练侧重基础生成;Instruct 额外支持提示自重写与“思考”过程,长提示控制更强。
Q: 是否支持图生图与编辑?
A: 官方路线图中规划支持,当前版本聚焦文生图。
Q: 许可证能商用吗?
A: 依据“tencent-hunyuan-community”具体条款,请阅读仓库与模型卡的许可说明后评估。