一、摘要
HY-Motion 1.0 是腾讯混元开源的文本到 3D 人体动作(text-to-motion)模型系列,基于 Diffusion Transformer(DiT)与 flow matching,将自然语言描述生成骨架驱动的 3D 角色动画序列,可进一步接入常见 DCC/引擎动画管线做重定向与资产化。项目同时提供标准版(约 1.0B 参数)与轻量版(约 0.46B 参数),并在训练上采用“预训练 → 高质量微调 → 强化学习”的完整链路以提升语义对齐与物理自然度。
二、核心特性
1、Billion-Scale DiT + Flow Matching:将 DiT 风格的流匹配生成框架扩展到 10 亿级参数,面向更强的指令理解与动作质量。
2、全阶段训练闭环:大规模预训练学习通用动作先验,再用高质量数据微调强化细节与平滑度,最后通过人类反馈与奖励模型相关的强化学习进一步对齐文本语义与动作自然性。
3、丰富类别覆盖:数据管线清洗与标注后,覆盖 6 大类、200+ 动作类别,便于构建更“可用”的动作库。
4、工程化推理与可选提示增强:提供本地批量推理脚本与 Gradio 界面;并支持可选的“时长预测与提示改写”模块(不启用时需显式关闭相关参数)。
三、安装
1、安装 PyTorch(按官方指引选择 CUDA/CPU 版本)。
2、拉取代码并安装依赖:git clone 仓库后,在目录内执行 pip install -r requirements.txt。
3、下载权重:按仓库 ckpts/README.md 的说明把模型权重放到指定目录(标准版或 Lite 版)。
4、运行推理:使用 local_infer.py 进行本地批量生成(通过 --model_path 指向对应权重目录)。
5、启动可视化:运行 gradio_app.py 打开本地 Web 界面进行交互式预览与测试。
四、典型用例
1、游戏与动画预制:用自然语言快速生成动作草案,缩短“从分镜到动作库”的迭代周期。
2、数字人/虚拟主播动作库:按风格、节奏、情绪指令批量生成素材,再统一做骨骼重定向与清洗。
3、DCC/引擎管线接入:将生成的骨架动作导入 Blender/Maya 或 Unity/Unreal,配合 IK、重定向与曲线编辑落地为可复用资产。
4、数据增强与检索辅助:作为动作生成器扩充长尾动作描述覆盖,或用于构建“文本—动作”对齐的检索与标注流程(需人工抽检)。
五、生态与竞品
1、生态位置:HY-Motion 1.0 面向“文本 → 3D 人体动作”这一环节,可与 SMPL/SMPLH 相关人体表示、DCC 工具链、以及提示工程模块组合形成“可生产”的动作资产流程。
2、开源竞品参照:MDM(Human Motion Diffusion Model)、T2M-GPT、以及早期的 text-to-motion 基线与 HumanML3D 等数据/基准在社区使用广泛。HY-Motion 1.0 的差异点主要在于 1B 规模与更完整的训练闭环;实际优劣仍建议以你的提示分布、角色骨架与落地管线做对比评测。
六、局限与注意事项
1、算力与时延:10 亿参数推理对显存与吞吐要求更高,资源受限场景可优先尝试 Lite 版。
2、骨架与角色差异:生成的是骨架驱动动作,落地到具体角色通常需要重定向、骨长适配、脚底滑步修正与穿插校正。
3、提示改写/时长预测依赖:若启用相关模块,需要配置可用的服务地址或本地模型;否则应关闭对应参数避免报错。
4、类别与数据偏差:200+ 类覆盖不等于“任意描述都稳定”,复杂交互、道具、多人等场景可能需要额外约束或后处理。
5、许可与合规:权重与代码采用特定社区许可,商用/分发前应仔细核对条款,并对生成内容做版权与安全审核。
七、项目地址
https://github.com/Tencent-Hunyuan/HY-Motion-1.0
八、常见问题
Q:HY-Motion 1.0 安装后运行 local_infer.py 报与 duration_est / rewrite 相关的错误,怎么处理?
A:如果你没有配置提示改写/时长预测模块的服务地址或本地权重,需要在推理参数中关闭对应功能(例如禁用 duration_est 与 rewrite),或按仓库说明正确配置模块。
Q:HY-Motion-1.0 与 HY-Motion-1.0-Lite 如何选择?
A:追求更高动作质量与更强指令跟随、且有充足算力时选标准版;需要更低资源占用或更快迭代时先用 Lite 版,再对关键片段用标准版复生成。
Q:HY-Motion 1.0 的输出如何接入 Blender/UE/Unity 动画管线?
A:通常流程是:将生成的骨架动作导出/转换为你的工具链可读格式,再做骨骼重定向到目标角色 Rig,并进行 IK、脚底锁定与曲线平滑等后处理;不同项目骨架标准不同,需建立稳定的重定向模板。
Q:HY-Motion 1.0 是否适合“带道具/多人交互/复杂场景”的动作?
A:它主要面向单人 3D 人体动作生成;复杂交互往往需要更强的条件输入、后处理或专门数据支持,建议先做小规模验证并准备人工修正环节。