Wan 2.5 已在预览版中加入“原生音频驱动视频生成”,用户可直接提供音频作为控制信号,配合文本提示或参考图像,用于文本到视频与图像到视频任务。官方描述强调音画同步能力,并在预览阶段开放 1080p、24fps 的输出规格,视频时长上限为 5 秒或 10 秒,具体取决于所选模型与接口参数。该更新旨在让旁白、音乐或环境音决定镜头节奏与叙事走向,从而获得更具连贯性的短片生成效果。
阿里云百炼与产品站点同时指出,Wan 2.5 的“有声视频”预览支持自动配音或自定义音频文件输入,适用于广告、电商演示与创意短片等场景。由于处于预览阶段,功能与可用范围可能随平台与地区逐步开放,具体性能仍需结合素材与下游流程验证;第三方测评亦提示在人像与动作稳定性方面仍存在波动,建议按项目进行小样本试片评估。
常见问题
Q:音频如何参与生成?
A:可上传音频作为驱动信号,结合文本提示或参考图片,引导镜头节奏、情绪与口型同步。
Q:支持多长与什么规格?
A:预览接口提供 5 秒与 10 秒两档,固定 24fps,最高可至 1080p,导出 MP4(H.264)。
Q:哪些入口可用?
A:通义万相/Wan 产品页与阿里云百炼 API 已列出含音频能力的预览模型与参数说明。
Q:稳定性如何?
A:官方演示显示音画同步已可用,但第三方测评称人像与运动一致性仍有起伏,需按场景测试。
Q:商用与地区可用性?
A:为预览特性,开通范围与条款以各平台页面与账号权限为准,可能分地区逐步放量。