返回AI资讯
Wan 2.5 Preview 强化音画同步:最长 10 秒视频与画质增强同步开放

Wan 2.5 Preview 强化音画同步:最长 10 秒视频与画质增强同步开放

AI资讯 Admin 30 次浏览

Wan 2.5 已在预览版中加入“原生音频驱动视频生成”,用户可直接提供音频作为控制信号,配合文本提示或参考图像,用于文本到视频与图像到视频任务。官方描述强调音画同步能力,并在预览阶段开放 1080p、24fps 的输出规格,视频时长上限为 5 秒或 10 秒,具体取决于所选模型与接口参数。该更新旨在让旁白、音乐或环境音决定镜头节奏与叙事走向,从而获得更具连贯性的短片生成效果。

阿里云百炼与产品站点同时指出,Wan 2.5 的“有声视频”预览支持自动配音或自定义音频文件输入,适用于广告、电商演示与创意短片等场景。由于处于预览阶段,功能与可用范围可能随平台与地区逐步开放,具体性能仍需结合素材与下游流程验证;第三方测评亦提示在人像与动作稳定性方面仍存在波动,建议按项目进行小样本试片评估。

常见问题

Q:音频如何参与生成?

A:可上传音频作为驱动信号,结合文本提示或参考图片,引导镜头节奏、情绪与口型同步。

Q:支持多长与什么规格?

A:预览接口提供 5 秒与 10 秒两档,固定 24fps,最高可至 1080p,导出 MP4(H.264)。

Q:哪些入口可用?

A:通义万相/Wan 产品页与阿里云百炼 API 已列出含音频能力的预览模型与参数说明。

Q:稳定性如何?

A:官方演示显示音画同步已可用,但第三方测评称人像与运动一致性仍有起伏,需按场景测试。

Q:商用与地区可用性?

A:为预览特性,开通范围与条款以各平台页面与账号权限为准,可能分地区逐步放量。

推荐工具

更多