Wan 2.5 Preview 强化音画同步：最长 10 秒视频与画质增强同步开放

AI资讯 • Admin • 2025/9/28 • 54 次浏览

Wan 2.5 已在预览版中加入“原生音频驱动视频生成”，用户可直接提供音频作为控制信号，配合文本提示或参考图像，用于文本到视频与图像到视频任务。官方描述强调音画同步能力，并在预览阶段开放 1080p、24fps 的输出规格，视频时长上限为 5 秒或 10 秒，具体取决于所选模型与接口参数。该更新旨在让旁白、音乐或环境音决定镜头节奏与叙事走向，从而获得更具连贯性的短片生成效果。

阿里云百炼与产品站点同时指出，Wan 2.5 的“有声视频”预览支持自动配音或自定义音频文件输入，适用于广告、电商演示与创意短片等场景。由于处于预览阶段，功能与可用范围可能随平台与地区逐步开放，具体性能仍需结合素材与下游流程验证；第三方测评亦提示在人像与动作稳定性方面仍存在波动，建议按项目进行小样本试片评估。

常见问题

Q：音频如何参与生成？

A：可上传音频作为驱动信号，结合文本提示或参考图片，引导镜头节奏、情绪与口型同步。

Q：支持多长与什么规格？

A：预览接口提供 5 秒与 10 秒两档，固定 24fps，最高可至 1080p，导出 MP4（H.264）。

Q：哪些入口可用？

A：通义万相/Wan 产品页与阿里云百炼 API 已列出含音频能力的预览模型与参数说明。

Q：稳定性如何？

A：官方演示显示音画同步已可用，但第三方测评称人像与运动一致性仍有起伏，需按场景测试。

Q：商用与地区可用性？

A：为预览特性，开通范围与条款以各平台页面与账号权限为准，可能分地区逐步放量。

Wan 2.5 Preview 强化音画同步：最长 10 秒视频与画质增强同步开放

相关文章

24小时AI新闻：AICC发布“北京方案”，Vibes上线与白宫R&D优先级同频

网传 OpenAI 启用“GPT-5-Chat-Safety”并静默接管 GPT-4o 对话，官方未公开文件

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

Wan 2.5 Preview 强化音画同步：最长 10 秒视频与画质增强同步开放

相关文章

24小时AI新闻：AICC发布“北京方案”，Vibes上线与白宫R&D优先级同频

网传 OpenAI 启用“GPT-5-Chat-Safety”并静默接管 GPT-4o 对话，官方未公开文件

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息