Wan 2.5는 미리보기 버전에 "네이티브 오디오 기반 비디오 생성" 기능을 추가했습니다. 사용자는 텍스트 프롬프트 또는 참조 이미지와 결합된 오디오를 제어 신호로 직접 제공하여 텍스트-비디오 및 이미지-비디오 작업을 수행할 수 있습니다. 공식 설명에서는 오디오 및 비디오 동기화 기능을 강조하며, 미리보기 단계에는 1080p, 24fps 출력 사양이 포함되어 있으며, 선택한 모델 및 인터페이스 매개변수에 따라 최대 비디오 길이는 5초 또는 10초입니다. 이 업데이트는 내레이션, 음악 또는 주변 소리를 통해 샷의 리듬과 내러티브 방향을 결정하여 더욱 일관된 단편 영화를 생성하는 것을 목표로 합니다.
알리바바 클라우드 바이리안과 제품 웹사이트는 Wan 2.5의 "Video with Sound" 미리보기 기능이 자동 더빙 또는 사용자 지정 오디오 파일 입력을 지원하여 광고, 전자상거래 데모, 창의적인 단편 영화 제작 등에 적합하다고 밝혔습니다. 아직 미리보기 단계이므로 기능 및 가용성은 여러 플랫폼과 지역에 걸쳐 점진적으로 확장될 수 있으며, 구체적인 성능은 영상 및 다운스트림 프로세스와 연계하여 검증해야 합니다. 타사 평가 결과에서도 인물 사진 및 동작 안정성 측면에서 성능 변동이 있는 것으로 나타났으므로, 각 프로젝트별로 소규모 샘플 테스트 영상 평가를 권장합니다.
자주 묻는 질문
질문: 오디오는 세대 생성에 어떻게 관여합니까?
A: 오디오를 구동 신호로 업로드하고 텍스트 프롬프트나 참조 이미지와 결합하여 샷의 리듬, 감정, 립싱크를 안내할 수 있습니다.
질문: 지원되는 길이와 사양은 무엇인가요?
답변: 미리보기 인터페이스는 5초와 10초의 두 가지 설정을 제공하며, 24fps로 고정되어 최대 1080p까지 가능하며 MP4(H.264)로 내보낼 수 있습니다.
질문: 어떤 입구를 이용할 수 있나요?
답변: Tongyi Wanxiang/Wan 제품 페이지와 Alibaba Cloud Bailian API에는 오디오 기능과 매개변수 설명이 포함된 미리보기 모델이 나열되어 있습니다.
Q: 안정성은 어떤가요?
A: 공식 데모에서는 오디오와 비디오 동기화가 가능한 것으로 나타나지만, 제3자 평가에서는 인물 사진과 동작의 일관성이 여전히 변동이 심하고 다양한 시나리오에 따라 테스트가 필요하다고 합니다.
질문: 상업적 이용 가능성과 지역적 이용 가능성은?
A: 이 기능은 미리보기 기능입니다. 활성화 범위 및 조건은 각 플랫폼의 플랫폼 페이지 및 계정 권한에 따라 달라지며, 지역별로 점진적으로 확대될 수 있습니다.