Qwen은 Qwen3-TTS의 새로운 라인업을 출시하며 두 가지 기능 라인을 출시했습니다: VoiceDesign-VD-Flash와 VoiceClone-VC-Flash: 전자는 "자유 텍스트 지시"를 사용해 톤, 리듬, 분위기, 캐릭터 디자인을 세밀하게 제어하며, 미리 설정된 음색에 의존하지 않음을 강조합니다; 후자는 약 3초 만에 음성 복제에 집중하며, 다국어 생성과 보다 자연스러운 음성 속도 정지에서 성능을 향상시킵니다. 공식 홍보에 따르면 두 시스템이 일부 롤플레잉 및 다국어 평가에서 경쟁 또는 유사한 시스템을 능가한다고 합니다.
적용 범위 측면에서 VoiceClone-VC-Flash는 중국어, 영어, 일본어, 서양어 등 10개 언어로 음성 생성이 가능하다고 주장하며, 상대적인 WER 감소와 같은 지표를 제공하지만, 공용 구경은 모든 데이터 세트, 노이즈 조건 및 평가 과정을 포함하지 못할 수 있으며, 실제 효과는 억양, 녹음 품질, 텍스트 필드에 따라 변동될 수 있습니다. 관련 기능은 Qwen Chat과 공개 데모 페이지에서 시연되었으며, 개발자들은 클라우드 모델과 TTS 문서도 참고할 수 있습니다. 동시에 음성 복제는 초상화 권리, 프라이버시, 권한 경계를 포함하며, 샘플과 생성된 콘텐츠를 사용하려면 명시적 동의를 보장하고 사칭 위험을 피해야 합니다.
자주 묻는 질문
Q: 새로운 VoiceDesign과 VoiceClone이 Qwen3-TTS에서 어떤 문제를 해결하나요?
A: VoiceDesign은 텍스트 지시로 음성 스타일을 '설계하고 제어'하는 데 사용됩니다; VoiceClone은 짧은 오디오 샘플에서 특정 화자의 음색을 빠르게 복제하여 여러 언어로 합성하는 데 사용됩니다.
Q: 3초 음성 복제를 위한 VoiceClone-VC-Flash의 오디오 요구사항은 무엇인가요?
A: 보통 명확한 보컬, 배경 소음과 왜곡이 적어야 합니다; 샘플이 더 깨끗하고 안정될수록 클론 유사성과 이해 가능성이 더 좋아집니다.
Q: VoiceClone-VC-Flash는 어떤 언어를 지원하며, 일반적인 제한 사항은 무엇인가요?
답변: 공식 청구서는 10개 언어(중국어, 영어, 일본어, 스페인어 등 포함)를 지원합니다; 언어를 넘나들면 억양 이동, 개별 고유명사의 발음 편차, 그리고 이해율의 변동이 발생할 수 있습니다.
Q: 음성 복제 기능을 사용할 때 가장 쉽게 밟을 수 있는 위험 포인트는 무엇인가요?
A: 무단 복제, 사칭 또는 오해의 소지가 있는 유포; 민감한 개인 정보가 담긴 오디오 샘플을 미지의 환경에 업로드하는 것.