알리바 클라우드 통이 천원 팀은 Qwen3-Omni-Flash 2025-12-01 버전을 출시했으며, 이 버전은 비디오 및 오디오 대화, 음성 상호작용, 다국어 처리 기능을 크게 업그레이드했습니다. 새 버전은 여러 라운드의 영상 및 오디오 이해에서 자연스러운 대화에 더 가깝고, 장면과 맥락 변화를 지속적으로 추적할 수 있으며, 시스템 프롬프트를 통해 맞춤형 대화 성격을 지원하여 역할극 및 가상 비서 같은 차별화된 응용 시나리오에 적응합니다.
언어와 음성 측면에서 Qwen3-Omni-Flash의 새 버전은 119개의 텍스트 언어와 19개의 음성 언어를 지원하며, 보다 안정적인 다국어 대화 및 인식 기능에 중점을 두었으며, 음성 합성 효과는 '실제 사람과 가까워진다'는 점을 강조하여 장기 음성 채팅, 콘텐츠 제작, 지능형 고객 서비스 등 다양한 상황에 적합합니다. 공식 웹 버전에서는 Qwen 채팅 하단의 VoiceChat과 VideoChat 버튼을 통해 사용자가 음성 및 영상 대화를 직접 경험할 수 있습니다.
이번 업그레이드는 실시간 및 오프라인 API 폼을 모두 가능하게 합니다: 실시간 음성 통화 및 다중 모달 상호작용을 위한 API, 그리고 배치 처리 및 로컬 통합을 위한 오프라인 API입니다. 개발자들은 Hugging Face와 ModelScope의 공개 공간을 통해 데모 버전을 경험하고, 문서를 확인하며, 알리바바 클라우드 콘솔에서 접근 권한을 설정할 수 있습니다. 사용 중에는 계정 할당량, 수수료, 음성 데이터 보안을 주의 깊게 고려하고, 비즈니스 필요에 따라 온라인 또는 오프라인 모드를 선택해야 합니다.
FAQsQ
: Qwen3-Omni-Flash 2025-12-01 버전은 무엇인가요?
답변: 이번 업그레이드는 Qwen3-Omni-Flash에 대한 중요한 업그레이드로, 다라운드 AV 이해, 다국어 처리, 인간과 유사한 음성 합성 능력 향상에 중점을 둡니다.
Q: 이번 업그레이드의 새로운 기능은 무엇인가요?
A: 보다 자연스러운 다중 턴 비디오 및 오디오 대화, 시스템 프롬프트로 캐릭터 커스터마이징, 119개 텍스트 언어와 19개 음성 지원, 그리고 더 현실적인 음성 합성이 포함됩니다.
Q: 일반 사용자는 Qwen3-Omni-Flash의 새 버전을 어떻게 경험할 수 있나요?
A: Qwen Chat 웹페이지에서 인터페이스 오른쪽 하단의 VoiceChat과 VideoChat 버튼을 통해 음성 또는 영상 통화 모드에 추가로 설치할 수 있습니다.
Q: 실시간 API와 오프라인 API의 차이점은 무엇인가요?
A: 실시간 API는 저지연 스트리밍 대화와 실시간 음성 시나리오에 중점을 두는 반면, 오프라인 API는 배치 처리, 백엔드 서비스, 네트워크 의존도가 낮은 애플리케이션 통합에 더 적합합니다.
Q: 음성 및 영상 기능을 사용할 때 고려해야 할 사항은 무엇인가요?
답변: 계정 접근 권한, 통화 비용, 데이터 준수에 주의하고, 민감한 개인 프라이버시나 감독 하에 포함된 음성 및 영상 데이터를 무단 업로드하지 마세요.