통이첸웬(Tongyi Qianwen)은 대면 소통 및 오프라인 이벤트에 최적화된 실시간 멀티모달 동시 통역 모델인 Qwen3-LiveTranslate-Flash 출시를 발표했습니다. 공식 데이터에 따르면 이 모델은 약 3초의 엔드투엔드 지연 시간(end-to-end latency) 내에 인식 및 번역을 완료하고, 18개 언어를 인식하고 , 6개 방언을 이해하며 , 10개 언어로 음성을 출력하여 자연스럽고 풍부한 표현력을 제공합니다. 이 모델은 "시각적으로 향상된 이해"를 강조하며, 입술 모양, 제스처, 화면 텍스트, 그리고 개체 인식 기능을 결합하여 소음이 많은 환경에서도 강력한 성능을 유지합니다.
Alibaba Cloud DashScope는 Qwen3-LiveTranslate-Flash-Realtime 인터페이스와 속도 제한 지침을 제공하며, 간편한 체험을 위해 온라인 Hugging Face 데모를 제공합니다. 공식 채널에서는 이 솔루션을 "오프라인 수준의 정확도"를 갖춘 실시간 통역 솔루션이라고 설명하지만, 구체적인 성능은 입력 장치, 장면 노이즈 및 네트워크 상태에 따라 달라질 수 있습니다. 다국어 지원 범위 및 지연 시간 지표는 제품 설명서 및 후속 기술 보고서에 따라 달라질 수 있습니다.
자주 묻는 질문
질문: 어떤 언어와 출력이 지원되나요?
답변: 18개 언어를 인식하고, 6개 방언을 이해하며, 10개 언어로 음성을 출력할 수 있습니다. 전체 목록은 Model Studio 설명서를 참조하세요.
질문: 지연 시간과 견고성은 어떻습니까?
A: 공식 추정치는 엔드투엔드(end-to-end) 약 3초입니다. 입술 읽기, 제스처 인식, 화면 읽기를 결합하면 소음이 많은 환경에서 안정성을 높일 수 있습니다. 실제 시간은 기기와 네트워크에 따라 다릅니다.
Q: 어떻게 경험하거나 부르나요?
답변: Hugging Face에서 데모를 체험해 볼 수 있으며, Alibaba Cloud DashScope의 실시간 인터페이스를 통해 프로덕션 통합을 달성할 수 있습니다.
질문: 오픈소스인가요?
A: API 형태로 제공되며, 현재 전체 내용은 공개되지 않았습니다. 관련 예제와 데모는 GitHub/HF/ModelScope 생태계에서 동기적으로 업데이트됩니다.
질문: 적용 가능한 시나리오는 무엇입니까?
A: 언어 간 대면 커뮤니케이션, 회의 통역, 관광 서비스, 콘텐츠 제작 더빙, 실시간 동시 통역 등 실시간 응용 분야입니다.