Zhipu AI는 공식적으로 출시되었고, 산업용 음성 합성 시스템인 GLM-TTS를 오픈소스로 제공했습니다. 시스템은 약 3초간의 음성 샘플을 통해 화자의 음색과 말하기 습관을 학습할 수 있으며, 일반 독서, 감정 더빙, 교육 평가, 전자책, 오디오 고객 서비스 등 실제 사람에 가까운 자연스럽고 부드러운 말을 생성하여 적절한 장면에서 현실적이고 감정적으로 적합한 목소리를 출력하는 것을 목표로 합니다.
기술적 측면에서 GLM-TTS는 2단계 생성 아키텍처를 채택하고 GRPO 기반 강화 학습 방식을 훈련에 도입하고, 문자 오류율과 감정 표현 등 공개 평가에서 오픈소스 SOTA 성능을 달성합니다. 이 모델은 약 10만 시간의 훈련 데이터만으로도 업계 최고 수준의 발음 정확도와 음색 복원을 달성할 수 있으며, 사전 학습, 고품질 음색 LORA, 강화 학습 훈련을 단일 기계에서 며칠 내에 완료할 수 있어 학습 비용과 임계값을 크게 줄입니다.
적용 및 생태 측면에서 GLM-TTS는 교육, 전자책, 지능형 고객 서비스 등 전형적인 시나리오에서 구현 효과를 검증했습니다: 다음절 단어, 희귀 문자 및 기호의 표준 발음을 지원하고, 다중 문자 및 다중 감정 해석을 지원하며, 고객 서비스 목소리에서 절제되고 전문적인 어조를 유지합니다. 동시에, 이 프로젝트는 많은 커뮤니티에서 Apache 프로토콜을 사용하는 오픈 소스이며, 오픈 플랫폼, API, 온라인 경험 포털을 제공하여 개발자와 기업이 데모에서 프로덕션 수준 배포로 빠르게 전환할 수 있도록 편리하게 합니다.
FAQ
Q: GLM-TTS 시스템의 주요 기능과 응용 시나리오는 무엇인가요?
답변: GLM-TTS 시스템은 화자의 음색을 3초 단위로 복제하는 기능을 지원하여, 일반 독서, 감정 더빙, 교육 평가, 전자책, 오디오 고객 서비스 등 인간 음성 시뮬레이션이 필요한 상황에 적합합니다.
Q: GLM-TTS 시스템의 기술적 경로와 효과 측면에서 두드러진 특징은 무엇인가요?
답변: GLM-TTS 시스템은 2단계 생성과 GRPO 기반 강화 학습을 채택하여, 오픈소스 SOTA를 달성하면서도 높은 음색 복원과 안정성을 고려합니다.
Q: 개발자들이 GLM-TTS 시스템을 사용하기 위해 필요한 교육 및 배포 비용은 얼마인가요?
답변: 개발자들은 GLM-TTS 시스템을 사용할 때 약 10만 시간의 데이터를 사용해 교육을 완료할 수 있으며, 사전 교육, 고품질 사운드 LORA, 강화 학습 교육은 단일 기계에서 며칠 내에 완료할 수 있고, 배포 비용도 비교적 낮습니다.
Q: 기업 사용자는 GLM-TTS 시스템에 온라인 서비스에 어떻게 접속할 수 있나요?
A: 기업 사용자는 개방 플랫폼과 API 문서를 통해 GLM-TTS의 텍스트-음성 및 음색 복제 기능을 호출하고, 비즈니스 규모에 맞춘 청구 및 QPS를 구성하며, 시험 수준에서 대규모 대규모 호출로 점진적으로 확장할 수 있습니다.
Q: 일반 사용자들은 GLM-TTS 시스템의 합성 효과를 온라인에서 어떻게 경험할 수 있나요?
답변: 일반 사용자는 audio.z.ai, Zhipu Qingyan 등 포털을 통해 텍스트나 짧은 음성 안내를 업로드하여 다중 스타일 독서와 독점적 음색 복제의 실제 효과를 경험할 수 있습니다.