Zhipu AI는 오픈 소스 SOTA를 달성하기 위해 GLM-TTS 2단계 생성 강화 학습을 출시했습니다

AI 정보 • Admin • 2025. 12. 11. • 155 회 조회

Zhipu AI는 공식적으로 출시되었고, 산업용 음성 합성 시스템인 GLM-TTS를 오픈소스로 제공했습니다. 시스템은 약 3초간의 음성 샘플을 통해 화자의 음색과 말하기 습관을 학습할 수 있으며, 일반 독서, 감정 더빙, 교육 평가, 전자책, 오디오 고객 서비스 등 실제 사람에 가까운 자연스럽고 부드러운 말을 생성하여 적절한 장면에서 현실적이고 감정적으로 적합한 목소리를 출력하는 것을 목표로 합니다.

기술적 측면에서 GLM-TTS는 2단계 생성 아키텍처를 채택하고 GRPO 기반 강화 학습 방식을 훈련에 도입하고, 문자 오류율과 감정 표현 등 공개 평가에서 오픈소스 SOTA 성능을 달성합니다. 이 모델은 약 10만 시간의 훈련 데이터만으로도 업계 최고 수준의 발음 정확도와 음색 복원을 달성할 수 있으며, 사전 학습, 고품질 음색 LORA, 강화 학습 훈련을 단일 기계에서 며칠 내에 완료할 수 있어 학습 비용과 임계값을 크게 줄입니다.

적용 및 생태 측면에서 GLM-TTS는 교육, 전자책, 지능형 고객 서비스 등 전형적인 시나리오에서 구현 효과를 검증했습니다: 다음절 단어, 희귀 문자 및 기호의 표준 발음을 지원하고, 다중 문자 및 다중 감정 해석을 지원하며, 고객 서비스 목소리에서 절제되고 전문적인 어조를 유지합니다. 동시에, 이 프로젝트는 많은 커뮤니티에서 Apache 프로토콜을 사용하는 오픈 소스이며, 오픈 플랫폼, API, 온라인 경험 포털을 제공하여 개발자와 기업이 데모에서 프로덕션 수준 배포로 빠르게 전환할 수 있도록 편리하게 합니다.

FAQ

Q: GLM-TTS 시스템의 주요 기능과 응용 시나리오는 무엇인가요?

답변: GLM-TTS 시스템은 화자의 음색을 3초 단위로 복제하는 기능을 지원하여, 일반 독서, 감정 더빙, 교육 평가, 전자책, 오디오 고객 서비스 등 인간 음성 시뮬레이션이 필요한 상황에 적합합니다.

Q: GLM-TTS 시스템의 기술적 경로와 효과 측면에서 두드러진 특징은 무엇인가요?

답변: GLM-TTS 시스템은 2단계 생성과 GRPO 기반 강화 학습을 채택하여, 오픈소스 SOTA를 달성하면서도 높은 음색 복원과 안정성을 고려합니다.

Q: 개발자들이 GLM-TTS 시스템을 사용하기 위해 필요한 교육 및 배포 비용은 얼마인가요?

답변: 개발자들은 GLM-TTS 시스템을 사용할 때 약 10만 시간의 데이터를 사용해 교육을 완료할 수 있으며, 사전 교육, 고품질 사운드 LORA, 강화 학습 교육은 단일 기계에서 며칠 내에 완료할 수 있고, 배포 비용도 비교적 낮습니다.

Q: 기업 사용자는 GLM-TTS 시스템에 온라인 서비스에 어떻게 접속할 수 있나요?

A: 기업 사용자는 개방 플랫폼과 API 문서를 통해 GLM-TTS의 텍스트-음성 및 음색 복제 기능을 호출하고, 비즈니스 규모에 맞춘 청구 및 QPS를 구성하며, 시험 수준에서 대규모 대규모 호출로 점진적으로 확장할 수 있습니다.

Q: 일반 사용자들은 GLM-TTS 시스템의 합성 효과를 온라인에서 어떻게 경험할 수 있나요?

답변: 일반 사용자는 audio.z.ai, Zhipu Qingyan 등 포털을 통해 텍스트나 짧은 음성 안내를 업로드하여 다중 스타일 독서와 독점적 음색 복제의 실제 효과를 경험할 수 있습니다.

Zhipu AI는 오픈 소스 SOTA를 달성하기 위해 GLM-TTS 2단계 생성 강화 학습을 출시했습니다

관련 기사

텐센트는 대형 모델 브랜드의 이름을 텐센트 훈위안에서 텐센트 HY로 변경한다고 발표했습니다

GLM-TTS는 완전 오픈 소스입니다: 감정 제어 가능한 산업용 음성 합성과 함께 3초 음성 복제

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

Zhipu AI는 오픈 소스 SOTA를 달성하기 위해 GLM-TTS 2단계 생성 강화 학습을 출시했습니다

관련 기사

텐센트는 대형 모델 브랜드의 이름을 텐센트 훈위안에서 텐센트 HY로 변경한다고 발표했습니다

GLM-TTS는 완전 오픈 소스입니다: 감정 제어 가능한 산업용 음성 합성과 함께 3초 음성 복제

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요