智谱AI正式上线并开源工业级语音合成系统GLM-TTS。该系统通过约三秒语音样本即可学习说话人的音色和说话习惯,在通用朗读、情感配音、教育评测、电子书、有声客服等场景中生成自然流畅、贴近真人的语音,目标是在合适场景下输出既像真人又契合情绪的声音。
在技术路线方面,GLM-TTS采用两阶段生成架构,并在训练中引入基于GRPO的强化学习方案,在字符错误率和情感表达等公开评测中取得开源SOTA表现。模型仅使用约十万小时训练数据即可达到行业领先的发音准确度与音色还原度,预训练与精品音色LORA、强化学习训练均可在单机数天内完成,大幅降低训练成本与门槛。
在应用和生态上,GLM-TTS已面向教育、电子书与智能客服等典型场景验证落地效果:支持多音字、生僻字与符号的标准发音,支持多角色多情绪朗读,并在客服语音中保持克制专业的语气。同时,项目以Apache协议在多家社区开源,并提供开放平台与API、在线体验入口,方便开发者和企业从Demo快速走向生产级部署。
常见问题
Q:GLM-TTS系统的主要能力和应用场景有哪些?
A:GLM-TTS系统支持三秒语音克隆说话人音色,适用于通用朗读、情感配音、教育评测、电子书、有声客服等需要拟真人语音的场景。
Q:GLM-TTS系统在技术路线和效果上有哪些突出特点?
A:GLM-TTS系统采用两阶段生成加基于GRPO的强化学习,在字符错误率和情感表达评测中达到开源SOTA,同时兼顾高音色还原度与稳定性。
Q:开发者在使用GLM-TTS系统时需要多少训练与部署成本?
A:开发者在使用GLM-TTS系统时可利用约十万小时级别数据完成训练,预训练与精品音色LORA、强化学习训练均可在单机数天内完成,部署成本相对较低。
Q:企业用户如何接入GLM-TTS系统到线上业务?
A:企业用户可以通过开放平台与API文档调用GLM-TTS的文本转语音与音色复刻能力,根据业务规模配置计费与QPS,从试用逐步扩展到生产级大规模调用。
Q:普通用户如何在线体验GLM-TTS系统的合成效果?
A:普通用户可以通过audio.z.ai或智谱清言等入口上传文本或短语音Prompt,体验多风格朗读与专属音色克隆的实际效果。