LongCat-AudioDiT 主打 waveform latent space 和更强音色克隆

LongCat 团队已发布 LongCat-AudioDiT，并同步放出代码、技术报告和 Hugging Face 权重。它主打直接在 waveform latent space 做扩散 TTS，不再绕回 mel 这类中间表示。最能吸引语音圈注意的，是它把音色克隆分数、模型权重和推理代码一起摆上桌。

一、这次最重要的不是参数，而是生成路径变了

LongCat-AudioDiT 走的是非自回归扩散路线，结构上压成 Wav-VAE 加 Diffusion 两段。官方给出的核心说法很直接：这样做是为减少级联误差，把语音生成链路缩短，也把扩散 TTS 常见的失真问题往前处理。

二、这波不是只发论文，1B 和 3.5B 都已经能下

仓库已经放出推理代码，模型页也给了 1B 和 3.5B 两个版本，支持中文和英文音频生成。对开发者来说，这比只给一篇报告更实在，因为普通 TTS 和带 prompt audio 的 voice cloning 都能直接验证。

三、官方最想强调的是 Seed Benchmark 上的音色克隆成绩

按公开模型卡，3.5B 版本在 Seed-ZH 和 Seed-Hard 的 SIM 分别到 0.818 和 0.797，1B 版本也到 0.812 和 0.787。这个分数很抓眼，但更稳妥的理解仍是“按官方公布基准表现领先”，后续还要看更多社区试听和复现结果。

四、真正有技术含量的点，是 APG 和 mismatch 处理

这次不只是把 CFG 换成了 APG，团队还把 diffusion TTS 里长期存在的 training-inference mismatch 单独拿出来解决。报告里另一个容易被记住的结论也很反直觉：VAE 重建更好，不一定直接换来更强的整体 TTS 表现。

五、怎么判断这套东西值不值得你现在就试

看两步就够：先看仓库是否已提供完整推理入口，再看模型页是否已挂出可直接调用的权重。现在这两项都已到位，所以它更像一套可跑的研究型开源，而不只是停在概念演示。

LongCat-AudioDiT 主打 waveform latent space 和更强音色克隆

相关文章

Critique 进入 M365 Copilot，多个模型开始一起生成回答和报告

Claude Code 泄露事件提醒行业：AI agent 的护城河在工程层

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

LongCat-AudioDiT 主打 waveform latent space 和更强音色克隆

相关文章

Critique 进入 M365 Copilot，多个模型开始一起生成回答和报告

Claude Code 泄露事件提醒行业：AI agent 的护城河在工程层

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息