语音到语音(Speech-to-Speech)是什么?为什么它被认为比“语音转文字再播报”更接近自然对话
语音到语音,通常指模型直接从语音输入到语音输出完成理解和生成,而不是先把声音转成文字、再把文字交给语言模型、最后再转回语音。它之所以越来越热,是因为这种路线更接近人类真实对话,也更有机会保留语气、停顿、情绪和说话风格。 它和传统语音链路差在哪 传统路线是 ASR 加 LLM 再加 TTS,优点是模块...
找到 14 篇相关文章
语音到语音,通常指模型直接从语音输入到语音输出完成理解和生成,而不是先把声音转成文字、再把文字交给语言模型、最后再转回语音。它之所以越来越热,是因为这种路线更接近人类真实对话,也更有机会保留语气、停顿、情绪和说话风格。 它和传统语音链路差在哪 传统路线是 ASR 加 LLM 再加 TTS,优点是模块...
多模态代理指的不是只能处理文字的 Agent,而是能同时接收和利用图像、语音、界面状态、文档甚至视频等多种输入,再结合工具调用和任务规划去执行动作。它最近越来越受关注,是因为很多真实任务根本不只发生在文本里,Agent 要真能干活,就得先“看得见、听得懂、再动得了”。 它为什么比普通聊天代理更难 -...
Diffusion LLM 可以理解成把“扩散模型”的一些核心思路搬到语言模型里,用逐步去噪、逐步修正的方式生成文本,而不是像传统自回归模型那样一个 token 一个 token 往后写。它最近常被提起,不是因为已经全面取代 Transformer 路线,而是因为行业一直在找别的文本生成范式,看看能...
Physical AI 通常指让 AI 不只理解文字、图片和语音,还能进入物理世界去感知、预测、规划和执行动作。它会成为 2026 年机器人圈的高频热词,是因为大家开始更明确地把“会和真实环境互动的 AI”单独拎出来,而不再把它简单算作普通大模型的延伸。 它和一般意义上的生成式 AI 有什么不同 生...
合成数据指的不是“随便编一批假数据”,而是用仿真、生成模型、规则引擎或程序化方式制造出来的训练数据。它最近越来越热,根本原因是很多真实世界数据太贵、太少、太难标,或者涉及隐私与安全边界,结果大家开始认真把“造数据”本身当成能力建设。 为什么它会在 2025-2026 这么常见 - 机器人、自动驾驶、...
Test-Time Scaling 可以理解成:在模型真正回答问题时,给它更多推理预算、更多尝试次数或更长的思考空间,从而换取更好的结果。它之所以火,是因为很多人发现,模型能力不只取决于训练时多大,还取决于“回答当下愿不愿意多算一会儿”。 它到底在扩什么 - 可能是更长的推理步骤,让模型别太快下结论...