返回文章列表

AI趋势

找到 14 篇相关文章

语音到语音(Speech-to-Speech)是什么?为什么它被认为比“语音转文字再播报”更接近自然对话

语音到语音(Speech-to-Speech)是什么?为什么它被认为比“语音转文字再播报”更接近自然对话

语音到语音,通常指模型直接从语音输入到语音输出完成理解和生成,而不是先把声音转成文字、再把文字交给语言模型、最后再转回语音。它之所以越来越热,是因为这种路线更接近人类真实对话,也更有机会保留语气、停顿、情绪和说话风格。 它和传统语音链路差在哪 传统路线是 ASR 加 LLM 再加 TTS,优点是模块...

AI百科 Admin
61
多模态代理(Multimodal Agent)是什么?为什么“能看、能听、能做”的 Agent 越来越受关注

多模态代理(Multimodal Agent)是什么?为什么“能看、能听、能做”的 Agent 越来越受关注

多模态代理指的不是只能处理文字的 Agent,而是能同时接收和利用图像、语音、界面状态、文档甚至视频等多种输入,再结合工具调用和任务规划去执行动作。它最近越来越受关注,是因为很多真实任务根本不只发生在文本里,Agent 要真能干活,就得先“看得见、听得懂、再动得了”。 它为什么比普通聊天代理更难 -...

AI百科 Admin
65
Physical AI 是什么?为什么 2026 年它几乎成了机器人领域最热词之一

Physical AI 是什么?为什么 2026 年它几乎成了机器人领域最热词之一

Physical AI 通常指让 AI 不只理解文字、图片和语音,还能进入物理世界去感知、预测、规划和执行动作。它会成为 2026 年机器人圈的高频热词,是因为大家开始更明确地把“会和真实环境互动的 AI”单独拎出来,而不再把它简单算作普通大模型的延伸。 它和一般意义上的生成式 AI 有什么不同 生...

AI百科 Admin
60
合成数据(Synthetic Data)是什么?为什么机器人、自动驾驶和企业训练越来越离不开它

合成数据(Synthetic Data)是什么?为什么机器人、自动驾驶和企业训练越来越离不开它

合成数据指的不是“随便编一批假数据”,而是用仿真、生成模型、规则引擎或程序化方式制造出来的训练数据。它最近越来越热,根本原因是很多真实世界数据太贵、太少、太难标,或者涉及隐私与安全边界,结果大家开始认真把“造数据”本身当成能力建设。 为什么它会在 2025-2026 这么常见 - 机器人、自动驾驶、...

AI百科 Admin
59
Test-Time Scaling 是什么?为什么模型“多想一会儿”会突然变强

Test-Time Scaling 是什么?为什么模型“多想一会儿”会突然变强

Test-Time Scaling 可以理解成:在模型真正回答问题时,给它更多推理预算、更多尝试次数或更长的思考空间,从而换取更好的结果。它之所以火,是因为很多人发现,模型能力不只取决于训练时多大,还取决于“回答当下愿不愿意多算一会儿”。 它到底在扩什么 - 可能是更长的推理步骤,让模型别太快下结论...

AI百科 Admin
75

推荐工具

更多