混合专家(MoE)是什么?为什么很多热门模型参数很大、激活却没那么大

混合专家(MoE)是什么?为什么很多热门模型参数很大、激活却没那么大

混合专家(MoE,Mixture of Experts)是一种“不是每次都让整套模型一起上”的模型架构。它最关键的特点,是把模型里的某些层拆成多个专家模块,再由一个路由器决定当前 token 该走哪些专家。这样模型总参数可以做得很大,但一次真正参与计算的参数没那么大,所以你才会看到很多热门模型写着几...

Admin
49
长上下文压缩(Context Compression)是什么?为什么模型上下文越来越长,它反而更重要

长上下文压缩(Context Compression)是什么?为什么模型上下文越来越长,它反而更重要

长上下文压缩说的不是简单删字,而是把长材料里的关键信息尽量保留下来,用更短、更可喂给模型的形式重新组织。这个概念会越来越重要,恰恰是因为上下文窗口越来越长了。窗口变大不代表你就该什么都往里塞,真正的问题变成:哪些内容值得保留,哪些只是占位置。 为什么“窗口更长”反而让压缩更关键 - 长材料一旦全塞进...

Admin
58
语音到语音(Speech-to-Speech)是什么?为什么它被认为比“语音转文字再播报”更接近自然对话

语音到语音(Speech-to-Speech)是什么?为什么它被认为比“语音转文字再播报”更接近自然对话

语音到语音,通常指模型直接从语音输入到语音输出完成理解和生成,而不是先把声音转成文字、再把文字交给语言模型、最后再转回语音。它之所以越来越热,是因为这种路线更接近人类真实对话,也更有机会保留语气、停顿、情绪和说话风格。 它和传统语音链路差在哪 传统路线是 ASR 加 LLM 再加 TTS,优点是模块...

Admin
63
多模态代理(Multimodal Agent)是什么?为什么“能看、能听、能做”的 Agent 越来越受关注

多模态代理(Multimodal Agent)是什么?为什么“能看、能听、能做”的 Agent 越来越受关注

多模态代理指的不是只能处理文字的 Agent,而是能同时接收和利用图像、语音、界面状态、文档甚至视频等多种输入,再结合工具调用和任务规划去执行动作。它最近越来越受关注,是因为很多真实任务根本不只发生在文本里,Agent 要真能干活,就得先“看得见、听得懂、再动得了”。 它为什么比普通聊天代理更难 -...

Admin
65

推荐工具

更多