返回文章列表

AI原理

找到 3 篇相关文章

长上下文压缩(Context Compression)是什么?为什么模型上下文越来越长,它反而更重要

长上下文压缩(Context Compression)是什么?为什么模型上下文越来越长,它反而更重要

长上下文压缩说的不是简单删字,而是把长材料里的关键信息尽量保留下来,用更短、更可喂给模型的形式重新组织。这个概念会越来越重要,恰恰是因为上下文窗口越来越长了。窗口变大不代表你就该什么都往里塞,真正的问题变成:哪些内容值得保留,哪些只是占位置。 为什么“窗口更长”反而让压缩更关键 - 长材料一旦全塞进...

AI百科 Admin
59
稀疏注意力(Sparse Attention)是什么?为什么长上下文和推理成本问题总会谈到它

稀疏注意力(Sparse Attention)是什么?为什么长上下文和推理成本问题总会谈到它

稀疏注意力可以简单理解成:不是让每个 token 都去看所有 token,而是有选择地只看其中一部分。这个词会反复出现在长上下文和推理成本讨论里,是因为标准全注意力虽然强,但一旦上下文特别长,计算和显存成本就会涨得很快。 为什么“全看一遍”会越来越贵 在标准注意力里,文本越长,彼此之间需要计算的关系...

AI百科 Admin
61

推荐工具

更多