Embedding 是什么？AI 为什么能按语义搜索

AI百科 • Admin • 2026/5/29 • 99 次浏览

Embedding 可以理解为把文字、图片、音频等内容转换成一串数字向量。AI 能按语义搜索，不是因为它像关键词搜索一样逐字匹配，而是因为相近含义会在向量空间里靠得更近。

一个直观例子

如果用户搜索“怎么退货”，文档里写的是“申请售后退款流程”，传统关键词搜索可能匹配不到；Embedding 搜索会发现两句话语义相近，把相关内容排在前面。这就是很多知识库问答、推荐系统和相似图片搜索的基础。

常见做法是：先用 Embedding 模型把文档片段转成向量，存入向量数据库；用户提问时，再把问题转成向量，计算它和库里向量的相似度。相似度越高，说明语义越接近，越应该被召回给模型或搜索页面。

Embedding 本身通常不负责写答案，它负责“找相关内容”。大语言模型负责理解上下文和生成回复。RAG 系统里经常会同时出现 Embedding 模型、向量数据库、重排序模型和生成模型，它们不是同一个东西。

第一，Embedding 不是越大越好，领域匹配和评测更重要；第二，向量相似不等于事实正确，它只说明语义接近；第三，短文本、表格、代码、专有名词都可能需要特殊处理。做企业知识库时，Embedding 的质量会直接影响“能不能搜到正确资料”。