返回AI百科
Embedding 是什么?AI 为什么能按语义搜索

Embedding 是什么?AI 为什么能按语义搜索

AI百科 Admin 17 次浏览

Embedding 可以理解为把文字、图片、音频等内容转换成一串数字向量。AI 能按语义搜索,不是因为它像关键词搜索一样逐字匹配,而是因为相近含义会在向量空间里靠得更近。

一个直观例子

如果用户搜索“怎么退货”,文档里写的是“申请售后退款流程”,传统关键词搜索可能匹配不到;Embedding 搜索会发现两句话语义相近,把相关内容排在前面。这就是很多知识库问答、推荐系统和相似图片搜索的基础。

Embedding 在系统里怎么用

常见做法是:先用 Embedding 模型把文档片段转成向量,存入向量数据库;用户提问时,再把问题转成向量,计算它和库里向量的相似度。相似度越高,说明语义越接近,越应该被召回给模型或搜索页面。

它和大模型回答有什么关系

Embedding 本身通常不负责写答案,它负责“找相关内容”。大语言模型负责理解上下文和生成回复。RAG 系统里经常会同时出现 Embedding 模型、向量数据库、重排序模型和生成模型,它们不是同一个东西。

常见误解

第一,Embedding 不是越大越好,领域匹配和评测更重要;第二,向量相似不等于事实正确,它只说明语义接近;第三,短文本、表格、代码、专有名词都可能需要特殊处理。做企业知识库时,Embedding 的质量会直接影响“能不能搜到正确资料”。

推荐工具

更多