AI Evals 是什么?上线 AI 应用前为什么要评测
AI Evals 指的是对大模型或 AI 应用进行系统评测。它不是随便问几个问题看看感觉,而是把真实任务变成测试集、评分标准和回归检查,用来判断模型或应用是否真的可上线。 为什么聊天体验不能代表质量 大模型回答很会“看起来合理”,但线上应用关心的是稳定性:客服是否引用正确政策,知识库是否拒答未知问题...
AI Evals 指的是对大模型或 AI 应用进行系统评测。它不是随便问几个问题看看感觉,而是把真实任务变成测试集、评分标准和回归检查,用来判断模型或应用是否真的可上线。 为什么聊天体验不能代表质量 大模型回答很会“看起来合理”,但线上应用关心的是稳定性:客服是否引用正确政策,知识库是否拒答未知问题...
LoRA 是 Low-Rank Adaptation,中文常叫低秩适配。它是一种参数高效微调方法:不直接改动大模型全部参数,而是在部分层旁边增加较小的可训练矩阵,让模型学会新任务或新风格。 为什么它能省成本 全量微调就像重新训练一整台复杂机器,显存、数据和工程成本都很高。LoRA 更像给机器外挂一组...
向量数据库是专门存储、索引和查询向量数据的数据库。普通数据库擅长按字段精确查询,比如订单号等于多少;向量数据库擅长按相似度查询,比如哪几段文档和这个问题最接近。 为什么 AI 应用需要它 大模型应用经常要处理非结构化内容:文档、网页、客服记录、图片、音频。Embedding 模型会把这些内容转成高维...
Embedding 可以理解为把文字、图片、音频等内容转换成一串数字向量。AI 能按语义搜索,不是因为它像关键词搜索一样逐字匹配,而是因为相近含义会在向量空间里靠得更近。 一个直观例子 如果用户搜索“怎么退货”,文档里写的是“申请售后退款流程”,传统关键词搜索可能匹配不到;Embedding 搜索会...
RAG 是 Retrieval-Augmented Generation,中文常叫检索增强生成。它的核心不是让模型记住所有资料,而是在回答前先从外部知识库找相关内容,再让大模型基于这些内容生成答案。 它解决的是什么问题 普通大模型只依赖训练时学到的知识和当前输入,遇到公司制度、产品文档、合同条款、最...
A2A 协议,全称 Agent2Agent,指的是让不同 AI Agent 之间能够发现彼此能力、交换信息、协同完成任务的一套通用交互协议。它最近受到关注,是因为 Agent 已经不再只是一个单体助手,越来越多系统开始尝试让多个专门 Agent 分工合作。问题也随之出现:如果每家都用自己的私有接口,...