返回AI百科
AI Evals 是什么?上线 AI 应用前为什么要评测

AI Evals 是什么?上线 AI 应用前为什么要评测

AI百科 Admin 22 次浏览

AI Evals 指的是对大模型或 AI 应用进行系统评测。它不是随便问几个问题看看感觉,而是把真实任务变成测试集、评分标准和回归检查,用来判断模型或应用是否真的可上线。

为什么聊天体验不能代表质量

大模型回答很会“看起来合理”,但线上应用关心的是稳定性:客服是否引用正确政策,知识库是否拒答未知问题,Agent 是否乱点按钮,生成内容是否符合品牌和合规要求。靠人工随手试几轮,很容易漏掉边界案例。

一个 Eval 通常包含什么

  • 测试样本:真实用户问题、历史工单、典型失败案例。
  • 期望行为:应该回答、拒答、引用来源,还是请求更多信息。
  • 评分方式:人工评分、规则检查、LLM-as-judge 或混合评分。
  • 回归流程:模型、提示词、检索策略更新后重新跑一遍。

不同应用评测重点不同

RAG 应用要看召回是否正确、答案是否忠于来源、引用是否可查;Agent 应用要看工具调用是否安全、步骤是否可恢复、失败后是否停止;内容生成要看语气、事实、格式和禁用词。一个通用分数不能说明所有问题。

常见误区

不要等上线前一天才做 Evals,也不要只用模型厂商的公开榜单替代自己的测试。公开榜单能说明模型基础能力,你自己的 Eval 才能说明它在业务里是否靠谱。越早积累失败样本,AI 应用越容易稳定迭代。

推荐工具

更多