AI Evals 是什么?上线 AI 应用前为什么要评测 AI Evals 指的是对大模型或 AI 应用进行系统评测。它不是随便问几个问题看看感觉,而是把真实任务变成测试集、评分标准和回归检查,用来判断模型或应用是否真的可上线。 为什么聊天体验不能代表质量 大模型回答很会“看起来合理”,但线上应用关心的是稳定性:客服是否引用正确政策,知识库是否拒答未知问题... AI百科 • Admin • 2026/5/29 23