美团 LongCat 团队发布 VitaBench:聚焦外卖、餐饮与出行的真实场景智能体评测

美团 LongCat 团队发布 VitaBench:聚焦外卖、餐饮与出行的真实场景智能体评测

美团 LongCat 团队推出智能体评测集 VitaBench,选取外卖配送、餐饮到店与在线出行三大高频生活服务场景,抽象出 66 个可组合工具,构建 100 个跨场景与 300 个单场景任务,系统衡量推理、工具使用与自适应交互能力。项目页与论文同步公开代码、数据与榜单,便于复现与对比。 最新结果显...

Admin
79
马斯克称 X 将在4–6周“删除全部启发式规则”,Grok接管推荐系统

马斯克称 X 将在4–6周“删除全部启发式规则”,Grok接管推荐系统

据马斯克在X的表述,X的推荐系统将“快速演进”,目标是在未来4至6周内删除所有硬编码的启发式规则,改由自研AI模型 Grok 全面驱动。马斯克称,Grok将“逐条读取贴文并观看视频”,每日处理规模超1亿条/支内容,以匹配用户更可能感兴趣的主题,并允许用户通过与Grok对话,对时间线进行临时或永久的偏...

Admin
91

推荐工具

更多