ELab-Zero 全面解析:本地可部署的移动端 GUI Agent 堆栈
一、摘要 GELab-Zero 是 StepFun 开源的 GUI Agent 方案,提供“模型 + 工程基础设施”的完整堆栈,主要面向安卓手机应用的自动化操作与智能交互。项目包含可在本地运行的 4B GUI Agent 模型,以及一键部署的推理与设备管理脚本,支持多手机任务分发和轨迹记录,并在 A...
一、摘要 GELab-Zero 是 StepFun 开源的 GUI Agent 方案,提供“模型 + 工程基础设施”的完整堆栈,主要面向安卓手机应用的自动化操作与智能交互。项目包含可在本地运行的 4B GUI Agent 模型,以及一键部署的推理与设备管理脚本,支持多手机任务分发和轨迹记录,并在 A...
一、摘要 Hunyuan 3D Engine Global 是腾讯混元团队面向全球推出的 AI 3D 创作引擎,基于自研 Hunyuan3D 大模型家族与云端 API 服务。平台支持文本、图像和草图直接生成高质量 3D 模型,将传统需要数天甚至数周的资产制作压缩到分钟级。其背后多款 Hunyuan3...
一、摘要 FLUX.2 是 Black Forest Labs 推出的新一代视觉生成与编辑模型,面向真实生产级创意工作流程,而非仅演示场景。它支持最高约 4MP 分辨率、多参考图像输入、精细排版文本与品牌色控制,并在同一架构中统一文生图与图像编辑。家族包含商用 API 模型与开放权重的 FLUX.2...
一、摘要 HunyuanOCR 是腾讯混元团队开源的端到端 OCR 专家模型,基于混元原生多模态架构与训练策略,仅用约 10 亿参数在 OCRBench(<3B 规模)与 OmniDocBench 上取得领先表现。模型覆盖文字检测、识别、版面理解与翻译等完整链路,兼顾精度与推理成本,适合在实际业务中...
一、摘要 HunyuanVideo 1.5 是腾讯混元团队开源的文本/图像生成视频模型,基于 DiT 架构,参数约 8.3B。其主打特点是显存友好,在约 14GB 显存的消费级 GPU 上即可运行,原生支持 5–10 秒 480p/720p 视频生成,并配套超分模块升级到 1080p,适合内容创作、...
一、摘要 AMO-Bench 是美团 LongCat 团队推出的高级数学推理基准,聚焦于国际数学奥林匹克(IMO)级别乃至更高难度的竞赛题。基准由 50 道全新人类专家设计题目构成,通过自动评分与人工链式思维(CoT)标注,系统评测大模型在高难度数理推理上的真实上限。当前公开结果显示,Kimi-k2...