Apple ml-sharp(SHARP)开源解读:单张照片秒级生成 3D Gaussian Splat 的新视角合成方案
一、摘要 ml-sharp 是 Apple 开源的 SHARP 项目代码与模型配套实现,目标是从单张图片直接回归 3D Gaussian(3DGS)场景表示,并在标准 GPU 上做到“不到 1 秒”的推理生成。生成的 3DGS 可被实时渲染,用于附近视角的高分辨率新视角合成,并强调“可度量(metr...
一、摘要 ml-sharp 是 Apple 开源的 SHARP 项目代码与模型配套实现,目标是从单张图片直接回归 3D Gaussian(3DGS)场景表示,并在标准 GPU 上做到“不到 1 秒”的推理生成。生成的 3DGS 可被实时渲染,用于附近视角的高分辨率新视角合成,并强调“可度量(metr...
一、摘要 MAI-UI 是 Tongyi-MAI(通义实验室)开源的通用 GUI 智能体基座与配套代码,面向“看屏幕—理解指令—操作界面”的自动化任务。项目强调真实部署所需的三类能力:与用户的主动澄清交互(ask_user)、通过 MCP 调用外部工具(mcp_call)、以及端云协同的执行架构(在...
一、摘要 MiniMax M2.1 是 MiniMax 发布的开源权重大模型,主打“真实软件开发 + 智能体(Agent)”场景,重点强化编码鲁棒性、工具调用、指令遵循与长链路规划,并提供本地部署与工具调用指南;模型权重在 Hugging Face 公开,许可证为 Modified-MIT。 二、核...
一、摘要 QwenLong-L1.5 是通义智文团队在 Qwen-Doc 仓库中开源的一套“长上下文推理 + 记忆管理”后训练方案(post-training recipe)。它围绕三件事展开:面向长文档的复杂推理数据合成、面向长序列的强化学习稳定训练方法(AEPO 等)、以及在超出物理上下文窗口时...
一、摘要 GLM-4.7 是 zai-org 发布的开源权重大语言模型。官方信息显示,它相较 GLM-4.6 在编码能力、复杂推理与多步工具使用方面有较大提升,同时也增强了对话、创意写作与角色扮演等通用场景表现。实际效果会受提示词、工具链稳定性与部署配置影响,建议结合你的真实任务做回归评测。 二、核...
一、摘要 Bloom 是一套开源的 LLM 行为评估生成框架:研究者只需定义“目标行为”和一份可复现的 Seed 配置,Bloom 会自动生成大量诱发场景并与目标模型交互,再由评审模型对行为出现频率与强度打分,输出可汇总的指标与报告,适合快速搭建可扩展的行为评测。 二、核心特性 1、以“行为”为中心...