开源可商用的多模态理由模型:ERNIE-4.5-VL-28B-A3B-Thinking 解析
一、摘要 ERNIE-4.5-VL-28B-A3B-Thinking 是百度新开源的轻量级多模态推理模型,总参 28B、激活约 3B,主打视觉与语言的语义对齐与“Thinking with Images(图像思考)”能力,支持放大/缩小关注细节。模型采用 Apache-2.0 许可,可商用。官方宣称...
一、摘要 ERNIE-4.5-VL-28B-A3B-Thinking 是百度新开源的轻量级多模态推理模型,总参 28B、激活约 3B,主打视觉与语言的语义对齐与“Thinking with Images(图像思考)”能力,支持放大/缩小关注细节。模型采用 Apache-2.0 许可,可商用。官方宣称...
一、摘要 Kimi K2 Thinking 是 Moonshot 推出的开源“思考型”智能体模型,强调在推理过程中动态调用工具与多步规划。官方公布其在 HLE 44.9%、BrowseComp 60.2%,可稳定完成 200–300 次连续工具调用,并支持 256K 上下文与原生 INT4 量化,面...
一、摘要 UNO-Bench 是面向“单模/全模”统一评测的开源基准,覆盖感知与推理两大维度,提供中文真实场景题目与多步开放问答(MO)。数据与工具强调高质量、人为主导构建,并配套通用打分模型以便自动化评测。 二、核心特性 1、统一能力框架:44 类任务、5 种模态组合,单模与全模同一指标口径。 2...
一、摘要 LongCat-Flash-Omni 是美团 LongCat 团队开源的全模态(Omni-modal)模型,在 LongCat-Flash 的 ScMoE 架构上扩展了文本、图像、音频、视频的统一建模,参数总量约 560B、激活约 27B,重点面向毫秒级端到端语音对话、128K 上下文及 ...
一、摘要 MiniMax M2 是 MiniMax 开源的推理与编程导向模型,定位为“Agent & Code Native”。官方介绍称:该模型基于 Mixture-of-Experts(MoE)架构,参数总规模约 230B,但单次仅激活约 10B 参数,从而在保持高推理质量的同时降低推理成本和时...
一、摘要 DeepSeek-OCR 是 DeepSeek 开源的“上下文光学压缩”模型,将文档文本编码为 视觉 token 后再解码为文字,目标是在保持识别准确度的同时显著降低 LLM 的上下文 token 成本。社区与媒体报道显示:在约 10× 压缩 下可达 约 97% 解码精度 , 20× 时仍...