Baichuan-M3-235B 上线 Hugging Face:基于 Qwen3 的 235B 医疗决策大模型解读
一、摘要 Baichuan-M3-235B 是百川智能发布的医疗增强大语言模型,强调把“临床决策过程”作为训练目标:模型不仅回答问题,还会主动追问关键病史信息、组织鉴别诊断思路,并在生成中尽量约束不可靠的医学断言。官方在模型卡中公布了 HealthBench、HealthBench-Hard、幻觉评...
一、摘要 Baichuan-M3-235B 是百川智能发布的医疗增强大语言模型,强调把“临床决策过程”作为训练目标:模型不仅回答问题,还会主动追问关键病史信息、组织鉴别诊断思路,并在生成中尽量约束不可靠的医学断言。官方在模型卡中公布了 HealthBench、HealthBench-Hard、幻觉评...
一、摘要 Engram 是 DeepSeek 开源的一种“条件记忆(Conditional Memory)”模块,核心思路是为 Transformer 增加可扩展的查表式记忆原语:把一部分更偏静态的模式/知识以 N-gram 记忆表的形式存起来,在推理时以近似 O(1) 的方式检索并与当前隐状态融合...
一、摘要 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 是基于 Qwen3-VL 的开源多模态检索模型系列,面向“文本+图像+截图+视频+混合输入”的跨模态理解与检索。整体采用两阶段架构:先用 Embedding 做大规模向量召回,再用 Reranker 做细粒度相关...
一、摘要 Qwen-Image-2512 是 Qwen-Image 文生图基础模型的 12 月更新版本,延续“原生文字生成/复杂排版”的定位,并重点增强三类体验:人像更逼真(减少常见“AI 感”)、自然材质更清晰(景观、水体、毛发、材料纹理更细)、文字渲染更可靠(版式与文本-图像组合更稳定)。官方还...
一、摘要 HY-Motion 1.0 是腾讯混元开源的文本到 3D 人体动作(text-to-motion)模型系列,基于 Diffusion Transformer(DiT)与 flow matching,将自然语言描述生成骨架驱动的 3D 角色动画序列,可进一步接入常见 DCC/引擎动画管线做重...
一、摘要 Tencent-HY-MT1.5(HY-MT)是腾讯混元开源的机器翻译模型套件,包含 1.8B(偏端侧/低资源)与 7B(偏云端/高质量)两种规模。官方强调其面向“端侧+云侧”协同部署:端上追求低延迟与低内存占用,云端追求更强质量与更稳健的复杂场景表现,并覆盖 33+ 语言/方言(含部分民...