返回Ai开源
GLM-4.5V 发布:开源视觉推理迈入“思考式”多模态时代

GLM-4.5V 发布:开源视觉推理迈入“思考式”多模态时代

Ai开源 Admin 4 次浏览

Z.ai 官方宣布开源视觉语言模型 GLM-4.5V。该模型在同尺寸开源模型中表现领先,覆盖 40+ 公共基准测试,主打多模态视觉推理能力。GLM-4.5V 基于 GLM-4.5-Air 基座,采用 106B 参数的 MoE(专家混合)架构,延续 GLM-4.1V-Thinking 的“思考式”技术路线,并提供线上体验与 API 接入。


一、模型定位与技术路线

  1. 面向通用视觉推理与多模态智能体的开源 VLM。
  2. 基于 GLM-4.5-Air,MoE 总参数约 106B,活跃参数约 12B。
  3. 引入“思考模式/快速模式”切换:在深度推理与响应时延间灵活权衡。
  4. 继续沿用 GLM-4.1V-Thinking 的可扩展强化学习与推理范式。


二、能力范围与典型任务

  1. 图像理解与多图推理:场景理解、跨图对齐、空间关系推断。
  2. 视频理解:长视频分段、事件识别、时间索引式讲解。
  3. 文档与表格:长文档阅读、OCR、表格抽取、图表解析。
  4. GUI/Agent 场景:屏幕读图、元素定位、点击/滑动等操作规划。
  5. Grounding:精确的目标框定位与布局理解。


三、基准表现与规模定位

  1. 官方称在同体量开源模型上实现领先,覆盖 41–42 项公开基准。
  2. 重点指标覆盖图像问答、视频理解、OCR/DocVQA、图表问答、空间与前端理解等方向。
  3. 目标是在“可复现实证 + 工程可用性”之间取得平衡,而非只追逐分数。


四、开放形态与使用方式

  1. 开源权重与模型卡:提供标准与 FP8 变体,便于推理与部署。
  2. 代码与评测:开放仓库与示例,支持 Transformers 快速上手。
  3. 在线体验与 API:提供网页对话与官方平台 API,支持多模态输入。
  4. 许可与生态:采用开源许可;配套评测仓库、演示 Space 与社区讨论区。


五、落地建议(工程视角)

  1. 资源规划:MoE 大模型部署建议先用在线 API/FP8 试点,再评估本地多卡。
  2. 评测校准:用自有样本做 A/B,关注长文档鲁棒性与解析准确率。
  3. 安全与合规:为 OCR/文档场景增加脱敏、红线词与数据留痕策略。
  4. 观测与回放:记录输入输出与思考轨迹(如有),便于回溯与持续优化。
  5. 组合范式:与检索/工具调用结合,构建端到端多模态智能体工作流。


Q&A 常见问题

Q:GLM-4.5V 是否开源?许可是什么?

A:是开源模型,模型卡标注为 MIT 许可。

Q:具体支持哪些模态?

A:支持图像、视频、文本与文件等输入;输出为文本,可附带边界框坐标等结构化信息。

Q:如何快速体验?

A:可直接使用官网在线对话;也可通过官方 API 或 Hugging Face Demo 体验。

Q:本地如何上手推理?

A:官方提供 Transformers 示例与推理脚本;亦提供 FP8 变体降低显存压力。生产环境可先走 API,再评估自托管成本。

Q:与 GLM-4.1V-Thinking 的关系?

A:承袭其“思考式”训练与推理思路,并在更大规模的 MoE 架构上实现有效扩展。


Hugging Face(GLM-4.5V 模型卡)

https://huggingface.co/zai-org/GLM-4.5V

GitHub(GLM-4.5 系列与基座说明)

https://github.com/zai-org/GLM-4.5

在线体验(Chat)

https://chat.z.ai


推荐工具

更多