Z.ai 官方宣布开源视觉语言模型 GLM-4.5V。该模型在同尺寸开源模型中表现领先,覆盖 40+ 公共基准测试,主打多模态视觉推理能力。GLM-4.5V 基于 GLM-4.5-Air 基座,采用 106B 参数的 MoE(专家混合)架构,延续 GLM-4.1V-Thinking 的“思考式”技术路线,并提供线上体验与 API 接入。
一、模型定位与技术路线
- 面向通用视觉推理与多模态智能体的开源 VLM。
- 基于 GLM-4.5-Air,MoE 总参数约 106B,活跃参数约 12B。
- 引入“思考模式/快速模式”切换:在深度推理与响应时延间灵活权衡。
- 继续沿用 GLM-4.1V-Thinking 的可扩展强化学习与推理范式。
二、能力范围与典型任务
- 图像理解与多图推理:场景理解、跨图对齐、空间关系推断。
- 视频理解:长视频分段、事件识别、时间索引式讲解。
- 文档与表格:长文档阅读、OCR、表格抽取、图表解析。
- GUI/Agent 场景:屏幕读图、元素定位、点击/滑动等操作规划。
- Grounding:精确的目标框定位与布局理解。
三、基准表现与规模定位
- 官方称在同体量开源模型上实现领先,覆盖 41–42 项公开基准。
- 重点指标覆盖图像问答、视频理解、OCR/DocVQA、图表问答、空间与前端理解等方向。
- 目标是在“可复现实证 + 工程可用性”之间取得平衡,而非只追逐分数。
四、开放形态与使用方式
- 开源权重与模型卡:提供标准与 FP8 变体,便于推理与部署。
- 代码与评测:开放仓库与示例,支持 Transformers 快速上手。
- 在线体验与 API:提供网页对话与官方平台 API,支持多模态输入。
- 许可与生态:采用开源许可;配套评测仓库、演示 Space 与社区讨论区。
五、落地建议(工程视角)
- 资源规划:MoE 大模型部署建议先用在线 API/FP8 试点,再评估本地多卡。
- 评测校准:用自有样本做 A/B,关注长文档鲁棒性与解析准确率。
- 安全与合规:为 OCR/文档场景增加脱敏、红线词与数据留痕策略。
- 观测与回放:记录输入输出与思考轨迹(如有),便于回溯与持续优化。
- 组合范式:与检索/工具调用结合,构建端到端多模态智能体工作流。
Q&A 常见问题
Q:GLM-4.5V 是否开源?许可是什么?
A:是开源模型,模型卡标注为 MIT 许可。
Q:具体支持哪些模态?
A:支持图像、视频、文本与文件等输入;输出为文本,可附带边界框坐标等结构化信息。
Q:如何快速体验?
A:可直接使用官网在线对话;也可通过官方 API 或 Hugging Face Demo 体验。
Q:本地如何上手推理?
A:官方提供 Transformers 示例与推理脚本;亦提供 FP8 变体降低显存压力。生产环境可先走 API,再评估自托管成本。
Q:与 GLM-4.1V-Thinking 的关系?
A:承袭其“思考式”训练与推理思路,并在更大规模的 MoE 架构上实现有效扩展。
Hugging Face(GLM-4.5V 模型卡)
https://huggingface.co/zai-org/GLM-4.5V
GitHub(GLM-4.5 系列与基座说明)
https://github.com/zai-org/GLM-4.5
在线体验(Chat)