Zhipu 旗下平台 Z.ai 宣布上线 GLM-4.6V 系列视觉语言模型,包括参数规模为 106B、面向云端与高性能集群场景的 GLM-4.6V,以及面向本地与低时延场景的轻量版 GLM-4.6V-Flash。官方介绍称,GLM-4.6V 在训练中支持最长 128K token 上下文,可同时处理图像、文本、文件等多模态输入,并在同尺寸模型中取得较高视觉理解能力。
在能力设计上,GLM-4.6V 系列首次在该家族视觉模型中集成原生函数调用能力,可在理解图像和长文档的基础上触发工具或业务接口,为多模态智能体应用提供基础设施。开发者可通过 Z.ai 提供的在线对话页面体验模型,也可使用 API 接口在自有业务中集成调用;同时,模型权重在 Hugging Face 对外开放,便于有算力条件的团队进行本地或私有化部署。
在费用方面,Z.ai 公布的 API 计费按百万 token 计价,GLM-4.6V 云端推理按输入与输出分别计费,Flash 版本当前标注为免费,适合对成本敏感、对时延要求较高的应用场景。具体价格、限时优惠及配额规则以开发者文档与控制台公示为准,用户在接入前需关注账号额度、安全合规及多模态数据上传的隐私保护问题。
常见问题
Q:GLM-4.6V 是什么模型?
A:GLM-4.6V 是 Z.ai 推出的多模态大模型,可同时处理图像、文本等输入,并支持长上下文与推理能力。
Q:GLM-4.6V-Flash 与 GLM-4.6V 有何区别?
A:GLM-4.6V-Flash 为轻量高速版本,更适合本地部署和低时延应用,而 GLM-4.6V 面向云端与高性能集群场景。
Q:如何体验 GLM-4.6V 系列模型?
A:普通用户可通过 Z.ai 的在线聊天页面体验,开发者可通过官方 API 集成到自有应用中。
Q:GLM-4.6V 是否支持函数调用?
A:GLM-4.6V 系列支持原生函数调用,可在解析图像和文档后调用外部工具或业务接口,便于构建多模态智能体。
Q:GLM-4.6V 和 GLM-4.6V-Flash 的价格如何?
A:GLM-4.6V 对 API 调用按百万 token 区分输入和输出计费,GLM-4.6V-Flash 当前标注为免费,具体以官方定价页面为准。