Z.ai发布多模态OCR模型GLM-OCR,并在Hugging Face开放权重,同时提供在线体验与API调用方式。官方称该模型仅约0.9B参数,但在复杂文档理解任务中取得领先表现,覆盖公式识别、表格识别与关键信息抽取等场景。
在API使用上,GLM-OCR支持输入PDF与图片(JPG/PNG),单张图片不超过10MB、PDF不超过50MB,最高支持100页。输出可包含Markdown结果与版面布局细节,便于文档解析、数据录入与RAG文档预处理。实际效果仍会受扫描质量、字体混排、印章遮挡与版式复杂度影响,生产环境建议进行抽样评测与隐私合规检查。
常见问题
Q:GLM-OCR主要解决什么问题?
A:GLM-OCR面向复杂文档OCR与理解,覆盖文字、表格、公式与信息抽取。
Q:GLM-OCR支持哪些输入与大小限制?
A:GLM-OCR支持PDF与JPG/PNG,图片≤10MB、PDF≤50MB,最多100页。
Q:GLM-OCR输出结果有哪些形式?
A:GLM-OCR可输出Markdown文本结果,并返回版面布局相关的结构化信息。
Q:GLM-OCR是否提供在线体验与API?
A:Z.ai提供在线体验页面与开发者文档中的API接口说明。