Z.ai Hugging Face에 가중치를 열고, 온라인 경험과 API 호출 방식을 제공하는 다중 모달 OCR 모델 GLM-OCR을 출시했습니다. 공식적으로 모델은 약 9억 개의 매개변수만 가지고 있지만, 공식 인식, 표 인식, 키 정보 추출 등 복잡한 문서 이해 작업에서 선도적인 성과를 내고 있습니다.
API 사용 측면에서 GLM-OCR은 PDF와 이미지(JPG/PNG) 입력을 지원하며, 단일 이미지는 최대 10MB, PDF는 최대 50MB, 최대 100페이지까지 지원합니다. 출력물에는 문서 파싱, 데이터 입력, RAG 문서 전처리를 위한 Markdown 결과 및 레이아웃 세부 정보가 포함될 수 있습니다. 실제 효과는 스캔 품질, 글꼴 혼합, 실 폐쇄 및 레이아웃 복잡성에 영향을 미치므로, 생산 환경에서 샘플링 평가 및 개인정보 보호 준수 점검을 실시하는 것이 권장됩니다.
자주 묻는 질문
Q: GLM-OCR이 주로 해결하는 문제는 무엇인가요?
답변: GLM-OCR은 OCR과 복잡한 문서 이해에 적합하며, 텍스트, 표, 공식 및 정보 추출을 포함합니다.
Q: GLM-OCR이 지원하는 입력 및 크기 제한은 무엇인가요?
답변: GLM-OCR은 PDF 및 JPG/PNG를 지원하며, 이미지 ≤ 10MB, PDF ≤ 50MB, 최대 100페이지까지 지원합니다.
Q: GLM-OCR 출력 결과의 형태는 무엇인가요?
A: GLM-OCR은 Markdown 텍스트 결과를 출력하고 레이아웃과 관련된 구조화된 정보를 반환할 수 있습니다.
Q: GLM-OCR은 온라인 경험과 API를 제공하나요?
답변: Z.ai 온라인 경험 페이지에서 API 인터페이스 설명과 개발자 문서를 제공합니다.