Z.ai GLM-OCR 온라인 경험을 시작: PDF 및 이미지 레이아웃 분석 지원

AI 정보 • Admin • 2026. 2. 3. • 360 회 조회

Z.ai Hugging Face에 가중치를 열고, 온라인 경험과 API 호출 방식을 제공하는 다중 모달 OCR 모델 GLM-OCR을 출시했습니다. 공식적으로 모델은 약 9억 개의 매개변수만 가지고 있지만, 공식 인식, 표 인식, 키 정보 추출 등 복잡한 문서 이해 작업에서 선도적인 성과를 내고 있습니다.

API 사용 측면에서 GLM-OCR은 PDF와 이미지(JPG/PNG) 입력을 지원하며, 단일 이미지는 최대 10MB, PDF는 최대 50MB, 최대 100페이지까지 지원합니다. 출력물에는 문서 파싱, 데이터 입력, RAG 문서 전처리를 위한 Markdown 결과 및 레이아웃 세부 정보가 포함될 수 있습니다. 실제 효과는 스캔 품질, 글꼴 혼합, 실 폐쇄 및 레이아웃 복잡성에 영향을 미치므로, 생산 환경에서 샘플링 평가 및 개인정보 보호 준수 점검을 실시하는 것이 권장됩니다.

자주 묻는 질문

Q: GLM-OCR이 주로 해결하는 문제는 무엇인가요?

답변: GLM-OCR은 OCR과 복잡한 문서 이해에 적합하며, 텍스트, 표, 공식 및 정보 추출을 포함합니다.

Q: GLM-OCR이 지원하는 입력 및 크기 제한은 무엇인가요?

답변: GLM-OCR은 PDF 및 JPG/PNG를 지원하며, 이미지 ≤ 10MB, PDF ≤ 50MB, 최대 100페이지까지 지원합니다.

Q: GLM-OCR 출력 결과의 형태는 무엇인가요?

A: GLM-OCR은 Markdown 텍스트 결과를 출력하고 레이아웃과 관련된 구조화된 정보를 반환할 수 있습니다.

Q: GLM-OCR은 온라인 경험과 API를 제공하나요?

답변: Z.ai 온라인 경험 페이지에서 API 인터페이스 설명과 개발자 문서를 제공합니다.

Z.ai GLM-OCR 온라인 경험을 시작: PDF 및 이미지 레이아웃 분석 지원

관련 기사

OpenAI가 Codex 애플리케이션 출시: macOS 출시, 다중 에이전트 병렬 협업이 "커맨드 센터"로 진행됨

Qwen3-coder-Next 종합 해석: 80B/3B 초희소 오픈 소스 가중치 모델 코딩 에이전트

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

Z.ai GLM-OCR 온라인 경험을 시작: PDF 및 이미지 레이아웃 분석 지원

관련 기사

OpenAI가 Codex 애플리케이션 출시: macOS 출시, 다중 에이전트 병렬 협업이 "커맨드 센터"로 진행됨

Qwen3-coder-Next 종합 해석: 80B/3B 초희소 오픈 소스 가중치 모델 코딩 에이전트

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요