돌아가기 AI 정보
PaddleOCR-VL(0.9B) 출시: NaViT×ERNIE 경량 멀티모달 모델, 문서 파싱에서 여러 벤치마크에서 1위 달성

PaddleOCR-VL(0.9B) 출시: NaViT×ERNIE 경량 멀티모달 모델, 문서 파싱에서 여러 벤치마크에서 1위 달성

AI 정보 Admin 161 회 조회

2025년 10월 16일, PaddleOCR은 멀티모달 문서 파싱 모델인 PaddleOCR-VL 출시를 발표했습니다. 이 모델은 버전 3.3.0의 핵심 기능으로 출시되었습니다. 약 0.9B 크기의 이 모델은 NaViT 스타일의 동적 해상도 시각 인코더와 ERNIE-4.5-0.3B 언어 모델을 결합하여 텍스트, 표, 수식, 차트, 필기 등의 요소에 대한 통합 인식 및 구조화된 출력을 구현합니다. OmniDocBench와 같은 공개 및 자체 구축 데이터세트에 대한 공식 평가 결과, PaddleOCR-VL은 페이지 수준 파싱 및 피처 수준 인식 모두에서 최첨단 성능을 달성하거나 능가하는 것으로 나타났습니다.

PaddleOCR-VL은 중국어, 영어, 일본어, 라틴어, 아랍어, 키릴 문자, 데바나가리 문자를 포함하여 109개 언어와 문자를 지원합니다. 실제 환경에서 추론 효율성을 최적화하며, PP-StructureV3 및 PP-OCRv5와 같은 PaddleOCR 구성 요소와 함께 사용할 수 있습니다. 모델과 문서는 GitHub, HuggingFace 및 공식 문서에서 확인할 수 있습니다. 자세한 벤치마크, 시각화 예시 및 배포 방법은 공식 웹사이트를 참조하세요. 데이터셋 버전 및 평가 범위 등 자세한 내용은 저장소 업데이트를 통해 안내해 드리겠습니다.

자주 묻는 질문

질문: PaddleOCR-VL이란 무엇인가요?

A: 텍스트, 표, 수식, 차트, 필기 등을 동시에 처리하고 구조화된 결과를 출력할 수 있는 엔드투엔드 문서 구문 분석을 위한 약 0.9B개의 매개변수를 갖춘 시각적 언어 모델입니다.

Q: 왜 "초소형"이라고 부르나요?

A: 다중 모드 VLM에서 0.9B는 크기가 비교적 작고 추론 효율이 높습니다. NaViT 동적 해상도와 ERNIE-4.5-0.3B를 결합하면 정확도를 유지하면서도 컴퓨팅 성능 요구 사항을 줄일 수 있습니다.

질문: 정말 SOTA에 도달했나요?

A: 저희는 OmniDocBench v1.5/v1.0과 자체 벤치마크에서 전반적인 성능, 읽기 순서, 표, 수식 등 여러 지표를 포괄하는 최고의 결과를 입증했습니다. 결론은 공개 보고서와 모델 카드에 제공된 차트와 설명을 기반으로 합니다.

질문: 어떤 언어와 애플리케이션 시나리오가 지원되나요?

A: 109개 언어를 지원하며 다중 스크립트 조판, 역사 문서, 복잡한 레이아웃 등의 시나리오에 적합합니다. PP-StructureV3의 레이아웃/테이블 구조화 기능과 연동하여 실제 비즈니스 분석을 수행할 수 있습니다.

질문: 어디서 구입할 수 있고, 어떻게 시도할 수 있나요?

A: GitHub은 버전 정보와 명령줄/Python API를 제공하고, HuggingFace는 모델 카드와 온라인 데모 링크를 제공하며, 문서 사이트에서는 배포 및 가속(예: vLLM/sglang 서버) 가이드를 제공합니다.

PaddleOCR-VL 출시 PaddleOCR-VL 다중 모드 문서 파싱 PaddleOCR-VL0_9B 모델 PaddleOCR-VLNaViT 동적 해상도 패들OCR-VLERNIE-4_5-0_3B PaddleOCR-VL 페이지 수준 구문 분석 SOTA PaddleOCR-VL 기능 수준 인식 SOTA PaddleOCR-VLOmniDocBench 결과 PaddleOCR-VL109 언어 PaddleOCR-VL 다중 스크립트 지원 PaddleOCR-VL 구조화된 출력 PaddleOCR-VL 텍스트, 표, 수식 및 차트 PaddleOCR-VL 필기 인식 PaddleOCR-VL 복합 레이아웃 분석 PaddleOCR-VL 읽기 순서 추출 PaddleOCR-VL 테이블 구조화 PaddleOCR-VL 공식 분석 PaddleOCR-VL 그래프 이해 PaddleOCR-VLPDF 분석 PaddleOCR-VL 일괄 처리 PaddleOCR-VL 생산 수준 추론 효율성 PaddleOCR-VL 종단간 파싱 PaddleOCR-VL 및 PP-StructureV3 연결 PaddleOCR-VL 및 PP-OCRv5 협업 PaddleOCR-VL은 GitHub에서 오픈 소스로 제공됩니다. PaddleOCR-VLHuggingFace 모델 카드 PaddleOCR-VL 온라인 데모 PaddleOCR-VL3_3_0 핵심 기능 PaddleOCR-VL 배포 가이드 PaddleOCR-VLvLLM 서버 PaddleOCR-VLsglang 호환 PaddleOCR-VL 경량 VLM PaddleOCR-VL 추론 가속 PaddleOCR-VL 레이아웃 분석 PaddleOCR-VL 문서 이해 PaddleOCR-VL 엔터프라이즈 애플리케이션 PaddleOCR-VLAPI 예제 PaddleOCR-VLPython 사용법 PaddleOCR-VL 시각화 예시 PaddleOCR-VL 모델 다운로드 PaddleOCR-VL 벤치마크 PaddleOCR-VL 자체 구축 데이터 세트 PaddleOCR-VL 데이터 세트 버전 PaddleOCR-VL 평가 범위 PaddleOCR-VL 다국어 OCR PaddleOCR-VL 역사 문서 구문 분석 PaddleOCR-VL 혼합 분류 시나리오 PaddleOCR-VLSOTA 비교 PaddleOCR-VL 정확도 및 효율성 PaddleOCR-VL 프로덕션 배포

추천 도구

더보기