DeepSeek-OCR 설명: 긴 텍스트를 "시각적 토큰"으로 압축하기 위한 새로운 상황적 압축 접근 방식

I. 요약

DeepSeek-OCR은 DeepSeek의 오픈소스 "상황적 광학 압축" 모델입니다. 문서 텍스트를 시각적 토큰 으로 인코딩한 후 다시 텍스트로 디코딩합니다. 이 모델의 목표는 인식 정확도를 유지하면서 LLM의 상황적 토큰 비용을 크게 줄이는 것입니다. 커뮤니티 및 언론 보도에 따르면 약 10배 압축률 에서 약 97%의 디코딩 정확도를 달성하고, 20배 압축률에서 약 60% 의 사용 가능한 정확도를 유지합니다. 이 모델은 다양한 해상도와 동적 자르기 모드를 제공하여 PDF 및 이미지에 대한 고처리량 추론에 적합합니다. 위의 성능은 실험 결과를 기반으로 한 공식 및 언론 보도를 기반으로 합니다. 실제 효과는 자체 데이터를 통한 검증이 필요합니다.

2. 핵심 기능

1. 시각적 텍스트 압축 : 일반 텍스트 토큰을 시각적 인코딩으로 대체하여 컨텍스트 길이와 추론 비용을 크게 줄입니다.

2. 다중 해상도 모드 : 소형/소형/기본/대형(64/100/256/400개 시각적 토큰) 및 동적 해상도("건담" 솔루션).

3. 유연한 추론 경로 : vLLM과 Transformers 추론 스크립트를 모두 제공하고, 이미지와 PDF 일괄 처리를 지원합니다.

4. 문서 구조 이해 : 레이아웃/표/다이어그램에 대한 마크다운 변환 및 구조화된 추출 지침의 예.

5. 오픈 소스 및 재현 가능 : MIT 라이선스, 저장소에는 설치, 구성 및 시각화 예제가 포함되어 있습니다.

3. 설치

1. 저장소를 복제합니다: git clone https://github.com/deepseek-ai/DeepSeek-OCR.git 그리고 디렉토리로 들어갑니다.

2. 환경 생성: conda create -n deepseek-ocr python=3.12.9 -y && conda activate deepseek-ocr.

3. 종속성 설치: README, pip install -r requirements.txt에 지정된 CUDA/PyTorch 버전을 설치하고, 일치하는 vLLM/Flash-Attention을 설치합니다.

4. 가중치 및 추론: Hugging Face에서 deepseek-ai/DeepSeek-OCR을 가져와서 저장소에 제공된 vLLM 또는 Transformers 스크립트에 따라 이미지/PDF OCR 및 평가를 실행합니다.

일반적인 사용 사례

1. 긴 문서 OCR → 마크다운 : 저널/보고서를 편집 가능한 텍스트로 빠르게 변환하여 수동 정리 작업을 줄입니다.

2. 엔터프라이즈 아카이빙 및 검색 : RAG(검색 향상 생성)에서 시각적 토큰을 사용하여 컨텍스트를 압축하여 검색 및 질의 응답 범위를 확장합니다.

3. 청구서/양식의 구조화 : 레이아웃/양식/다이어그램을 배치하고 분석하여 반구조화된 결과를 생성합니다.

4. 일괄 PDF 처리량 : 단일 카드 환경에서 여러 PDF 페이지를 동시에 처리하여 컴퓨팅 성능과 비용 압박을 줄입니다.

5. 생태계 및 경쟁 제품

1. 생태계 : Hugging Face와 기본적으로 호환됩니다. 스크립트는 vLLM/Transformers를 다루고, README에는 PDF/이미지와 일괄 평가 예제가 제공됩니다.

2. 경쟁 제품과의 비교 : 커뮤니티 보고서에 따르면 이 제품은 압축/정확도-토큰 효율성 측면에서 GOT-OCR2.0 및 MinerU 보다 성능이 뛰어나고 토큰 사용량을 크게 줄이는 것으로 나타났습니다. 그러나 벤치마크와 데이터 분포가 다르면 결과에 큰 영향을 미치므로 동일한 데이터 및 평가 절차를 사용하여 다시 테스트해야 합니다.

VI. 제한 사항 및 주의사항

1. 지표 전이성 : 10×≈97% 및 20×≈60%는 공식/미디어 실험값입니다. 법률, 의료 및 기타 시나리오로 전이하려면 별도의 검증이 필요합니다.

2. 이미지 품질 종속성 : 저화질/복잡한 레이아웃은 디코딩 품질에 영향을 미칩니다. 레이아웃 분석과 리샘플링을 병행하는 것이 좋습니다.

3. 컴퓨팅 성능 및 환경 : 토큰은 적지만 시각적 코딩에는 여전히 GPU 메모리와 적절한 CUDA/드라이버 버전이 필요합니다.

4. 규정 준수 및 개인정보 보호 : 민감한 정보가 포함된 문서를 처리할 때는 로컬 배포를 우선시하고 데이터 규정 준수 정책을 따라야 합니다.

7. 프로젝트 주소

https://github.com/deepseek-ai/딥시크-OCR

8. 자주 묻는 질문

질문: DeepSeek-OCR의 "10× 압축률 ≈ 97% 디코딩 정확도"와 "20× ≈ 60%"는 어떻게 이해하시나요?

A: 이는 시각적 토큰과 텍스트 토큰의 비율이 약 1:10/1:20에 도달했을 때 텍스트로 디코딩하는 정확도 수준을 나타냅니다. 실험실과 언론 매체가 결과를 공개하려면 자체 데이터를 기반으로 검증되어야 합니다.

질문: GOT-OCR2.0 및 MinerU와 비교했을 때 토큰 사용량과 처리량 면에서 어떤 차이가 있나요?

A: 공식 README와 언론 보도에 따르면 압축률과 토큰 효율성 측면에서 장점이 있다고 합니다. 하지만 벤치마크, 하드웨어, 그리고 동시성 전략이 다르면 비교에 영향을 미칠 수 있습니다. 통합 평가 스크립트를 사용하고 데이터를 다시 테스트하는 것을 권장합니다.

질문: 배포 및 추론에 권장되는 경로는 무엇입니까(vLLM 대 Transformers)?

A: vLLM은 높은 처리량/동시성 시나리오에 적합하고, Transformers는 2차 개발 및 통합을 용이하게 합니다. 두 가지 스크립트 모두 저장소에서 제공되므로 시나리오에 따라 선택할 수 있습니다.

질문: 다이나믹 레졸루션(건담)은 언제부터 적용되나요?

A: 페이지에 작은 텍스트와 큰 아이콘이 섞여 있는 경우, 동적 자르기 + 고해상도 기본 보기를 통해 세부 정보와 전체 레이아웃을 모두 고려할 수 있습니다.

관련 기사

Meituan의 LongCat 팀이 VitaBench를 출시했습니다. VitaBench는 음식 배달, 케이터링, 여행에 중점을 둔 실제 지능형 평가 플랫폼입니다.

Sora 비디오 워터마크 제거를 위한 완벽한 가이드: 온라인 도구 + 로컬 오픈 소스 배포(완전한 튜토리얼 포함)

Mem0가 에이전트와 통합할 가치가 있을까요? 장기 기억력은 유용하지만, 경계를 관리해야 합니다

헤이스택은 어떤 팀에 적합한가요? 이것은 오히려 컴포스터블한 RAG 엔지니어링 프레임워크에 가깝습니다

추천 도구

DeepSeek-OCR 설명: 긴 텍스트를 &quot;시각적 토큰&quot;으로 압축하기 위한 새로운 상황적 압축 접근 방식