돌아가기 AI 백과사전
OCR이란 무엇인가요? 왜 AI는 종종 스캔된 PDF, 표, 스크린샷을 먼저 읽어야 하는 이유

OCR이란 무엇인가요? 왜 AI는 종종 스캔된 PDF, 표, 스크린샷을 먼저 읽어야 하는 이유

AI 백과사전 Admin 60 회 조회

OCR은 광학 문자 인식(Optical Character Recognition)의 약자로, 중국어로는 일반적으로 광학 문자 인식(optical character recognition)이라고 불립니다. 이 방법이 하는 일은 매우 간단합니다: 사진 속 단어, 스캔 중인 단어들, 스크린샷을 기계가 계속 처리할 수 있는 텍스트로 변환하는 것입니다. 많은 사람들은 AI가 PDF를 이해할 수 있다고 생각하는데, 모델이 문서를 직접 '이해'하기 때문이라고 생각하지만, 많은 수의 스캔된 PDF, 송장, 양식 스크린샷의 경우, 첫 단계는 이해하는 것이 아니라 단어를 먼저 인식하는 것입니다.

OCR은 단순히 '텍스트 인식'만을 위한 것이 아닙니다

현대 OCR은 또한 제목 위치, 표 경계 위치, 읽기 순서 배열, 이미지 설명의 어느 부분에 속하는지 등 레이아웃 분석도 처리하는 경우가 많습니다. 문서화 문제는 보통 '단어가 있는지'가 아니라 '이 단어들을 어떻게 연결해야 하는가'에 관한 것이기 때문입니다. 이 때문에 같은 PDF가 인간에게는 자연스럽게 보이지만, 기계가 순서를 뒤섞어 읽을 수 있는 것입니다.

AI Q&A 품질에 직접적인 영향을 미치는 이유

  1. OCR이 숫자, 날짜, 고유명사를 잘못 식별하면, 아무리 모델이 똑똑해도 오타에 근거해 계속 답변을 내놓습니다.
  2. 레이아웃 순서가 엉망이면, 모델이 이중 열의 내용, 각주, 본문을 잘못된 메시지로 철자할 수 있습니다.
  3. 테이블 경계가 제대로 인식되지 않으면 열 간 관계가 끊어지고, 답변은 자연스럽게 왜곡됩니다.

어떤 시나리오가 OCR에 가장 많이 의존하는지 말이죠

  • 계약서, 송장, 택배 서류, 명세서, 설명서, 서류 사본을 스캔하세요
  • 휴대폰으로 업로드된 사진 데이터
  • 스크린샷 Q&A, 테이블 스크린샷 추출, 오래된 파일 디지털화

OCR의 경계도 명확합니다. "보이는 단어"를 텍스트로 변환하는 데는 능숙하지만, 의미론이 올바르거나 관계가 완전한지, 사실이 정확한지 자연스럽게 보장하지는 않습니다. 그렇긴 해도, OCR은 엔드 레이어라기보다는 문서 AI의 입문 계층에 가깝습니다. 기본적인 질문에 답합니다: 기계는 어떻게 문서를 먼저 보는가? 나중에 어떻게 이해하고, 검색하고, 요약할지는 다음 단계의 시스템입니다.

추천 도구

더보기