OSgood의 개발일기

PDF OCR 복원 방법 본문

Utility

PDF OCR 복원 방법

OSgood 2025. 5. 14. 23:05

PDF 파일을 검색하거나 텍스트를 복사하려고 했는데 안 되는 경험, 한 번쯤 해보셨을 겁니다. 특히 스캐너로 만든 문서들은 이미지 형식이라서 눈에는 글자가 보이지만, 컴퓨터 입장에서는 ‘그림’일 뿐입니다. 텍스트 검색도 안 되고, 복사도 안 되고, 하이라이트도 안 되는 이유죠.

이럴 때 필요한 게 바로 **OCR (Optical Character Recognition, 광학 문자 인식)**입니다.

**OCRmyPDF**는 이 OCR 기능을 스캔된 PDF 파일에 자동으로 적용해주는 오픈소스 도구입니다. 즉, 이미지만 있는 PDF에 ‘숨겨진 텍스트 레이어’를 추가해 검색 가능한 문서로 바꿔주는 역할을 하죠.

🔍 예를 들어, 계약서를 스캔해서 받은 PDF에 OCRmyPDF를 돌리면 → 키워드 검색, 텍스트 복사, 하이라이팅이 전부 가능해집니다!

✅ 설치 구성요소 요약

구성 요소설명
Python ocrmypdf는 Python으로 만들어진 패키지입니다
Tesseract OCR 인식 엔진. 글자를 실제로 판독하는 역할
Ghostscript PDF 내부 처리 담당
Poppler (선택) PDF 이미지 추출 등 일부 부가기능
 

🧭 설치 및 실행 방법 (Windows 기준, 완전 초보자용)

1️⃣ Python 설치

2️⃣ Tesseract OCR 설치

  • 다운로드: UB Mannheim 빌드 (추천)
  • 설치 후 환경변수 Path에 설치경로 추가:
    C:\Program Files\Tesseract-OCR
  • 설치 확인:
  • bash
    복사편집
    tesseract --version

3️⃣ Ghostscript 설치

4️⃣ ocrmypdf 설치

  • 터미널 또는 CMD에서:
  • bash
    복사편집
    pip install ocrmypdf
  • 확인:
  • bash
    복사편집
    ocrmypdf --version

✨ 기본 사용법

ocrmypdf input.pdf output.pdf
 

OCR 언어 지정 예시 (한국어 + 영어):

ocrmypdf -l kor+eng input.pdf output.pdf

🈶 한국어 OCR을 위한 설정

  1. C:\Program Files\Tesseract-OCR\tessdata 폴더로 이동
  2. https://github.com/tesseract-ocr/tessdata
    여기서 kor.traineddata 다운로드
  3. 위 폴더에 복사해 넣기

🛠 추가 유용한 옵션

  • --deskew: 기울어진 이미지 자동 보정
  • --force-ocr: 이미 텍스트가 있는 페이지도 강제로 OCR 처리

예시:

ocrmypdf --force-ocr --deskew -l kor+eng input.pdf output.pdf

✅ 마무리 정리

OCRmyPDF는 ‘보이는 PDF’를 ‘읽을 수 있는 PDF’로 바꾸는 도구입니다.
Windows 환경에서는 약간의 설치 과정이 필요하지만, 한 번만 세팅해두면 누구나 쉽게 사용할 수 있어요.
특히 행정서류, 논문 스캔, 계약서 등 문서 기반 업무가 많은 분들께 강력 추천합니다!

필요하시다면 GUI(그래픽 인터페이스)를 덧씌운 버전도 따로 찾을 수 있으니, 초심자라도 충분히 도전해볼 수 있는 도구입니다.

Comments