일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- TIP
- algorithm #알고리즘 #백준
- class
- 2020.03.16
- ppt
- 독서
- 논문
- rendering pipeline
- graphics
- Til
- 2020.02.23
- 참조자
- C
- 프로그래머스
- Overloading
- stretch force
- Implicit method
- 알고리즘
- Algorithm
- oprerator
- C++
- Conjugate Gradient
- numerical method
- ComputeShader
- 학습용
- 백준
- 알고리즘연습
- UNORDERED_MAP
- game jam
- sparse matrix
Archives
- Today
- Total
OSgood의 개발일기
PDF OCR 복원 방법 본문
PDF 파일을 검색하거나 텍스트를 복사하려고 했는데 안 되는 경험, 한 번쯤 해보셨을 겁니다. 특히 스캐너로 만든 문서들은 이미지 형식이라서 눈에는 글자가 보이지만, 컴퓨터 입장에서는 ‘그림’일 뿐입니다. 텍스트 검색도 안 되고, 복사도 안 되고, 하이라이트도 안 되는 이유죠.
이럴 때 필요한 게 바로 **OCR (Optical Character Recognition, 광학 문자 인식)**입니다.
**OCRmyPDF**는 이 OCR 기능을 스캔된 PDF 파일에 자동으로 적용해주는 오픈소스 도구입니다. 즉, 이미지만 있는 PDF에 ‘숨겨진 텍스트 레이어’를 추가해 검색 가능한 문서로 바꿔주는 역할을 하죠.
🔍 예를 들어, 계약서를 스캔해서 받은 PDF에 OCRmyPDF를 돌리면 → 키워드 검색, 텍스트 복사, 하이라이팅이 전부 가능해집니다!
✅ 설치 구성요소 요약
구성 요소설명
Python | ocrmypdf는 Python으로 만들어진 패키지입니다 |
Tesseract | OCR 인식 엔진. 글자를 실제로 판독하는 역할 |
Ghostscript | PDF 내부 처리 담당 |
Poppler (선택) | PDF 이미지 추출 등 일부 부가기능 |
🧭 설치 및 실행 방법 (Windows 기준, 완전 초보자용)
1️⃣ Python 설치
- https://www.python.org/downloads/windows/
- 설치 시 “Add Python to PATH” 체크 필수!
2️⃣ Tesseract OCR 설치
- 다운로드: UB Mannheim 빌드 (추천)
- 설치 후 환경변수 Path에 설치경로 추가:
C:\Program Files\Tesseract-OCR - 설치 확인:
-
bash복사편집tesseract --version
3️⃣ Ghostscript 설치
- 다운로드: https://www.ghostscript.com/download/gsdnld.html
- 환경변수에 bin 폴더 경로 추가 (예: C:\Program Files\gs\gs10.02.0\bin)
4️⃣ ocrmypdf 설치
- 터미널 또는 CMD에서:
-
bash복사편집pip install ocrmypdf
- 확인:
-
bash복사편집ocrmypdf --version
✨ 기본 사용법
ocrmypdf input.pdf output.pdf
OCR 언어 지정 예시 (한국어 + 영어):
ocrmypdf -l kor+eng input.pdf output.pdf
🈶 한국어 OCR을 위한 설정
- C:\Program Files\Tesseract-OCR\tessdata 폴더로 이동
- https://github.com/tesseract-ocr/tessdata
여기서 kor.traineddata 다운로드 - 위 폴더에 복사해 넣기
🛠 추가 유용한 옵션
- --deskew: 기울어진 이미지 자동 보정
- --force-ocr: 이미 텍스트가 있는 페이지도 강제로 OCR 처리
예시:
ocrmypdf --force-ocr --deskew -l kor+eng input.pdf output.pdf
✅ 마무리 정리
OCRmyPDF는 ‘보이는 PDF’를 ‘읽을 수 있는 PDF’로 바꾸는 도구입니다.
Windows 환경에서는 약간의 설치 과정이 필요하지만, 한 번만 세팅해두면 누구나 쉽게 사용할 수 있어요.
특히 행정서류, 논문 스캔, 계약서 등 문서 기반 업무가 많은 분들께 강력 추천합니다!
필요하시다면 GUI(그래픽 인터페이스)를 덧씌운 버전도 따로 찾을 수 있으니, 초심자라도 충분히 도전해볼 수 있는 도구입니다.
Comments