PDF OCR 복원 방법

Notice

hello world!!!!!

Recent Posts

Recent Comments

Link

My github

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

OSgood의 개발일기

PDF OCR 복원 방법 본문

Utility

PDF OCR 복원 방법

OSgood 2025. 5. 14. 23:05

PDF 파일을 검색하거나 텍스트를 복사하려고 했는데 안 되는 경험, 한 번쯤 해보셨을 겁니다. 특히 스캐너로 만든 문서들은 이미지 형식이라서 눈에는 글자가 보이지만, 컴퓨터 입장에서는 ‘그림’일 뿐입니다. 텍스트 검색도 안 되고, 복사도 안 되고, 하이라이트도 안 되는 이유죠.

이럴 때 필요한 게 바로 **OCR (Optical Character Recognition, 광학 문자 인식)**입니다.

**OCRmyPDF**는 이 OCR 기능을 스캔된 PDF 파일에 자동으로 적용해주는 오픈소스 도구입니다. 즉, 이미지만 있는 PDF에 ‘숨겨진 텍스트 레이어’를 추가해 검색 가능한 문서로 바꿔주는 역할을 하죠.

🔍 예를 들어, 계약서를 스캔해서 받은 PDF에 OCRmyPDF를 돌리면 → 키워드 검색, 텍스트 복사, 하이라이팅이 전부 가능해집니다!

✅ 설치 구성요소 요약

구성 요소설명

Python	ocrmypdf는 Python으로 만들어진 패키지입니다
Tesseract	OCR 인식 엔진. 글자를 실제로 판독하는 역할
Ghostscript	PDF 내부 처리 담당
Poppler (선택)	PDF 이미지 추출 등 일부 부가기능

🧭 설치 및 실행 방법 (Windows 기준, 완전 초보자용)

1️⃣ Python 설치

https://www.python.org/downloads/windows/
설치 시 “Add Python to PATH” 체크 필수!

2️⃣ Tesseract OCR 설치

다운로드: UB Mannheim 빌드 (추천)
설치 후 환경변수 Path에 설치경로 추가:
C:\Program Files\Tesseract-OCR
설치 확인:
bash

복사편집

tesseract --version

3️⃣ Ghostscript 설치

다운로드: https://www.ghostscript.com/download/gsdnld.html
환경변수에 bin 폴더 경로 추가 (예: C:\Program Files\gs\gs10.02.0\bin)

4️⃣ ocrmypdf 설치

터미널 또는 CMD에서:
bash

복사편집

pip install ocrmypdf
확인:
bash

복사편집

ocrmypdf --version

✨ 기본 사용법

ocrmypdf input.pdf output.pdf

OCR 언어 지정 예시 (한국어 + 영어):

ocrmypdf -l kor+eng input.pdf output.pdf

🈶 한국어 OCR을 위한 설정

C:\Program Files\Tesseract-OCR\tessdata 폴더로 이동
https://github.com/tesseract-ocr/tessdata
여기서 kor.traineddata 다운로드
위 폴더에 복사해 넣기

🛠 추가 유용한 옵션

--deskew: 기울어진 이미지 자동 보정
--force-ocr: 이미 텍스트가 있는 페이지도 강제로 OCR 처리

예시:

ocrmypdf --force-ocr --deskew -l kor+eng input.pdf output.pdf

✅ 마무리 정리

OCRmyPDF는 ‘보이는 PDF’를 ‘읽을 수 있는 PDF’로 바꾸는 도구입니다.
Windows 환경에서는 약간의 설치 과정이 필요하지만, 한 번만 세팅해두면 누구나 쉽게 사용할 수 있어요.
특히 행정서류, 논문 스캔, 계약서 등 문서 기반 업무가 많은 분들께 강력 추천합니다!

필요하시다면 GUI(그래픽 인터페이스)를 덧씌운 버전도 따로 찾을 수 있으니, 초심자라도 충분히 도전해볼 수 있는 도구입니다.

Comments

OSgood의 개발일기

PDF OCR 복원 방법 본문

PDF OCR 복원 방법

✅ 설치 구성요소 요약

🧭 설치 및 실행 방법 (Windows 기준, 완전 초보자용)

1️⃣ Python 설치

2️⃣ Tesseract OCR 설치

3️⃣ Ghostscript 설치

4️⃣ ocrmypdf 설치

✨ 기본 사용법

🈶 한국어 OCR을 위한 설정

🛠 추가 유용한 옵션

✅ 마무리 정리

티스토리툴바