티스토리 뷰

BookScan OCRBookScan OCR

Image를 PDF로 만들기 및 OCR 하기 : Acrobat DC

이번 포스트에서는

북 스캔한 이미지를 PDF로 만들고 Acrobat DC로 OCR 작업 방법을 소개

합니다. 광고 아닙니다.

OCR

스캐너로 책을 스캔하고 생성된 이미지는 PDF 파일로 만든 후에 OCR작업 합니다. OCR 작업은 이미지 파일의 글자를 인식해서 텍스트로 변환합니다. 변환된 택스트는 검색가능 하고 편집이 가능합니다. 

OCR 적용된 스캔 이미지OCR 적용된 스캔 이미지


PDF 및 OCR 프로그램 종류

다양한 제조사와 다양한 프로그램이 존재하지만, 선택권을 조금 줄이면 일반적으로 아래의 3가지 선택지가 있습니다. 저는 아래의 프로그램 이외에 Nauance Power PDF 프로그램과 PDF-XChange PRO 프로그램도 같이 검토하였습니다. 주제에 벗어난 이야기지만 PDF-XChange Pro 또는 Viewer 프로그램이 PDF 편집 및 뷰어 프로그램으로 가장 좋다고 생각합니다.

  • 유료

    • Abbyy FineReader : 스캔 이미지 보정 기능, 수준 높은 OCR 인식률

    • Acrobat Pro DC : Abbyy FineReader 에 비교해도 꿀리지 않는 OCR 인식률, 최고의 압축률, Acrobat만의 폰트 조정

  • 무료

    • 알pdf : 장점 무료, OCR 결과 용량이 원본보다 커짐, OCR 후 텍스트 왜곡이 심함

북스캔 관련 카페나 관련 유튜브 영상을 보면 Abbyy FineReader 를 선호하시는 분들이 많은데, 저는 Acrobat Pro DC를 선호합니다. Acrobat DC를 선호하는 핵심적인 이유는 OCR 이후 폰트가 보기 편하고, OCR 결과 PDF 파일의 크기가 아주 작아지기 때문입니다. 잡지나 사진이 들어가 있지 않은 일반적인 책 1page 당 보통 1~2MB 하는데, 대략 250page 파일이 25MB 수준으로 압축이 됩니다. 물론 다른 PDF 프로그램도 용량을 작게 할 수 있지만, Acrobat DC는 특유의 폰트 처리를 하여 글자가 진하게 표현됩니다. 개인마다 선호도 차이가 있을 수 있습니다.

원본과 Acrobat DC Ocr 결과 비교(왼) 원본 17MByte (우) Acrobat DC OCR 결과 4MByte

Acrobat DC로 OCR 된 문자는 확대 시 더 선명하고 진하게 표시가 됩니다. 물론 디테일하게 보면 문자의 선들이 직선이 아니고 울퉁불퉁하지만, 그 정도까지 확대해서 글자를 볼 일은 없고, 모니터나 타블릿 정도로 책 읽듯이 보기 때문에 불편함이 없을 것이라 생각합니다. 참고로 위 사진 설명의 용량은 상대적인 기준치로만 봐주시면 됩니다. 비교를 위해 12page 정도만 PDF로 생성 후 원본과 OCR 결과 파일의 용량을 비교하였습니다.

Acrobat Pro DC

Acrobat Pro DC는 유료이지만, 7일 동안 체험판으로 사용이 가능합니다. 프로그램에서 여러 파일 일괄 OCR 처리가 가능하니, 테스트로 사용하거나, 여러 작업을 해보고 싶으신 분은 무료 툴 알PDF 등으로 이미지를 PDF 만들어 보관 후 Acrobat Pro DC 체험판을 받아 일괄 OCR 해보셔도 될 것 같습니다.


이미지 -> PDF 만들기

이미지를 PDF로만 만드는 작업은 무료 툴인 알PDF 등으로도 가능합니다. 작업 하는 방법은 비슷하게 때문에 Acrobat Pro DC 로 여러 이미지 파일을 PDF로 병합하는 방법을 소개합니다.

Acrobat Pro DC 로 PDF 만들기

Acrobat Pro Dc 파일을 엽니다. 초기화면에서 파일 결합을 선택하거나 메뉴에서 파일 > 만들기 > 여러 파일을 단일 PDF 파일로 변환을 선택합니다.

여러 파일을 PDF 로 만들기 선택여러 파일을 PDF 로 만들기 선택


위의 메뉴를 선택 후 PDF를 생성할 이미지를 Acrobat DC로 드래그합니다. 사전에 파일명이 페이지 순서대로 정리가 되어있어야 합니다. Acrobat DC에 등록된 파일의 페이지가 순서대로 되어있는지 확인합니다.

PDF로 병합할 이미지 드래그PDF로 병합할 이미지 드래그


Acrobat DC에 등록된 이미지 파일 순서가 확인되면 결합 버튼을 눌러 PDF로 변환합니다. 변환이 완료되면 저장 버튼을 눌러 저장합니다.

여러 이미지를 PDF 로 만들기여러 이미지를 PDF 로 만들기

Acrobat DC로 OCR 하기

위와 같이 PDF 파일이 변환 완료되면 OCR을 적용합니다. OCR을 적용하기 위해 우측 도구에서 스캔 및 OCR 메뉴를 선택합니다. 스캔 및 OCR을 선택하면 나타나는 상단 바에서 텍스트 인식 > 이 파일에서 메뉴를 선택합니다. 이 파일에서 메뉴를 선택 후 생성 된 상단 바에서 설정을 선택하여 아래와 같이 옵션을 설정합니다. 설정이 완료되면 텍스트 인식을 눌러 OCR 작업을 진행합니다.

스캔한 PDF OCR 하기스캔한 PDF OCR 하기

📌 여러 파일을 한 번에 OCR 하는 경우 텍스트 인식 > 여러 파일에서 메뉴를 선택하여 진행 할 수 있습니다.

📌 OCR 텍스트 인식 설정에서 300dpi로 OCR을 해도 충분하다고 생각합니다. 북스캔 초반에는 가능한 원본에 가까운 파일로 보관하고 싶어서 600dpi로 했으나, OCR 작업 시간이 많이 소요되고, 파일 용량이 커서 300dpi로 변경하였습니다. OCR 수준은 제가 느끼기에 차이가 나지 않습니다.


OCR 기능이 완료되면 아래와 같이 이미지 선택, 텍스트 검색 및 편집이 가능합니다.

OCR 전과 후 비교OCR 전과 후 비교


마무리

이번 포스트에서 스캔한 이미지 파일로 검색 가능한 PDF로 만드는 OCR 작업 방법을 소개하였습니다. 이제 이 PDF 파일로 잘 활용하는 일만 남았습니다. 조금이라도 도움이 되는 정보였으면 합니다. 끝까지 읽어 주셔서 감사합니다.😊






댓글
댓글쓰기 폼
최근에 올라온 글
«   2020/10   »
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Total
21,940
Today
165
Yesterday
595