위키문헌:위키문헌용 이미지 디지털화
← 위키문헌:도움말 | 위키문헌용 이미지 디지털화 |
위키문헌의 모든 문서는 책, 잡지, 신문 등 물리적 원본을 스캔한 파일을 교정하여 만드는 것을 궁극적인 목표로 합니다. 이 과정의 첫 단계는 문헌 원문을 스캔을 거쳐 디지털화하는 것입니다. 이미 스캔된 파일을 찾기 어려운 경우[1] 기여자가 직접 스캔하는 수밖에 없습니다. 이 문서에서는 책(서적)의 스캔을 중심으로 다루나, 신문 등 다른 형태의 문헌에도 동일하게 적용할 수 있습니다.
|
준비 단계
[편집]스캔을 시작하기 전 저작권이 없는 것이 맞는지, 위키미디어 공용에 업로드해도 괜찮은지, 위키문헌에 등재해도 되는 것인지를 확실히 확인하시기 바랍니다. 제대로 확인하지 않는다면 기껏 열심히 작업한 파일이나 문서가 통째로 삭제될 가능성이 있습니다.
스캔
[편집]책을 스캔하는 방법 자체에는 사용하는 장비에 따라 여러 종류가 있습니다.
제본된 책을 스캔하는 것은 제본 부위가 완전히 펼쳐지지 않기 때문에 일반적으로 사용하는 스캐너에 잘 들어가지 않는다는 어려움이 있습니다. 파괴적 스캔 방식을 사용하는 것이 아닌 한 책이 손상되지 않도록 어느 정도 주의도 기울여야 합니다.
V자 모양 스캐너
[편집]
책을 스캔할 때는 V자 모양으로 생긴 받침대가 있는 특수 스캐너를 사용하는 것이 가장 좋습니다. 구부러진 구조를 통해 책이 자연스럽게 펼쳐진 모양으로 만들어 줌으로서 책에 손상을 주지 않으면서도 페이지가 평평하게 펼쳐지게끔 할 수 있습니다. 페이지를 자연스럽게 넘길 수 있어 작업 속도도 빠른 편입니다. 상업용으로 판매하는 기기는 대체로 가격이 비싸며, 직접 제작할 수도 있지만 처음부터 전부 만들어야 한다는 어려움이 있습니다.
직접 V자 스캐너를 만드려면 받침대와 더불어 사진을 촬영할 카메라 1~2개가 필요합니다. 받침대의 재질은 상관 없으나 책을 90° 각도로 펼치고 양쪽 면이 바닥과 각각 45°를 이루기끔 해야 합니다. 카메라가 책의 종이를 정면으로 보고 있지 않으면 이미지가 일그러져 보입니다. 받침대 또한 각도를 어느 정도 조절할 수 있어야 합니다 (책을 넘겨가면 책의 좌우 두께가 달라져 중심이 이동하기 때문에 고정되어 있으면 점차 일그러짐이 생겨나는 것처럼 보입니다). 스캔 중 종이를 평평하게 눌러 줄 유리판도 있어야 합니다. 광원은 종이 전체에 빛이 고르게 퍼지게끔 해야 하는데, 사람 눈에는 차이가 없어 보이더라도 컴퓨터 작업 시에는 밝기 차이가 크게 날 수 있기 때문에 주의해야 합니다. 광원에서 빛을 직접 비추면 종이를 누르는 유리판에서 빛이 번질 수도 있습니다.
평판 스캐너
[편집]
평판 스캐너는 V형 스캐너보다는 책 스캔에 적합하지 않으나 상대적으로 쉽게 구할 수 있습니다. 평판 스캐너도 많은 종류가 있으며, 직접 구매하기에는 가격이 비쌀 수도 있습니다.
평판 스캐너 중에는 기계 가장자리까지 스캔을 할 수 있는 경우가 있는데, 이 경우 오른쪽 사진처럼 책을 걸친 상태로 스캔할 수 있습니다.
오버헤드 스캐너는 책을 펼친 상태로 책 위에서 스캔하는 방식으로, 양쪽 페이지를 동시에 스캔하는 경우가 많습니다. 스캔 결과물은 완전히 평평하지는 않고 제본부를 중심으로 어느 정도 왜곡이 생기게 됩니다.
일반적인 스캐너 위에서 무게를 주어 평평하게 만든 다음 스캔할 수도 있는데, 이 경우 오버헤드 스캐너와 유사하게 제본부가 일그러지며, 책을 누르기 때문에 책의 제본이 손상되기도 합니다.
평판 스캐너는 구조적 제약으로 인해 스캔 영역에 한계가 있습니다. 일반적인 스캐너는 A4 크기가 많으며, 이보다 큰 책은 A3 스캐너가 필요합니다. 복사기를 이용해 책을 먼저 복사한 다음 복사한 종이를 스캔하는 방법도 있습니다.
복사기 등 사무용 기기
[편집]최근 출시되는 복사기 대부분에는 스캔 기능이 내장되어 있고, 일부는 자동 보정 소프트웨어가 설치되어 있기도 합니다. 다만 위에서 설명한 평판 스캐너의 단점은 여기도 그대로 적용됩니다.
카메라
[편집]스캔보다 품질이 낮아지기는 하나, 단순히 사진을 찍는 것도 디지털화 방법으로는 손색이 없습니다. 더 빠르고 쉽다는 특징 이외에도, 스캐너를 놓을 수 없는 환경에서도 사용할 수 있다는 장점이 있습니다. 스마트폰에서는 vFlat 등 문서 스캔을 위한 어플리케이션을 이용할 수도 있습니다.
만약 삼각대 등 지지대를 사용할 경우, 일반 카메라로도 V자 스캐너나 평면 스캐너를 본딸 수 있습니다.
파괴적 스캔법
[편집]책을 물리적으로 완전히 뜯어냄으로서 불규칙한 모양이라는 단점을 완전히 없애 버리는 방법입니다. 다만 이 방법은 추천하지 않습니다.
파괴적 스캔은 책을 분해한다는 의미입니다. 종이를 제본부에서 잘라내거나, 실을 뜯거나, 책의 여러 부분을 없애는 과정으로, 결과적으로 책 대신 수많은 낱장을 남기는 것입니다. 분리한 종이들을 일반 종이처럼 스캐너에 넣는 방식으로 스캔하며, 이 경우 자동 스캐너를 사용할 수 있는 여지도 있습니다.
스캔 관점에서 보면 가장 빠르고 쉬운 방법이기는 하나, 책이 사라진다는 가장 큰 단점이 있습니다.
후처리
[편집]스캔이 끝난 후 얻은 이미지 파일은 위키문헌 작업을 위해서는 하나로 합쳐야 합니다. 스캐너 중에서는 결과물을 DjVu나 PDF 형식으로 바로 제공하는 경우도 있으나, 대부분은 JPEG나 PNG 등 개별 이미지 파일로 저장합니다. 이 경우 최종적으로 파일 형식을 변환해 주어야 합니다.
파일을 합치기 전에 이미지 파일의 복사본을 만들어 두거나, 불가능하다면 스캔 내 삽화를 미리 추출해 둘 것을 권장합니다. 삽화는 위키문헌에서 전사 작업 시 삽입할 때 사용하기 위해 별도의 파일로 업로드하여야 하는데, 보정 작업을 거칠수록 이미지 화질이 낮아지기 때문에 최대한 스캔 원본에 가까울수록 좋기 때문입니다. 이미지 파일을 PDF나 DjVu로 합치는 과정에서도 이미지 압축이 일어나는데, PDF가 DjVu에 비해 압축이 덜 일어나나 둘 모두 품질이 낮아진다는 공통점이 있습니다. 스캔 직후의 파일이 제일 품질이 좋을 가능성이 높습니다.
이미지 파일을 합치기 전에 이미지 파일 각각을 수정해주어야 합니다. 스캔 방법·기기·상황에 따라 이미지를 회전시키거나 잘라내야 하는 경우도 있으며, 좌우 페이지가 하나로 된 경우 2개로 분리해주는 것이 좋습니다. 궁극적인 목적은 원본과 최대한 비슷한 스캔 이미지를 만들어내는 것입니다.
처리 프로그램에 따라 파일 이름이 가나다순이어야 제대로 작동하는 경우가 있어, 스캔 파일 이름의 순서가 일정하지 않다면 바꾸어주는 편이 좋습니다. 흔히 "작품000" 식으로 작품 이름과 번호를 섞는 방식을 제일 많이 사용합니다. 스캔 방법에 따라서 왼쪽 페이지와 오른쪽 페이지가 완전히 구분되는 경우 일정한 순서가 되게끔 합쳐 주어야 합니다.
과거 스캔 파일 중에는 채도를 낮추어 흑백 이미지로 만든 경우가 많은데, 원본의 색조 차이라는 정보를 없애는 것이므로 현대에는 정말 특별한 이유가 있는 것이 아닌 한 권장하지 않습니다. 파일 크기가 줄어든다는 장점은 있으나 현대 기술에서 파일의 크기 차이가 중요한 요소도 아닙니다.
삽화 및 이미지
[편집]미디어위키 상 스캔 파일에서 이미지 일부를 직접 추출하여 사용할 수는 없습니다. 따라서 삽화를 삽입할 때는 삽화만을 별도로 업로드해야 합니다. 기본적으로 위에서 복사해 둔 스캔 원본에서 삽화 부분을 잘라내면 되나, 회전·색채 조정 등 보정을 거쳐야 할 수도 있습니다.
저장할 때의 파일 형식은 이미지의 종류에 따라 맞추어 주는 편이 좋습니다. 일반적으로 JPEG 형식은 사진이나 색상(컬러) 삽화, PNG 형식은 도표나 흑백 삽화에 적합합니다.
업로드
[편집]DjVu나 PDF의 형태로 스캔 파일을 완성하였다면 위키미디어 공용에 업로드하면 됩니다.
스캔 파일을 만들기 위해 웹사이트를 사용했다면, 해당 웹사이트의 URL을 URL2Commons 도구에 입력하여 바로 업로드할 수 있습니다. 그 외의 일반적인 경우에는 직접 파일을 다운로드받은 다음 다시 평범하게 공용에 업로드하면 됩니다.
삽화 추출 등으로 관련 파일이 많아졌다면 관련 파일을 담는 분류를 하나 만드는 것이 좋습니다. 이렇게 하면 파일의 관리나 이동 등이 편리해집니다.
각주
[편집]같이 보기
[편집]- 위키문헌:교정
- 위키문헌:DjVu 파일
- 위키문헌:색인 문서 길라잡이
- 스캔 도움말 (위키미디어 공용)
- Scan Lab (영어판 위키문헌): 스캔 파일에 관한 도움을 제공하는 커뮤니티
외부 링크
[편집]- Awesome Scanning: "종이 스캔 단순화·개선을 위한 프로젝트 모음"
소프트웨어
[편집]- IrfanView: 대량 편집이 가능한 이미지 뷰어 프로그램.
- GIMP (GNU Image Manipulation Program): 이미지 편집 소프트웨어.
- Scan Tailor, a useful post-processing tool for scanned pages which uses unpaper (example page). A basic unpaper GUI exists as well.
- Scan Tailor Advanced is a more up-to-date fork.
- PDF creation guides: from JPG (with pdfbeads) or from TIFF (with tiff2pdf, tesseract etc.) or from any image.
- See also pdfjam or QPDF for PDF surgery.
- With pdfsandwhich you can do automatic cleanup and OCR of image PDFs.
스캐너
[편집]- DIY 북스캐너
- $20 DIY 북스캐너, wired.com, describing this instructable
- MobileRead Forum — General Discussion, often has information about all parts of this process
OCR
[편집]- 우분투 OCR 도구
- Tesseract :
- Tesseract FAQs
- Tesseract training with ALTO/PAGE and related tools
- (2006) Google's Tesseract OCR engine is a quantum leap forward