본문으로 이동

위키문헌:DjVu와 PDF의 비교

위키문헌, 우리 모두의 도서관.
DjVu와 PDF의 비교
어떤 파일 형식을 선택해야 하는지, DjVu 파일을 선호하는 이유는 무엇인지에 관한 설명. DjVu 파일에 관한 자세한 설명은 위키문헌:DjVu 파일에서 보실 수 있습니다.

ProofreadPage 확장 프로그램은 스캔 파일을 이용해 색인 문서를 만든 다음, 파일의 각 페이지별로 페이지 문서를 만든 후, 일반 이름공간으로 끼워넣는 위키문헌 문서 등재의 전 과정에서 중요한 역할을 하고 있습니다.

현재는 ProofreadPage 프로그램이 여러 형식을 사용할 수 있으나, 프로그램이 처음 만들어졌을 때는 DjVu 파일만 사용할 수 있었습니다. 이로 인해 위키문헌에서 DjVu 파일만 다루던 시기가 있었습니다. 이후 PDF 형식에 변화가 일어나며 위키문헌에서 사용이 가능해졌습니다.

역사적인 이유로 DjVu 파일을 권장하긴 하나 PDF 파일도 동등하게 사용할 수 있고, 각각에는 장단점이 있습니다.

DjVu

[편집]

DjVu ("데자뷰"라고 읽음) 파일은 텍스트와 윤곽 중심의 그림을 주로 포함한 스캔 파일 저장을 위한 목적으로 개발되었습니다. 텍스트와 배경 이미지의 레이어 분리, 산술적 코딩, 흑백 파일에서의 손실 압축 방식을 이용합니다. 이를 통해 고화질 이미지를 작은 크기로 저장할 수 있어 인터넷에서 널리 사용하게 되었습니다.

DjVu는 PDF의 대체제로서 등장하였으며, 대부분의 경우 PDF보다 파일 크기도 작습니다. DjVu 개발진은 흑백 잡지의 경우 15~40 kB, 컬러 잡지는 40~70 kB, 고대 문자는 100 kB 정도로 압축된다는 결과를 발표하였는데, 일반적인 JPEG 이미지가 500 kB 정도를 요구하는 것과 비교하면 굉장히 작습니다. DjVu는 PDF와 마찬가지로 OCR 텍스트 데이터를 파일 내에 포함할 수 있어 파일 내에서 텍스트 검색을 활용할 수도 있습니다.

DjVu 파일은 오픈 소스인 컨테이너 포맷으로, 스캔 파일의 이미지와 텍스트를 저장하는 데 사용합니다. 오픈 소스라는 특징으로 인해 초기부터 위키미디어에서 사용할 수 있었으며, ProofreadPage 확장 프로그램이 제일 먼저 지원한 파일 형식이기도 합니다. 장기간 위키문헌에서 사용하는 파일 형식을 독점하고 있었다는 점에서 현재까지도 선호하는 파일 형식으로 남아 있습니다.

장점

[편집]
  • 호환성: 어도비가 소유하였던 PDF와 달리 DjVu는 개방된 오픈 소스 형식입니다. 2008년 PDF가 표준으로 지정(ISO32000)된 후 어도비에 사용료를 납부할 필요성은 없어졌으나 현재까지도 DjVu에 비하면 개방도가 낮다고 여겨지고 있습니다.
  • 작은 파일 크기: 일반적으로 PDF 파일보다 DjVu 파일의 크기가 더 작습니다. 위키미디어 공용에는 당초 업로드 가능한 파일의 크기가 100 MB로 제한되던 시기가 있었기 때문에 이 사실이 굉장히 중요하였으나, 현재의 업로드 제한 크기는 4GB로 기술적인 문제는 거의 없는 상태입니다. 다만 이와 별도로 파일 크기가 적으면 더 빠르게 파일이 불러와진다는 큰 장점은 그대로 남습니다.
  • 긴 역사: 위키문헌에서의 사용 역사는 PDF보다 DjVu가 더 길기 때문에, ProofreadPage 프로그램이 일으키는 각종 버그·오류가 이미 해결되었을 가능성이 더 높습니다.

단점

[편집]
  • 저화질: DjVu 파일의 해상도는 PDF보다 낮습니다. 텍스트 전사가 목적이라면 텍스트를 읽을 수 있는 한 문제는 없습니다. 다만 텍스트가 작거나 가까이 있으면 읽기 어려울 수도 있으며, 스캔 파일에서 삽화를 추출하고자 하는 경우 삽화의 화질이 줄어든다는 큰 문제가 있습니다.[1]
  • 문자의 모양: DjVu 파일의 이미지 압축 방식의 특징으로 인해 글자·숫자·특수문자 등 문자의 모양이 달라질 수 있습니다. 다만 이러한 문제는 화질이 정말 안 좋은 경우에만 주로 나타납니다.
  • 지원 적음: DjVu 파일은 PDF처럼 광범위하게 쓰이지 않다 보니 DjVu를 지원하는 프로그램 자체도 적으며 제작·편집은 더더욱 어려움이 많습니다.

PDF

[편집]

이동가능 문서형식 (PDF) 파일은 소프트웨어, 하드웨어, 운영체제와 관련 없이 문서를 저장하기 위하여 개발되었습니다. 각 PDF 파일에는 문서의 레이아웃, 텍스트, 글꼴, 그림 등 문서의 형식을 완벽하게 재현할 수 있는 정보가 담겨 있습니다. PDF는 1991년 어도비에서 "Camelot" 시스템을 개발한 것이 시초입니다.

PDF 파일 형식 자체는 2001년부터 사용료를 납부하지 않고도 쓸 수 있도록 풀렸으나, 어도비가 지속적인 소유권을 행사하고 있었습니다. 2008년 7월 1일 PDF가 ISO 32000-1:2008 표준으로 지정되며 어도비에서 누구나 PDF를 자유롭게 제작·사용·배포할 수 있다는 내용을 담은 공공특허라이선스를 발표하였습니다.

위키미디어 운동 초기에는 PDF가 개방되어 있지 않았기 때문에 위키미디어 공용에 올릴 수 없었습니다. 하지만 2008년 어도비가 PDF 형식을 자유화하며 공용에 업로드할 수 있게 되었고, ProofreadPage 확장 프로그램 또한 PDF 편집이 가능하게끔 업데이트되었습니다.

장점

[편집]
  • 고화질: PDF는 DjVu보다 화질이 높습니다. 텍스트의 경우 위키문헌에서는 읽을 수만 있으면 되므로 큰 차이가 없으나, 글자가 작거나 서로 붙어 있는 경우에는 더 확실히 구분할 수 있다는 장점이 있습니다. 스캔 파일에서 삽화를 추출해야 할 경우 화질이 더 좋은 PDF 형식이 유리합니다.[1]
  • 지원 많음: PDF는 DjVu에 비해 압도적으로 많이 사용되고 있으며, PDF 파일을 제작하는 것이 더 쉬운 경우가 많습니다. 사용자 대다수는 이 점 때문에 PDF를 사용하는 것을 선호하고 있습니다.

단점

[편집]
  • 버그: 기존에 사용하던 소프트웨어에 추가된 형태이기 때문에 DjVu와 비교했을 때 PDF 파일에서 일어나는 오류가 더 많습니다. 대표적인 버그로는 다음이 있습니다.
    • ProofreadPage 프로그램이 PDF 내에서 발음 구별 기호를 감지하지 못함.
    • 최신 버전 PDF의 경우 위키미디어 고스트스크립트 프로그램이 읽지 못하는 경우가 있음. 이 경우 위키미디어 웹사이트에서 보면 모든 페이지가 빈 것처럼 표시됨.
  • 큰 파일 크기: 일반적으로 PDF는 DjVu 파일보다 크기가 큽니다. 과거 위키미디어 공용에 100 MB 업로드 제한이 있을 때에는 긴 문헌의 경우 문제가 생기기도 했습니다.
  • 비싼 소프트웨어: PDF 파일을 편집하기 위해서는 가격이 높은 사기업의 소프트웨어가 필요하나 DjVu는 완전히 무료입니다.

대체제

[편집]

색인 문서는 DjVu나 PDF를 이용하지 않고 개별 이미지를 사용해 작성할 수도 있습니다. 이 방식의 유일한 장점은 별도로 파일 형식을 바꾸지 않고도 문헌 내 작업이 가능하다는 것이나, 색인 문서를 설정하는 방법이 굉장히 복잡하기 때문에 실질적인 사용은 거의 없습니다. 페이지 수가 두세 개 이상만 되어도 사용하지 말 것을 권장하고 있습니다.

각주

[편집]
  1. 1.0 1.1 원본 파일을 직접 구할 수 있는 경우 후처리를 거친 스캔 파일(형식 무관)보다는 원본 파일의 해상도가 높은 경우가 더 많아, 삽화 등은 원본 파일에서 직접 추출하는 것을 권장하고 있습니다.