위키문헌:교정 길라잡이

위키문헌 ― 우리 모두의 도서관.
교정 길라잡이
위키문헌에서 교정하는 법.

교정이야 말로 위키문헌에 양질의 문헌을 제공하는 기초 중의 기초입니다. 교정을 하는 것은 두 가지 "이름공간" (위키문헌의 일정한 부분들로, 페이지의 제목 앞에 쌍온점으로 구분되어 있습니다)과 특수한 소프트웨어 하나를 통해 이뤄집니다. 이때 두 이름공간, 색인페이지를 아울러 "작업공간(workspace)"라고 합니다. 교정과 편집, 그리고 기타 "물밑" 작업들은 작업공간에서 진행됩니다.

교정 작업은 실물 책의 페이지 별 스캔, 대부분 DjVu 파일 형식으로 저장된 스캔을 바탕으로 합니다. 이 스캔 파일의 이름과 제목이 같은 색인 문서를 "색인" 이름공간에 만들면, 스캔된 책의 각 페이지는 "페이지" 이름공간에 각각 문서가 할당됩니다. 색인 문서는 각 페이지로 가는 링크를 제공하며, 이후 페이지마다 교정을 거칩니다.

이하 길라잡이는 페이지를 어떻게 교정하고, 각 사안 별로 더 자세한 설명이 담긴 다른 문서들을 안내할 것입니다. 이때 색인 문서를 교정하는 것에 대해서는 위키문헌:색인 문서 길라잡이를 참고하십시오.

페이지 교정하는 법[편집]

각 페이지마다 상태를 보여주는 색인 문서

교정은 색인 문서와 그에 연결된 페이지 이름공간 문서들을 통해 이루어집니다. 첫 번째 단계는 자신이 교정하고자 하는 페이지를 정하는 것입니다. 통상적으로 "색인" 문서에서 시작하게 될 것인데, 색인 문서는 표지 또는 첫 페이지의 그림을 보여주며, 그림 아래에는 모든 페이지의 목록을 나열합니다.

  1. 편집할 페이지를 고르십시오. 반드시 첫 번째 또는 교정되지 않은 첫 페이지를 고를 필요는 없습니다. 각 페이지의 배경 색상은 다음과 같은 정보를 제공합니다:
    • 14와 같이 초록 바탕의 링크는 "검증된"(더 이상 고칠 필요가 없는) 페이지입니다. 이 페이지들을 한번 확인하여 위키문헌에서 어떻게 교정할 지 감 잡을 수 있습니다.
    • 14와 같이 노란 바탕의 링크는 "교정된"(한 사용자가 교정을 마무리하였으며 다른 사용자의 점검 내지는 검증을 기다리고 있는) 페이지입니다.
    • 14와 같은 빨간 바탕의 링크는 "교정 안 된"(페이지가 생성되었으나 교정이 마무리되지 않은) 페이지입니다.
    • 14와 같은 파란 바탕의 링크는 "문제 있는"(복잡한 서식, 그림 또는 문자 누락 등이 있어 전문적인 기여자의 도움을 필요로 하는) 페이지입니다.
    • 14와 같은 회색 바탕의 링크는 텍스트가 없어 교정할 필요가 없는 "빈" 페이지입니다.
    • 14와 같은 흰 바탕에 빨간 글씨의 링크는 페이지가 아직 생성되지 않았음을 나타냅니다. 만약 교정이 처음이라면 이러한 페이지 하나를 먼저 택하여 교정을 하는 게 좋습니다. 빨간 링크를 클릭하면 자동으로 편집창으로 이동합니다. 여러 페이지를 확인하여 본인이 가장 하고 싶은 페이지를 편집하면 됩니다.
  2. 색인 문서에서 아무 페이지나 클릭하면, 전사된 텍스트와 원본의 그림이 나란히 있는 것을 볼 수 있습니다. 텍스트는 페이지에 따라 전사되어 있거나, 혹은 전부나 일부가 전사되지 않은 채 비어 있을 수도 있습니다. OCR을 사용하여 판독된 텍스트는 자동으로 전사됩니다.
    • 비어 있을 경우: 페이지에 있는 텍스트를 옮겨 적습니다.
    • 비어 있지 않을 경우: 텍스트의 오류나 빠진 점을 고쳐 원본과 일치하게 만듭니다.
  3. "미리 보기"를 클릭하여 어떻게 나타날 지 점검하고, 페이지 상태를 "교정됨"(노랑)으로 바꾼 뒤, 저장("게시")하십시오. 더 많은 정보는 위키문헌:교정위키문헌:페이지 상태를 참고하십시오.
    • 만약 교정을 마치지 않았으나 저장하고 싶다면 페이지 상태를 "교정 안 됨"(빨강)으로 바꾼 뒤 저장하십시오.
  4. 과정 2와 3을 반복하여 모든 페이지를 교정하십시오.

텍스트-스캔 분할 레이아웃[편집]

Screenshot from the Page namespace, showing the text field side-by-side with the scanned page image.
(그림 1) 페이지 이름공간 문서의 분할 레이아웃

페이지 이름공간에서 한 페이지를 볼 때, 화면은 그림 1과 같이 두 영역으로 분할될 것입니다. 기본적으로 이 분할 레이아웃에서는 좌측에 사용자들이 편집, 교정, 검증할 수 있는 텍스트 편집창이 표시되며, 우측에는 스캔된 문헌의 그림이 나타납니다. 페이지 문서를 편집 후 "미리 보기"를 누르면 텍스트 편집창과 스캔본 그림의 배치는 동일하게 유지되며, 둘 위에 게시될 텍스트가 미리 보기로 뜹니다.

교정[편집]

교정을 할 때에는 원본에 최대한 가깝게 전사(轉寫)하는 것을 지향합니다.

그렇다고 하여 처음부터 완벽하게 동일한 사본을 만드는 것에 집착할 필요는 없으며, 할 수 있는 만큼 가깝게 텍스트를 옮기는 것이 토씨 하나 틀림 없는 타이포그래피 보다 더 중요합니다. 위키문헌은 웹사이트기 때문에 책에서는 가능한 것들이 웹사이트에선 안 되는 경우도 있기 마련입니다. 예를 들어 신문처럼 여러 단으로 내용을 나타내는 문헌을 위키문헌으로 옮긴다면 단을 유지하여 텍스트를 옮길 필요가 없으며 오히려 가독성을 해치는 요인이 되기도 합니다. 위키문헌에서는 여러 페이지를 모아 하나의 작품으로 보여주기 때문입니다. 따라서 이런 경우에는 굳이 단을 유지하기 보다 일반적인 문단 형식을 따라 자연스럽게 문단을 바꿔야 할 때 바꾸는 것이 바람직합니다.

페이지 상태[편집]

Screenshot from the Page namespace, showing the page status radio buttons.
(그림 2) 페이지 상태 버튼

페이지를 저장할 때, 페이지의 상태 또한 설정해야 합니다. 저장 버튼 바로 위에 그림 2와 같이 동그란 버튼 목록이 있으며, 적절히 페이지의 상태에 맞는 버튼을 클릭하여 상태를 바꿀 수 있습니다. 만약 페이지를 막 게시하였거나 큰 변경을 가하지 않았을 경우, 빨간 버튼("교정 안 함")을 선택하십시오. 교정을 확실히 하였을 경우, 노란 버튼("교정 됨")을 선택하십시오.

몇몇 페이지는 다른 사용자들이 이미 교정하였을 수 있습니다. 이러한 페이지들은 당신이 점검하여 페이지 상태를 승격시킬 수 있습니다. 점검할 때에는 미처 확인되지 않은 오류나 바꿔야 할 것들이 있는 지 살피십시오. 오류가 없거나 변경을 마쳤을 경우, 한 단계씩 페이지 상태를 올리십시오. 즉, "교정 안 됨"(빨강)은 "교정됨"(노랑)으로, 이어서 "검증됨"(초록)으로 바꾸면 됩니다. 검증된 페이지는 페이지의 작성이 완료되었으며 더 이상 편집할 필요가 없습니다. 빈 페이지(회색)와 문제 있는 페이지(파랑)는 특수한 경우이며 이에 대한 자세한 정보는 하단의 문단과 위키문헌:페이지 상태에서 다루고 있습니다.

빈 페이지[편집]

빈 페이지는 비운 채 남기면 되며 페이지 상태를 "비었음"(회색)으로 설정하면 됩니다. 이 페이지들은 (일반) 이름공간에서 각 페이지를 취합할 때 포함되지 않습니다.

빈 페이지로 설정할 페이지들은 표지 등이 대상이나, 삽화가 있는 페이지들은 예외입니다. 삽화가 있는 페이지는 교정을 거쳐야 하는 페이지들과 같이 취급하여야 합니다. 삽화가 정상적으로 나오지 않으면 문제 있는 페이지로 설정하여야 합니다.

문제 있는 페이지[편집]

교정을 할 때 문제가 있어 교정을 완료할 수 없다면 페이지 상태를 "문제 있음"(파랑)으로 바꿔야 합니다. 이로부터 다른 사용자들이 해당 페이지에 교정을 막는 요소가 있다는 것을 파악할 수 있으며, 이들의 도움으로 문제를 해결할 수 있기 때문입니다.

흔히 발생하는 문제로는 삽화가 존재하나 게시되지 않는 경우, 수식이 들어간 페이지, 현대 한국어와 영어용 로마자 외의 문자가 들어간 페이지, 그리고 특수한 양식으로 작성된 페이지들이 있습니다. 이 중 몇몇 경우에는 맞춤용 틀이 마련된 경우가 있습니다(자세한 것은 문제 틀을 보십시오). 이 같은 틀들은 페이지를 확인하는 사용자 누구에게나 유용한 정보를 제공하며 그러한 문제를 해결할 수 있는 사람들의 시선을 끌 수 있습니다.

참고 사항[편집]

포함할 내용[편집]

  • 텍스트의 형식 (굵은 글씨나 기울어진 글씨 등)
  • 글씨 크기 ({{작게}} 또는 {{크게}} 등을 이용하십시오)
  • 특수한 표기법
    • 대소문자 구분 (만약 대문자가 소문자처럼 작게 적혔을 경우 {{Sc}}를 이용하십시오)
    • 수평선: {{수평선}}
    • 문단 구분 (보통 별표의 연속으로 표기함: * * * * * )

포함하지 말 요소들[편집]

  • 원서의 일부가 아닌, 문헌을 소장 또는 스캔하면서 추가로 생겨난 도장, 서명, 자국, 긁힘, 구멍, 워터마크 등. 스캔 과정에서 OCR 판독이 잘못되어 자국과 구멍 등을 온점·반점·가운뎃점·붙임표 등으로 전사하는 경우가 있습니다. 이러한 것을 실제 문장 부호나 문자와 구별하는 것은 까다롭기 때문에 전사 및 교정 시 세밀한 관찰이 필요합니다.
  • 신문처럼 단을 만드는 것. 원문이 단을 이루고 있더라도 기본적으로 단과 단 사이에 끊어 표기하지 않고 이어 적습니다. 단, 그러한 단에 표가 있는 경우 표 만들기 문서를 참고하여 기입하시기 바랍니다.
  • 오탈자가 있더라도 고치지 않습니다. 대신 오탈자임을 나타내기 위해 {{SIC}}를 쓰십시오.

선택 사항[편집]

  • 개행(줄 바꿈). 웹에서는 대부분 개행을 무시하므로, 개행된 텍스트는 OCR에서 대부분 정상적으로 나타날 것입니다. 개행을 할 경우 틀, 링크, 표가 정상적으로 나타나지 않는 경우가 많으나, 이를 반영할 지는 교정자 개개인의 몫에 달렸습니다.
예시
원본 "안녕,"이라고 예제가 말했다. 이것은
개행된 줄의 예시입니다.
교정 후 "안녕,"이라고 예제가 말했다. 이것은 개행되지 않은 줄의 예시입니다.
  • 광고와 같이 작품 자체의 일부가 아닌 것은 교정의 필수 대상이 아닙니다. 그렇다고 하여 사용자가 교정을 하는 것을 막지는 않습니다.
  • 고급 타이포그래피. 원본에 최대한 가까운 모습의 페이지를 만드는 것은 좋지만, 그 보다 더 중요한 것은 원본의 텍스트 자체를 전사하는 것입니다. 몇몇 타이포그래피는 구현하기 까다롭거나 웹사이트에서 제대로 출력되지 않는 경우가 있습니다.

흔한 OCR 오류[편집]

광학 문자 인식 또는 광학 문자 판독으로도 일컬어지는 OCR(Optical Character Recognition)은 컴퓨터가 텍스트를 읽어들이는 기능입니다. 보통 이를 통해 인식된 텍스트는 DjVu 파일에 저장되어 교정을 시작할 때 편집창에 자동으로 호출됩니다. 그러나, 컴퓨터가 텍스트를 읽어들이는 기능은 다소 성능이 떨어지기에(한글과 한자처럼 획이 많고 복잡할수록 더욱 그러합니다) "스캐노(scano)"라 하는 오류를 흔히 뱉어내기도 합니다. 아래 표는 OCR 시 흔히 나오는 오류를 몇 가지 소개합니다.

예시
OCR 오류 정정
tlie the
a11, aH, aU all
au an
\vas was
mc me
판하여, 판해 관하여, 관해

그 외 자주 나타나는 오류[편집]

  • 문단 바꿈. 문단과 문단 사이에는 빈 줄을 두어야 합니다. 이는 전자 문서 및 인터넷에서 표준적인 양식입니다.
  • 문장 기호 앞 띄어쓰기는 대부분 지워야 합니다.
예시
OCR 오류 foo bar ; lorem ipsum
정정 foo bar; lorem ipsum
쌍반점 ";" 앞 띄어쓰기가 제거되었습니다.

[편집]

교정을 할 때 필요한 틀이 몇 가지 있습니다.

교정 틀[편집]

문제 틀[편집]

만약 대처할 수 없는 문제를 맞닥뜨리면 다음과 같은 틀들을 사용하십시오. 이런 틀을 사용할 경우 페이지 상태를 "문제 있는"(파랑)으로 바꾸시기 바랍니다.

써야 할 때
{{missing image}} 그림이 포함되어야 할 때
{{missing table}} 표가 포함되어야 할 때
{{missing score}} 악보가 포함되어야 할 때
{{missing math formula}} 수식이 포함되어야 할 때
{{illegible}} 텍스트를 하나의 문자로 판독할 수 없을 때
{{미판독 문자}}, {{?}} 미상의 문자가 쓰일 때.*
{{미판독 한글}} 미상의 한글이 쓰일 때.*
{{미판독 한자}} 미상의 한자가 쓰일 때.*
{{미판독 가나}} 미상의 가나가 쓰일 때.*
{{미판독 그리스 문자}} 미상의 그리스 문자가 쓰일 때.*
{{미판독 데바나가리 문자}} 미상의 데바나가리 문자가 쓰일 때.*
{{미판독 만주 문자}} 미상의 만주 문자가 쓰일 때.*
{{미판독 몽골 문자}} 미상의 몽골 문자가 쓰일 때.*
{{미판독 싯담 문자}} 미상의 싯담 문자가 쓰일 때.*
{{미판독 아랍 문자}} 미상의 아랍 문자가 쓰일 때.*
{{미판독 키릴 문자}} 미상의 키릴 문자가 쓰일 때.*
러시아어, 불가리아어, 현대 몽골어, 세르보크로아트어 등
{{미판독 티베트 문자}} 미상의 티베트 문자가 쓰일 때.*
{{미판독 히브리 문자}} 미상의 히브리 문자가 쓰일 때.*
{{미판독 상징}} 미상의 상징이 쓰일 때.
* 이 문자를 입력할 수 있는 도구가 없을 때, 또는 전문가의 판독이 필요한 경우 사용합니다.