본문으로 이동

위키문헌:OCR 도구

위키문헌, 우리 모두의 도서관.
OCR 도구

전사 및 교정 작업 시 사용할 수 있는 OCR 도구에 대해 설명합니다.

위키문헌의 페이지 문서에는 광학 문자 인식(OCR) 도구가 내장되어 있습니다. 이를 이용하면 스캔 파일의 모든 문자를 직접 타이핑할 필요 없이 자동으로 산출된 결과를 보정해 주는 정도로 전사 작업을 쉽게 만들 수 있습니다.

다만 현재 위키문헌에서 사용하는 OCR은 옛한글을 전혀 인식하지 못하며, 한자 등 다른 문자도 인식 오류가 종종 발생합니다. 이로 인해 OCR은 어디까지나 보조 도구로 사용하고, 인식 후 나오는 결과 텍스트를 반드시 검토해 주시기 바랍니다.

종류

[편집]
페이지 문서 내 교정 도구에서 볼 수 있는 OCR 옵션. 테서랙트, 구글, 트랜스크리버스 중에서 사용하고자 하는 OCR 도구를 선택할 수 있습니다. "고급 옵션"을 누르면 위키미디어 OCR 도구로 넘어갈 수 있습니다.

위키문헌에서 바로 제공하는 OCR에는 테서랙트(Tesseract), 구글(Google), 트랜스크리버스(Transkribus)가 있으며, 이 중 테서랙트와 구글 OCR은 한국어를 지원합니다.

각 OCR 도구에는 장단점이 있으며, 모든 상황에서 완벽하게 작동하지는 않습니다. 또한 스캔 파일의 상태·배열 등에 따라 제일 잘 인식하는 도구가 다를 수도 있습니다.

테서랙트

[편집]

테서랙트는 2006년부터 개발된 OCR 소프트웨어로, 위키문헌에서 "기본값"으로 사용하고 있습니다.

일반적인 한국어 가로쓰기에 더불어 세로쓰기를 인식할 수 있게끔 설정할 수 있으며, 구글 OCR에 비해 문단 구분을 더 잘 하는 모습을 보입니다. 다만 문자 오류는 더 많으며, 국한문 혼용의 경우 한자를 완전히 인식하지 못합니다.

구글

[편집]

구글 클라우드 비전 API를 이용하는 OCR 서비스입니다. 위키미디어에 도구가 내장된 것이 아니라 API를 이용해 이미지를 구글에 업로드하여 처리하는 방식으로 작동합니다.

한국어를 지원하며, 전체적으로 전사 품질이 제일 높습니다. 다만 문단 구분이 거의 이루어지지 않아 모든 줄바꿈을 그대로 남기는 단점이 있습니다.

트랜스크리버스

[편집]

트랜스크리버스는 유럽연합의 지원을 받아 인스부르크 대학교에서 개발한 OCR 플랫폼으로, 손글씨 인식에 특화되어 있습니다. 다만 한국어를 지원하지 않기 때문에 한국어 위키문헌에서 큰 쓸모가 없습니다.

사용법

[편집]

페이지 문서

[편집]

자동 전사

[편집]
파일에 이미 텍스트 레이어가 있는 경우 편집기에서 이를 바탕으로 한 문자 인식 결과물을 불러옵니다. 이 예시 화면에는 문서 생성하기를 누른 후 원래는 비어 있어야 할 좌측의 편집창에 이미 문자 인식을 한 결과물이 입력되어 있는 것을 볼 수 있습니다.

전사하는 PDF·DjVu 파일에 이미 텍스트 레이어가 있는 경우 페이지 문서를 처음 생성할 때 텍스트 입력창에 인식 결과물이 미리 입력된 상태로 표시됩니다. 전사 작업은 이 텍스트의 순서를 적절히 바꿔주고 형식(위키 문법)을 적용하는 식으로 다듬어주기만 하면 됩니다.

종종 한국어를 인식하지 못하는 OCR 엔진으로 텍스트 레이어가 만들어진 경우가 있는데, 이러면 의미가 없는 수준으로 텍스트 품질이 좋지 않을 수 있습니다. 이럴 때는 결과를 전부 지우고 밑처럼 수동으로 다시 인식시키는 것이 더 나을 수도 있습니다.

수동 전사

[편집]

자동 전사가 되지 않더라도 페이지 문서 오른쪽 위에 있는 "텍스트 추출" 버튼()을 직접 누르면 OCR을 사용할 수 있으며, 인식한 텍스트는 왼쪽 편집창에 표시됩니다. 이 때 원래 입력되어 있는 텍스트는 전부 지워지므로 조심해 주십시오.

기본값은 테서랙트 엔진이나 아래 화살표 버튼을 눌러 나오는 설정 메뉴에서 사용할 OCR 엔진을 바꿀 수 있습니다. 트랜스크리버스는 한국어를 지원하지 않고 테서랙트도 간혹 한국어를 인식하지 못하는 경우가 있어 실질적으로 구글을 제일 많이 사용합니다.

위키미디어 OCR

[편집]
위키미디어 OCR 페이지의 모습.
위키미디어 OCR 페이지의 이미지 자르기 도구 버튼.

위키미디어 OCR 도구는 텍스트 추출 버튼의 "고급 옵션"을 눌러 표시할 수 있으며, 직접 접속한 다음 이미지 파일의 URL을 입력하는 방식으로도 사용할 수 있습니다. 페이지 문서에서 "고급 옵션" 버튼으로 접근하는 경우 그 페이지 문서의 이미지를 자동으로 사용합니다.

여기에서도 구글, 테서랙트, 트랜스크리버스 OCR을 사용할 수 있습니다. 구글 엔진의 경우 위키문헌 내부와 거의 똑같으나, 테서랙트 엔진은 인식 설정을 더 상세히 해 줄 수 있습니다. 자세한 내용은 관련 문서를 참조해 주십시오.

아래쪽 이미지 영역에서 자르기 도구를 이용해 인식할 영역을 좁힐 수도 있습니다. 이 때는 위의 "복사" 버튼 대신 "Transcribe area" 버튼을 눌러야 합니다. 전체로 인식시켰을 때는 읽지 못하는 글자라도 이를 이용해 그 한 글자만을 인식시키면 인식하는 경우가 있어, 어려운 한자 등 한두 글자를 모르겠는 경우 유용하게 사용할 수 있습니다.

사용 시 주의점

[편집]

OCR 도구는 굉장히 유용하지만 완벽하지는 않습니다. 인식한 텍스트를 사용할 때는 원문(스캔 파일)과 일치하는지 한 번은 반드시 확인해 주십시오.

문자 대체·미인식·생략

[편집]

OCR의 종류를 가리지 않고 모양이 비슷한 다른 글자로 인식하거나 완전히 생략해버리는 상황이 자주 일어납니다. 눈치채기 힘든 경우도 있는 만큼, 인식 결과물을 교정할 때 특별히 주의해 주어야 합니다. 자주 일어나는 대표적인 사례로는 다음이 있습니다.

  1. 한자: 모양이 비슷해 보이는 다른 한자로 적거나 아에 사라지는 경우가 있습니다. 이 경우 위키미디어 OCR 도구에서 영역을 좁혀 인식해보는 것이 도움이 되나, 완전히 불가능하여 외부 한자사전 등의 도움을 받아야 하는 경우도 있습니다.
    • 이 경우 한자를 사용하는 다른 언어(일본어, 중국어)로 OCR 설정을 바꾸면 도움이 되는 경우가 있습니다.
    • 위키미디어 OCR 도구에서 영역을 좁히는 방법으로 해당 한자만을 넣고 인식시키면 인식될 확률이 더 높아집니다.
  2. 옛한글: 완전히 인식하지 못합니다. 없는 글자처럼 건너뛰는 경우가 많습니다.
  3. 오타·맞춤법 차이: 종종 현대 맞춤법에 맞게끔 바뀝니다.
    • 예시) 있읍니다있습니다로 적는 식입니다.
    • 사람이 읽을 때는 자연스러워 보이므로 틀렸다는 것을 알아채기조차 굉장히 어렵습니다.
  4. 특수 문자: 복잡한 특수 문자의 경우 바꾸어 인식하기도 합니다.
    • 예시 1) (줄임표)를 ...(온점 3개)로 적는 경우.
    • 예시 2) (고리점)을 같은 역할인 .(일반 온점)으로 적는 경우.

띄어쓰기·개행·단 구성

[편집]

OCR 결과물은 일반적으로 띄어쓰기가 원본과 많이 다르며, 줄바꿈도 맥락에 따라서가 아닌 원본의 형태적 줄바꿈을 그대로 따라갑니다. 또한 텍스트가 두 단 이상으로 나누어진 경우 OCR 도구가 페이지 가운데에서 줄이 바뀌는 것을 이해하지 못하고 한 줄처럼 적기도 합니다. 테서랙트 엔진 등에서 이를 교정할 수도 있지만 완전하지 못하므로, 최종 교정 과정에서 이를 반드시 수정해주어야 합니다.

같이 보기

[편집]

외부 OCR

[편집]