본문으로 이동

위키문헌:테서랙트 OCR

위키문헌, 우리 모두의 도서관.
테서랙트 OCR

테서랙트 OCR 도구는 Tesseract.js OCR 엔진을 이용해 스캔 이미지에서 텍스트를 추출합니다. 도구 적용 시 페이지 이름공간의 편집창에 테서랙트 OCR을 호출할 수 있는 버튼이 생깁니다.

지원 언어가 많지는 않으나 한국어는 지원합니다.

설정

[편집]

자신의 사용자문서의 common.js에 다음 문구를 추가하면 바로 사용할 수 있습니다.

mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );

만약 텍스트를 한국어로 번역해 표시하고 싶다면 대신 다음 문구를 추가하면 됩니다.

var tesseractOcrI18n = {
	'loading tesseract core': '테서랙트 코어 로드 중',
	'initializing tesseract': '테서랙트 시작 중',
	'loading language traineddata': '언어 학습 데이터 로드 중',
	'initializing api': 'API 시작 중',
	'recognizing text': '텍스트 인식 중',

	'no text': '테서랙트에서 반환한 텍스트 없음',
	'image not found': '이미지를 찾을 수 없음',
	'button label': '테서랙트 OCR로 텍스트 추출',
	'loading indicator': '움직이는 그림으로 로드 상황 표시',
};

mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );

여기에서 작은따옴표 안에 들어간 글씨를 직접 고치면 표시되는 문구를 바꿀 수 있습니다.

표시 버튼

[편집]

편집창 상단에 표시되는 테서랙트 OCR용 버튼의 모습은 다음과 같습니다.

  • , ,

같이 보기

[편집]