위키문헌:테서랙트 OCR
보이기
| 이 문서에서 설명하는 소도구는 위키미디어 OCR 도구로 통합되었으며, 더 이상 사용을 권장하지 않습니다. |
테서랙트 OCR 도구는 Tesseract.js OCR 엔진을 이용해 스캔 이미지에서 텍스트를 추출합니다. 도구 적용 시 페이지 이름공간의 편집창에 테서랙트 OCR을 호출할 수 있는 버튼이 생깁니다.
지원 언어가 많지는 않으나 한국어는 지원합니다.
설정
[편집]자신의 사용자문서의 common.js에 다음 문구를 추가하면 바로 사용할 수 있습니다.
mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );
만약 텍스트를 한국어로 번역해 표시하고 싶다면 대신 다음 문구를 추가하면 됩니다.
var tesseractOcrI18n = {
'loading tesseract core': '테서랙트 코어 로드 중',
'initializing tesseract': '테서랙트 시작 중',
'loading language traineddata': '언어 학습 데이터 로드 중',
'initializing api': 'API 시작 중',
'recognizing text': '텍스트 인식 중',
'no text': '테서랙트에서 반환한 텍스트 없음',
'image not found': '이미지를 찾을 수 없음',
'button label': '테서랙트 OCR로 텍스트 추출',
'loading indicator': '움직이는 그림으로 로드 상황 표시',
};
mw.loader.load( '//wikisource.org/w/index.php?title=User:Putnik/TesseractOCR.js&action=raw&ctype=text/javascript' );
여기에서 작은따옴표 안에 들어간 글씨를 직접 고치면 표시되는 문구를 바꿀 수 있습니다.
표시 버튼
[편집]편집창 상단에 표시되는 테서랙트 OCR용 버튼의 모습은 다음과 같습니다.