Space Shift !

Tesseract-ocr 이미지 프로세싱 본문

레벨업(level up)/Python

Tesseract-ocr 이미지 프로세싱

레이필 2022. 4. 15. 09:34

웹크롤링을 하는중 이미지에서 글씨를 추출할 필요가 생겼다.

docker에 Ubuntu가 깔려있어 바로 설치

 

  • tesseract 설치
# tesseract-ocr 4.x.x 설치
apt install tesseract-ocr
apt install libtesseract-dev

# 언어팩위치
https://github.com/tesseract-ocr/tessdoc/blob/main/Data-Files.md
wget https://github.com/tesseract-ocr/tessdata/raw/4.00/eng.traineddata
wget https://github.com/tesseract-ocr/tessdata/raw/4.00/kor.traineddata

# tesseract-ocr 4.x.x 설치 확인
tesseract --version

# tesseract-ocr 언어팩 설치 확인
tesseract --list-lanags

 

  • python에서 사용을 위해 설치
pip install tesseract
pip install tesseract-ocr

이상한 에러가 중간에 

Comments