Recent Posts
Recent Comments
Space Shift !
Tesseract-ocr 이미지 프로세싱 본문
웹크롤링을 하는중 이미지에서 글씨를 추출할 필요가 생겼다.
docker에 Ubuntu가 깔려있어 바로 설치
- tesseract 설치
# tesseract-ocr 4.x.x 설치
apt install tesseract-ocr
apt install libtesseract-dev
# 언어팩위치
https://github.com/tesseract-ocr/tessdoc/blob/main/Data-Files.md
wget https://github.com/tesseract-ocr/tessdata/raw/4.00/eng.traineddata
wget https://github.com/tesseract-ocr/tessdata/raw/4.00/kor.traineddata
# tesseract-ocr 4.x.x 설치 확인
tesseract --version
# tesseract-ocr 언어팩 설치 확인
tesseract --list-lanags
- python에서 사용을 위해 설치
pip install tesseract
pip install tesseract-ocr
이상한 에러가 중간에
Comments