Python에서 Tesseract 사용하기

 

·       Version : MAC OS, Python 3.X, PIP3

 

이전 포스트에서 Tesseract 오픈소스 소프트웨어를 사용하여 이미지에 포함된 문자열을 추출하는 방법에 대해서 알아 보았다.

·       Tesseract 활용한 이미지 문자인식 : https://sungwookkang.com/1475

 

다른 포스트에도 언급한바 있지만, 이미지의 경우 배경 색상이나, 글꼴, 언어 타입에 따라 인식률에 차이가 크므로, 전처리 과정이 수반되어야 어느정도 정확도를 높일 있다. OpenCV 오픈소스로 공개된 다양한 이미지 처리 모듈을 사용하기 위해서는 파이썬을 활용할 있는데, 시작으로 파이썬에서 Tesseract 임포트하여 사용하는 방법을 설명한다. 이번 포스트의 내용을 따라하기 전에, Tesseract 프로그램이 설치되어 있어야 한다.

 

Python3.X PIP3 설치 한다. 그리고 아래 명령을 사용하여 Tesseract패키지를 설치 한다. 설치과정에서 Permission 문제가 발생하면 –user 명령을 함께 사용한다.

pip3 install pytesseract --user

pip3 install opencv-python --user

 

Python3 실행하여 아래 코드를 작성한다.

from PIL import Image

from pytesseract import *

import re

import cv2

 

img = Image.open('이미지파일명')

 

text = pytesseract.image_to_string(img,lang='euc') #한글은 'kor'

#간혹 lang 오류가 발생할경우, lang 파라메터 제거

#text = pytesseract.image_to_string(img)

 

print(text)

 

아래 결과는 인터넷에서 어느 식당에서 메뉴 사진을 찍은 이미지에서 메뉴와 가격을 추출한것이다. 아직 데이터가 정제되지 않은 상태이며 한글과 영어가 섞여 있는데, 한글은 판독하지 못한것을 확인할 있다.

 

실제 추출된 문자열에서 데이터로 활용하려면, 이미지 인식 개선, 다양한 문자열 인식, 데이터 가공을 통한 유요한 데이터 추출 등의 작업이 추가되어야 한다. 이러한 작업을 하나의 프로그램으로 만들기 위해서 오늘 실습한 코드에서 점진적으로 코드가 추가될 예정이다.

 

 

2020-12-18/ Sungwook Kang / http://sungwookkang.com

 

이미지 인식, OCR, Tesseract, 문자열 인식, OpenCV, 딥러닝, 머신러닝, 글자 인식, 이미지 분석, 파이선, 파이썬, python

 

Tesseract 활용한 이미지 문자인식

 

Tesseract 이미지로부터 텍스트를 인식하고 추출하는 소프트웨어이며 HP 연구에서에서 개발된 오픈소스 OCR 엔진이다. 현재까지도 LSTM(Long short-term memory) 같은 딥러닝 방식을 통해 텍스트 인식률을 지속적으로 개선하고 있다. Tesseract 사용하기 위해서는 관련 프로그램을 설치 해야한다. 프로그램은 아래 주소에서 다운로드 받을 있다.

·       https://github.com/tesseract-ocr/tesseract/wiki

 

필자의 경우 MAC OS에서 설치를 진행하였으며 home brew 사용하여 설치 하였다.

brew install tesseract

 

brew 설치한 경우 아래 명령으로 설치된 경로를 확인할 있다.

brew list tesseract

 

 

설치가 완료 되었으면, 이미지 파일을 읽어 문자열을 출력하도록 한다. 배경색상과 글자색상에 따른 이미지 인식률을 확인하기 위해 3가지 케이스를 테스트하였다. 실행명령은 아래와 같다.

tesseract /이미지경로/파일명 stdout

 

Image

Results

 

출력 결과를 살펴보면, 배경색과 글자색의 대비가 높을 수록 높은 인식률을 나타내고 있다. 또한 이미지속의 글자가 단순하고, 글꼴에 따라서도 인식률이 다르게 나타나는것을 확인할 있다. 글에는 포함되어 있지 않지만, 한글과 영어에 따른 인식률 차이도 발생함을 확인할 있었다.

이처럼 전체 텍스트 구조를 분석하고 인식하는 과정에 다양한 오차가 발생하기 때문에, 이미지의 인식률을 높이기 위한 전처리 과정이 필요하며, 대표적으로 OpenCV 사용하여 배경과 글자를 분리하여  작업을 진행할 있다.

 

 

 

2020-12-17/ Sungwook Kang / http://sungwookkang.com

 

이미지 인식, OCR, Tesseract, 문자열 인식, OpenCV, 딥러닝, 머신러닝, 글자 인식, 이미지 분석

 

과대적합(Over fitting) 과소적합(Under fitting)

 

머신러닝에서 학습과정은 패턴을 발견하기 위해 모델링을 만드는 단계라고 있다. 일반적으로 모델을 만들 때에는 데이터를, 트레이닝 데이터 (training) 테스트 데이터(test) 나누어 사용한다.  트레이닝 데이터를 반복적으로 학습함으로써 테스트 데이터 또는 실제 데이터와 가장 유사한 결과를 만들어 내는 것을 목표로 하고 있다.

하지만 트레이닝 데이터와 테스트 데이터가 비슷하다면 모델의 정확도는 매우 높게 나올 것이다. 하지만 모델이 복잡하다면 트레이닝 데이터와 테스트 데이터의 결과는 다르게 나타날 확률이 높다. 일반적으로 트레이닝 데이터는 실제 데이터를 샘플링 하거나 특정 패턴을 인식시키기 위한 데이터로 트레이닝 데이터에 최적화 되어있으면 실제 데이터에서 오차가 발생할 확률이 크다. 그래서 트레이닝 데이터에 대해서는 높은 정확도를 나타내지만 새로운 데이터에 대해서 예측을 하지 못하는 것을 과대적합(Overfitting )이라고 하며, 반대로 트레이닝 데이터 조차도 정확한 결과를 도출하지 못하면 과소적합(Underfitting)이라고 한다. 과대적합과 과소적합 사이에서 최적화된 절충점을 찾아 모델을 만드는 것이 매우 중요하며 트레이닝 데이터에서 생성된 모델이 일반 데이터에 대해 정확하게 예측되는 모델을  일반화(Generalization) 되었다라고 한다.

 

아래 그림은 과소적합(Under fitting) 과대적합(Over fitting) 이해를 돕기 위해 그림으로 나타낸 것이다.  과소적합의 경우 데이터를 충분히 반영하지 못해(샘플 개수가 충분하지 않는 경우)  잡음이 많이 섞여 있으며, 과대적합의 경우 불필요한 잡음(noise) 과도하게 모델링에 반영한 상태이다. 우리는 어느정도 오류(noise) 허용할지 결정하면서 최적의 모델 값을 도출해야 한다.

 

 

과대적합이나 과소적합의 문제를 최소화하고 정확도를 높이는 가장 좋은 방법은 많고 다양한 데이터를 확보하고, 데이터에서 다양한 특징(feature)들을 찾아서 학습에 사용하는 것이다. , 트레이닝 데이터에 따라, 생성된 모델의 정확도가 결정되므로 트레이닝 데이터 세트를 만드는 것이 중요하다.

 

 

 

[참고자료]

https://brunch.co.kr/@gimmesilver/44

https://ko.d2l.ai/chapter_deep-learning-basics/underfit-overfit.html

 

 

2020-03-18/ Sungwook Kang / http://sungwookkang.com

 

 

인공지능,  Artificial Intelligence, 머신러닝, Machine Learning, 딥러닝, Deep Learning, 과대적합, 과소적합, Over fitting, Under fitting

경사 하강법(Gradient Descent)

 

경사 하강법(Gradient Descent) 머신러닝 딥러닝 알고리즘을 학습시킬때 사용하는 방법 하나이며 1 근삿값 발견용 최적화 알고리즘이다. 기본 개념은 함수의 기울기(경사) 구하여 기울기가 낮은 쪽으로 계속 이동시켜 극값(최적값) 이를 때까지 반복하는 것이다.

 

 

해당 함수의 최소값 위치를 찾기 위해 비용 함수(Cost Function) 경사 반대 방향으로 정의한 Step Size 가지고 조금씩 움직여 가면서 최적의 파라미터를 찾으려는 방법이다. 여기에서 경사는 파라미터에 대해 편미분한 벡터를 의미하며 파라미터를 반복적으로 조금씩 움직이는 것이 관건이다.

 

 

경사 하강법에서는 학습시 스텝의 크기 (step  size) 중요하다. 학습률이 너무 작을 경우 알고리즘이 수렴하기 위해 반복해야 하는 값이 많으므로 학습 시간이 오래걸린다. 그리고 지역 최소값(local minimum) 수렴할 있다. 반대로 학습률이 너무 경우 학습 시간은 적게 걸리나, 스텝이 너무 커서 전역 최소값(global minimum) 가로질러 반대편으로 건너뛰어 최소값에서 멀어질 있다.

 

경사 하강법에도 약점이 있다. 경사 하강법은 현재 위치에서의 기울기를 사용하기 때문에 지역 최소값에 빠질 있다. 또한 무작위 초기화(random initialization) 인해 알고리즘이 전역 최소값이 아닌 지역 최소값에 수렴할 있다. 또한 평탄한 지역을 지나기 위해서 시간이 오래 걸리고 일찍 멈추어서 전역 최소값에 도달하지 못할수도 있다.

 

이와 같은 문제점을 해결하기 위해 사용하는 방법이 모멘텀이다. 쉽게 말해 기울기에 관성을 부과하여 작은 기울기는 쉽에 넘어갈 있도록 만든것이다. , 공을 예로 들면 언덕에서 공을 굴렸을때, 낮은 언덕은 공의 관성을 이용하여 쉽게 넘어갈 있게 하여 지역 최소값을 탈출 있게 한다는 뜻이다.

 

모멘텀을 사용하지 않으면 아주 작은 언덕에도 빠져나오지 못할 있으며 기울기가 매우 작은 구간을 빠져나오는데에는 아주 오랜 시간이 걸린다.

 

경사 하강법은 전체 데이터를 모두 사용해서 기울기를 계산(Batch Gradient Descent)하기 때문에 학습하는데 많은 시간이 필요하다. 만약 10만개의 데이터가 있을때, 데이터에 업데이트가 있을 마다 10만번의 계산을 해야한다. 그래서 학습 데이터가 경우 부담이 있다. 이러한 느린점을 보완하기 위해서 확률적 경사 하강법(Stochastic Gradient Descent) 사용한다. 방법은 step에서 한개의 샘플을 무작위로 선택하고 하나의 샘플에 대한 기울기를 계산한다. 확률적 경사 하강법은 아래와 같은 특징이 있다.

·       매우 적은 데이터를 처리하기 때문에 학습 속도가 빠름

·       하나의 샘플만 메모리에 있으면 되기 대문에 데이터셋도 학습이 가능

·       Cost function 매우 불규칙할 경우 알고리즘이 local minimum 건너뛰도록 도와주어 global minimum 찾을 가능성이 높음

·       샘플이 선택이 확률적(Stochastic)이기 때문에 배치 경사 하강법에 비해 불안정

·       Cost function local minimum 이를때 까지 부드럽게 감소하지 않고 위아래로 요동치며 평균적으로 감소

 

 

이외에도 Mini-batch Gradient Descent  방식이 있다. 방식은 임의의 작은 샘플세트에 대해 gradient 계산하여 SGD(Stochastic Gradient Descent) 비해 matrix 연산에 최적화되어 있으며 파라미터 공간에서 불규칙하게 학습한다. 하지만 local minimum 빠지면 빠져나오기 힘든 단점이 있다.

 

 

[참고자료]

·       https://ko.wikipedia.org/wiki/%EA%B2%BD%EC%82%AC_%ED%95%98%EA%B0%95%EB%B2%95

·       https://m.blog.naver.com/PostView.nhn?blogId=2011topcit&logNo=220563609607&proxyReferer=https%3A%2F%2Fwww.google.com%2F

·       https://jaehyeongan.github.io/2019/04/23/%EA%B2%BD%EC%82%AC%ED%95%98%EA%B0%95%EB%B2%95-Gradient-Descent/

·       https://bskyvision.com/411

 

 

 

2020-03-15/ Sungwook Kang / http://sungwookkang.com

 

 

인공지능,  Artificial Intelligence, 머신러닝, Machine Learning, 딥러닝, Deep Learning, 경사 하강법, Gradient Descent, 경사 감소법

+ Recent posts