[Python] 사과게임 이미지에서 숫자 추출하기

by yhames 2024. 3. 7.

사과게임을 하다가 모든 사과를 다 제거할 수 있는 맵이 존재하는지 궁금해서

파이썬으로 해당 맵을 체크할 수 있는지 확인하는 프로그램을 작성하려고 한다.



구글 드라이브 연동

from google.colab import drive


개발환경은 간단하게 Colab을 이용했으며, 환경 구성을 위해 구글 드라이브를 연동하고 OpenCV와 Tesseract 등을 추가적으로 설치했다.

OpenCV 및 Tesseract 설치

!pip install opencv-python
!sudo apt install tesseract-ocr
!pip install pytesseract


OpenCV는 실시간 컴퓨터 비전을 목적으로 하는 오픈소스 라이브러리이다. C/C++ 언어로 개발되었으며 파이썬, 자바 등에 바인딩되어 다양한 환경에서 사용 가능하다. 사과게임에서 숫자 이미지를 텍스트로 변환하기 전에 인식이 잘 될수 있도록 전처리를 하기위해 사용했다.

Tesseract는 다양한 운영체제에서 사용할 수 있는 광학 문자 인식 엔진이다. C++ 언어로 작성되었으며, 파이썬 환경에서 사용할 수 있도록 pytersseract 라이브러리를 설치했다. 숫자 이미지를 텍스트로 변환하기 위해 사용했지만 인식률이 좋지 않아서 포기했다. 추후에 언어 데이터 혹은 모델을 학습시키는 등 인식률을 높이는 방법들을 알아보면 좋을 것 같다.


WARNING: The following packages were previously imported in this runtime:  
You must restart the runtime in order to use newly installed versions.



Colab 환경에서 OpenCV와 Tesseract를 설치하면 다음과 같은 경고메시지가 나오면서 제대로 설치가 되지 않는데, RESTART RUNTIME을 클릭하여 런타임을 재실행하면 된다.


import cv2
from google.colab.patches import cv2_imshow
import pytesseract
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

print(f"cv2 {cv2.__version__}")
print(f"pytesseract {pytesseract.__version__}")
cv2 4.6.0
pytesseract 0.3.10


Colab 환경에서 imshow() 함수를 사용하면 다음과 같은 에러가 발생한다.


DisabledFunctionError: cv2.imshow() is disabled in Colab, because it causes Jupyter sessions
to crash; see https://github.com/jupyter/notebook/issues/3935.
As a substitution, consider using
  from google.colab.patches import cv2_imshow


Jupyter Notebook에서 imshow()를 사용하면 Jupyter session이 충돌되는 이슈로 Colab에서는 이를 대신하여 google.colab.patches에서 cv2_imshow()를 제공한다.

Colab에서 제공하는 클라우드 환경이 아니라 로컬 Jupyter Notebook 환경이라면 matplotlib.pyplot에서 제공하는 imshow()를 사용하거나 cv2_imshow()에서 PIL 라이브러리를 활용하는 코드를 활용하면 될 것 같다.
그 외에도 cv2.waitKey(0)와 cv2.destroyAllWindows()을 활용하여 해결하는 방법도 있다.
 How to use OpenCV imshow() in a Jupyter Notebook — Quick Tip

이미지에서 숫자 추출하기

1. pytesseract를 이용한 문자인식

1.1. 이미지 가져오기

img_path = "/content/drive/MyDrive/apple/apple.png"
img_cv = cv2.imread(img_path)

imread(const string & filename, int flags)
  • filename : Name of file to be loaded
  • flags : Flag that can take values of cv::ImreadModes |

OpenCV에서는 이미지를 BGR 형식의 numpy 배열로 이미지를 저장한다. matplotlib 등 일반적인 색배열은 RGB를 사용하기 때문에, 이를 일반적으로 출력하면 Blue와 Red가 뒤바뀌게 된다.


from IPython import display
import PIL


array([[[239, 254, 241], 
        [239, 254, 241],
        [239, 254, 241],
        [239, 254, 241],
        [239, 254, 241],
        [239, 254, 241]],
       [[208, 245, 219],
        [208, 245, 219],
        [208, 245, 219],
        [216, 247, 224],
        [232, 251, 236],
        [239, 254, 241]]], dtype=uint8)


따라서 matplotlib 등 다른 라이브러리를 사용하기 위해서는 BGR 배열을 RGB로 바꿔줘야한다. google.colab.patches에서 제공하는 cv2_imshow() 또한 pillow(PIL)를 사용하기 때문에 BGR을 RGB로 변환하여 이미지를 출력한다.


from IPython import display
import PIL
img_rgb = cv2.cvtColor(img_cv, cv2.COLOR_BGR2RGB)


array([[[241, 254, 239],
        [241, 254, 239],
        [241, 254, 239],
        [241, 254, 239],
        [241, 254, 239],
        [241, 254, 239]],
       [[219, 245, 208],
        [219, 245, 208],
        [219, 245, 208],
        [224, 247, 216],
        [236, 251, 232],
        [241, 254, 239]]], dtype=uint8)


1.2. 이미지 흑백 및 블러처리

노이즈를 줄이고 연산속도를 향상시키기 위해서 이미지를 흑백 및 블러처리.
imread()의 flag를 IMREAD_GRAYSCALE 혹은 0으로 설정하는 방법도 있다.

# img_path = "/content/drive/MyDrive/apple/apple.png"
# img_gray = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
img_gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)
img_blurred = cv2.GaussianBlur(img_gray, (5,5), 0)


1.3. 이미지 임계처리

img_adaptiveThreshold = cv2.adaptiveThreshold(
    img_blurred, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV, 61, -60


1.4. 이미지 팽창 및 침식

# img_morphologyEx = cv2.morphologyEx(img_adaptiveThreshold, cv2.MORPH_CLOSE, k)
# cv2_imshow(img_morphologyEx)

k = cv2.getStructuringElement(cv2.MORPH_RECT, (1,1))
k2 = cv2.getStructuringElement(cv2.MORPH_RECT, (3,3))
img_dilate = cv2.dilate(img_adaptiveThreshold, k)
img_erode = cv2.erode(img_dilate, k2)


1.5. 텍스트 추출

text = pytesseract.image_to_string(img_morphologyEx, config="--psm 6").replace(" ", "")




4번째 줄을 보면 숫자 이미지가 노이즈때문에 제대로 인식이 안되어서 숫자 추출이 실패했다.

노이즈를 줄일 수 있는 방법을 찾아보다가 어차피 숫자 이미지가 정해져있다는 생각이 들어서

차라리 숫자 이미지를 사용해서 숫자를 추출하는 방식이 좋을 것 같다고 생각했다.

2. 추출된 숫자 이미지로 탬플릿 매칭

2.1. 이미지 엣지검출

img_canny = cv2.Canny(img_gray, 100, 200)

2.2. 이미지 윤곽처리

cnts, hierarchy = cv2.findContours(img_canny, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

img_rect = img_cv.copy()

for i in range(len(cnts)):
    cnt = cv2.boundingRect(cnts[i])
    x,y,w,h = cnt
    rect_area = w*h
    aspect_ratio = (float)(w)/h

    if(aspect_ratio<0.8) and (aspect_ratio>0.2) and (rect_area > 300) and (rect_area < 600):
        cv2.rectangle(img_rect, (x,y), (x+w,y+h), (255,0,0), 2)

array = set(array)
print(f"array {len(array)}")
    raise Exception("중복 인식된 사과가 있습니다.")


2.3. 숫자 이미지 추출

i=23 # 1-9까지 하나씩 해야함...
img_crop = img_cv[array[i][1]:array[i][1]+array[i][3],array[i][0]:array[i][0]+array[i][2]]

2.4. 추출된 숫자 이미지로 좌표 데이터 확인

for i in range(9,0,-1):
    one_path = f"/content/drive/MyDrive/apple/사과/{i}.jpg"
    tmplt = cv2.imread(one_path,0)
    w, h = tmplt.shape[::-1]

    result = cv2.matchTemplate(img_gray, tmplt, cv2.TM_CCOEFF_NORMED)
    threshold = 0.99 # 임계치 설정
    box_loc = np.where(result >= threshold) # 임계치 이상의 값들만 사용

    img_rect = img_cv.copy()

    for box in zip(*box_loc[::-1]):
        startX, startY = box
        endX, endY = startX + w, startY + h
        cv2.rectangle(img_rect, (startX, startY), (endX, endY), (255,0,0), 2)

    raise Exception("중복 인식된 사과가 있습니다.")


plt.scatter(data[:,-2], data[:,-1])


2.5. 좌표 데이터 정규화

df = pd.DataFrame(data)
df.columns = ["weight", "x", "y"]

scalerX = MinMaxScaler((0,16))
scalerY = MinMaxScaler((0,9))

df['x'] = scalerX.fit_transform(df["x"].values.reshape(-1,1))
df['y'] = scalerY.fit_transform(df["y"].values.reshape(-1,1))

df = df.round(0).astype(int)

plt.xlim([-1, 17])      # X축의 범위: [xmin, xmax]
plt.ylim([-1, 10])     # Y축의 범위: [ymin, ymax]

plt.scatter(df['x'], df['y'])


2.6. 좌표 데이터 2차원 배열

apple = np.zeros((10,17), dtype=tuple)
for i in range(len(df)):
    n,x,y = df.loc[i]
    apple[y][x] = (i, n)

for i in apple:
    for j in i:
        print(j[1], end=" ")


6 6 2 9 2 6 9 1 3 2 3 8 3 4 3 1 8 
8 9 3 5 8 4 7 9 5 3 5 8 1 3 1 5 6 
2 2 5 7 5 9 4 5 3 8 4 5 9 5 8 8 9 
7 4 3 8 2 6 6 5 7 2 5 5 2 5 3 1 4 
6 5 7 2 2 7 5 1 1 9 6 4 8 8 5 3 4 
5 2 1 4 9 2 5 2 4 9 8 5 5 3 6 7 2 
4 1 5 8 3 2 5 2 1 7 3 1 4 1 9 6 4 
7 3 4 7 1 9 6 6 4 8 7 5 2 8 7 8 4 
5 4 9 1 8 7 9 1 6 9 1 6 3 9 8 6 1 
2 6 2 8 7 4 4 4 4 5 5 4 4 8 7 2 8