1.서 론
디지털화가 일반화됨에 따라 서류를 디지털 형태로 보 관하는 경우가 증가하고 있다. 그 방법 중의 하나가, 인쇄 된 서류를 스캔닝하여 보관하는 방법이다. 서류를 스캐닝 할 때 부딪히는 가장 일반적인 문제는 여러 가지 이유로 스캔된 이미지에 노이즈가 포함된다는 사실이다. 예를 들 면, 저 해상도의 기기로 기록하거나, 스캔되는 문서가 고 정되어 있지 않을 때, 이미지에 노이즈가 포함된다. 이미 지에 포함되는 노이즈 중의 하나가, 마치 소금과 후추를 뿌려놓은 것처럼, 검은 점과 흰 점이 이미지 전체에 뿌려 져 있는 흑백 점잡음(salt and pepper noise)이다[4]. 특히 디지털화된 문서 이미지를 자세히 살펴보면, 컬러, 회색 톤, 흑백 문서를 불문하고, 이러한 흑백 점잡음이 포함되 어 있는 경우를 발견할 수 있다[4, 9]. 흑백 점잡음이 포함 된 이미지에서는 노이즈의 영향을 줄이기 위하여, 노이즈 제거 필터[9]를 사용하거나, 그레이스케일(grayscale)로 변 환한 후[12] 잡음의 영향을 축소하는 방법을 사용해왔다.
문자인식시스템은 전처리(pre-processing), 문자 이미지 분리, 문자 인식, 이렇게 크게 3단계로 구분된다[2]. 전처 리 단계에서는 배경잡음 제거, 크기조정(scaling), 문자 비 틀림의 조정 등을 통하여, 읽어 들인 문서에 내재된 여러 변동성을 줄여 후속 단계의 성능 개선을 도모한다. 문자 이미지 분리 과정은 문자의 경계를 올바르게 인식하여, 그 결과를 다음 단계로 넘긴다. 문자 인식 단계에서는 신경 망 모형, Hausdorff 거리 모형, 서포트 벡터 머신(Support Vector Machine) 모형, 탬플릿 매칭(Template Matching) 모형 등을 사용하여 문자를 인식한다[2]. 일반적으로, 전 처리 단계에서 노이즈를 제거 하여도, 문자 인식 단계의 입력 데이터에 노이즈가 포함되어 있다고 가정하고, 문자 인식을 하는 것이 타당하다.
컬러 이미지의 경우, 명도나 컬러에 관한 데이터를 이 용할 수 있다. 그러나, 흑백 이미지의 경우, 오직 배경 픽 셀과 전경 픽셀만으로 이루어져 있어 명도가 매우 조악 하다. 따라서, 흑백 이미지의 비교는 전경 픽셀 간의 비 교로 이루어진다[1].
문자 인식 단계에서 널리 쓰이는 Hausdorff 거리 모형에 서는 입력된 이미지와 원본 문자 이미지들과의 Hausdorff 거리를 계산하여, 문자를 인식하는 방법이다. 본 논문은 흑백 점잡음이 포함된 흑백 이미지를 입력으로 받아 그레 이스케일로 변환한 다음, 저장된 원본 문자 이미지와의 Hausdorff 거리를 계산하여, 가장 유사한 문자를 찾는 문 제를 다룬다.
흑백 이미지 파일을 그레이스케일 이미지로 변형하면, 노이즈의 강도를 약화시켜, 두 이미지의 매칭을 보다 정 확하게 하여준다. Zhao 등[12]은 흑백 이미지를 그레이스 케일 이미지로 변형한 후 Hausdorff 거리 계산하여, 문자 매칭 문제를 해결하는 방법을 제시하였다. 이 연구에서 노이즈가 추가된 영어 알파벳을 만들어 노이즈가 없는 문 자와 매치 시킬 때, Grayscale Hausdorff 거리가 원래의 Hausdorff 거리보다 우수한 척도임을 보였다. 그러나, 몇 퍼센트의 노이즈가 사용되었는지를 밝히지 않았으며, 오 직 한 수준의 노이즈만을 사용하여, Grayscale Hausdorff 거리가 어느 정도의 노이즈 범위에서 Hausdorff 거리보다 우수한 척도인지도 알 수 없다.
본 논문에서는 새로운 Grayscale Hausdorff 거리를 제시 하고, 흑백 점잡음의 수준에 따라 기존의 Grayscale Hausdorff 거리와 본 논문에서 제시한 Grayscale Hausdorff 거 리를 계산하여, 문자를 정확히 매치하는 비율의 변화를 살펴본다.
2.Hausdorff 거리의 개요
2.1.Hausdorff 거리
Hausdorff 거리는 두 집합의 비일치도(mismatch) 를 측 정하는 비선형 척도로 유클리디언 거리, 맨하탄 거리 등 의 일반적인 거리 함수를 이용하는 최대최소(maxmin) 기 법이다[5]. 두 점 a와 b사이의 거리 d(a, b)를 다음과 같 이 정의하자.
두 개의 유한집합 A = {a1, a2, ⋯, am} 와 B = {b1, b2, ⋯, b3} 가 주어졌을 때, A의 한 점 a 에서 B까지의 Hausdorff 거리 d(a, B )는 다음과 같이 정의된다.
집합 A로부터 집합 B까지의 Hausdorff 거리 h(A, B ) 는 다음과 같이 정의된다.
유사한 방법으로, 집합 B로부터 집합 A까지의 Hausdorff 거리 h(B , A )는 다음과 같이 정의된다.
집합 A와 집합 B사이의 Hausdorff 거리 H(A, B )는 앞에서 구한 h(A, B )와 h(B , A )를 이용하여 다음과 같 이 정의된다.
2.2.Hausdorff 거리의 변형
그러나, Hausdorff 거리는 이상치에 매우 민감하다[4, 12]. 만일 두 유한집합 A와 B의 모든 점들이 완전히 일 치하고, 오직 A의 한 점이 B의 어떤 점에서도 멀리 떨어 져 있다면, Hausdorff 거리는 이 점에 의하여 결정되므로 큰 값을 가지게 되어, 두 유한집합이 아주 다르다는 결론 으로 이끌 수 있다. 이상치에 대한 이러한 민감도를 갖는 Hausdorff 거리는 두 집합 사이의 유사성을 측정하는 척 도로 사용되기에는 치명적인 결함을 가지고 있으므로, 이상치에 대한 민감도를 낮추기 위하여 Hausdorff 거리 를 변형한 여러 방법들이 제안 되었다.
Huttenlocher 등[4]이 제시한, 집합 A로부터 집합 B까지 의 Ranked Hausdorff 거리 hkR (A, B) 는, 집합 A의 각 점으 로부터 집합 B까지의 Hausdorff 거리 중에서 k번째(1 ≤ k ≤ |A|)의 최대값으로 다음과 같이 정의되며, k값의 선 택에 따라 이상치의 영향을 배제할 수 있다.
Dubuisson 등[3]이 제시한, 집합 A로부터 집합 B까지의 Modified Hausdorff 거리 hm (A, B ) 는, 집합 A의 각 점으로 부터 집합 B까지의 Hausdorff 거리의 평균값으로 다음과 같이 정의되며, 이상치의 영향을 감소시키는 효과를 갖 는다.
Modified Hausdorff 거리는 Ranked Hausdorff 거리와는 달리, 파라메터 값을 요구하지 않는 장점이 있다.
Lu 등[7]이 제시한, 집합 A로부터 집합 B까지의 Weighted Hausdorff 거리 hw (A, B ) 는, 집합 A의 각 점으로부터 다음과 같이 집합 B까지의 Hausdorff 거리의 가중평균을 사용하 여 정의되며, 이상치의 영향을 감소시키는 효과를 갖는다.
여기에서 NA = Σa∈A w(a) 이다.
Paumard[8]가 제시한, 집합 A로부터 집합 B까지의 Censored Hausdorff 거리 hc (A, B ) 는, 집합 A의 각 점으로부터 집합 B까지의 거리의 Q번째 랭크된 값들 중에서 P 번째 랭크된 값으로 다음과 같이 정의된다.
이 외에 M-estimation Hausdorff 거리[6, 10], Doubly Modified Hausdorff 거리 [11], Least Trimmed Squared Hausdorff 거리[6, 10] 등이 제시되어 있다.
2.3.Grayscale Hausdorff 거리
흑백 이미지 문자 매칭 문제에서 Hausdorff 거리를 계산 할 때 사용되는 두 개의 집합은 이진수로 표현되는 두 개 의 이미지 파일을 의미한다. 앞 절에서 언급한 Hausdorff 거리들은 기본적으로 이상치가 포함된 이미지 파일을 변 형없이 그대로 두고, Hausdorff 거리의 정의를 변형하여, 문자 매칭 문제를 다루었다.
본 논문에서는 흑백이미지를 그레이스케일 이미지로 변 형한 후 Hausdorff 거리 계산하여, 문자 매칭 문제를 해 결하는 방법을 다룬다. 흑백 이미지 파일을 그레이스케 일 이미지로 바꾸려면, 먼저 window의 크기를 결정해야 한다. 본 논문에서는 3×3 window를 사용한다. 어떤 픽셀 이 검정색일 때, 주변 8개의 픽셀 중에서 검정색의 픽셀 수가 그 픽셀의 그레이스케일 값이 된다. 예를 들어 주변 8개의 픽셀이 모두 검정색이면, 그레이스케일 값은 8이 된다. 만일 주변 8개의 픽셀이 모두 흰색이면 그레이스 케일 값은 0이 된다.
<Figure 1>은 흰 바탕에 검은 픽셀로 나타낸 알파벳 대 문자 A와 B의 이진 이미지를 보여준다. <Figure 1>의 (a) 에 있는 검은 바탕의 흰색 숫자는 이미지 A의 한 점에서 이미지 B까지의 Hausedorff 거리 d(a, B ) 를 나타낸다. 유 사한 방법으로 <Figure 1>의 (b)에 있는 검은 바탕의 흰색 숫자는 이미지 B의 한 점에서 이미지 A까지의 Hausedorff 거리 d(a, B ) 를 나타낸다. <Figure 2>는 3×3 window 를 사용할 때, <Figure 1>의 이미지 파일에 대한 그레이스 케일 값을 검정색 픽셀 위의 흰색 숫자로 보여주고 있다.
그레이스케일 이미지를 사용하여, Zhao 등[12]은 이미지 A로부터 이미지 B까지의 Grayscale Hausdorff 거리 h(A, B) 와 A의 한 픽셀 at 에서 B까지의 Grayscale Hausdorff 거 리 d(at, B) 를 다음과 같이 정의하였다.
여기에서 t는 그 픽셀의 그레이스케일 값을 나타낸다. 이 모형은 A의 한 픽셀 at 에서 B까지의 Grayscale Hausdorff 거리 d(at, B) 를 계산할 때, 동일 그레이스케일 값을 가진 픽셀까지의 최소값뿐만 아니라 ± 1만큼 차이가 나는 그 레이스케일 값을 가진 픽셀까지의 최소값을 반영한다. 이미지 A로부터 이미지 B까지의 Grayscale Hausdorff 거 리 h: (A , B )는 이미지 A의 각 점으로부터 이미지 A까지 의 Hausdorff 거리의 최대치로 정의한다.
<Figure 3>은 이미지 A의 각 픽셀에서 이미지 B까지 의 Grayscale Hausdorff 거리 및 이미지 B의 각 픽셀에서 이미지 A까지의 Grayscale Hausdorff 거리를 나타낸다. <Figure 3>을 이용하여 이미지 A로부터 이미지 B까지의 Grayscale Hausdorff 거리 h(A, B )를 구하면 2가 되고, h(B , A )는 3이 되어, 이미지 A로부터 이미지 B까지의 Grayscale Hausdorff 거리 H(A, B)는 3이 된다.
3.제시 방법론 및 실험 결과
3.1.제시 방법론
본 논문에서는 식 (10) 및 식 (11)로 표현되는 Grayscale Hausdorff 거리를 변형하여, 이미지 A로부터 이미지 B까 지의 Grayscale Hausdorff 거리 h(A, B)와 A의 한 픽셀 at 에서 B까지의 Grayscale Hausdorff 거리 d(at, B) 를 다음 과 같이 정의한다.
이 모형을 Modified Grayscale Hausdorff 거리 모형이라 부르자. 이 모형은 A의 한 픽셀 at 에서 B까지의 Grayscale Hausdorff 거리 d(at, B) 를 계산할 때, 동일 그레이스케일 값을 가진 픽셀까지의 최소값뿐만 아니라 ± 1만큼 차이 가 나는 그레이스케일 값을 가진 픽셀까지의 최소값을 반 영한다는 점에서는 Grayscale Hausdorff 거리와 동일하다. 다만, 이미지 A로부터 이미지 B까지의 Grayscale Hausdorff 거리 h(A, B)는 이미지 A의 각 점으로부터 이미지 B까 지의 Hausdorff 거리의 평균값으로 정의한다는 점에서, 최 대치로 정의하는 Grayscale Hausdorff 모델과 다르다. 이 와 같은 정의를 통하여 이상치의 영향을 감소시킴으로써, 노이즈의 증가에 따라 문자 매칭의 하락비율이 완만해 질 것으로 기대한다.
3.2.실험 결과
본 논문에서는 Adobe Garamond Pro 폰트의 알파벳 스물여섯 글자의 이미지를 원본 문자의 이미지로 사용하 였다. <Figure 4>는 실험에 사용한 노이즈가 없는 원본 문자의 이미지들의 예를 보여준다.
주어진 이미지에 0%에서 10%까지 매 2%씩 픽셀 사 이즈가 1인 흑백 점잡음을 이미지 전체에 랜덤하게 증가 시킨 6세트의 테스트 이미지를 만들었다.
<Figure 5>는 실험에서 사용한 흑백 점잡음이 10%인 이미지들의 예를 보여준다. 이 이미지들에 대하여 다음 4개의 모형을 사용하여 원본 이미지들과의 거리를 계산 한 다음, 거리가 가장 짧은 원본 이미지의 문자를 그 테 스트 이미지의 문자로 매치시킨다.
1)모형 1
기본적인 Hausdorff 거리의 그레이스케일 버전으로 다 음 식으로 표현된다.
2)모형 2
본 논문에서 사용되는 다른 척도와 구별하기 위하여 사용하는 Grayscale Hausdorff 거리의 다른 이름이다. 식 (10)과 식 (11)로 표현된다.
3)모형 3
Modified Hausdorff 거리의 그레이스케일 버전으로 다 음 식으로 표현된다.
4)모형 4
본 논문에서 제시한 Modified Grayscale Hausdorff 거 리 모형으로 식 (12)와 식 (13)으로 표현된다.
본 실험에서는 두 픽셀 사이의 거리 || a - b || 는 다음과 같은 city-block 거리를 사용하였다.
여기에서 ax 는 픽셀 a의 x축 좌표 값이며 ay 는 픽셀 a의 y축 좌표 값이다. 주어진 4개의 Grayscale Hausdorff 거리를 사용하여 노이즈가 포함된 테스트 이미지(0%, 2%, 4%, 6%, 8%, 10%)와 노이즈가 없는 원본 문자의 이미지 사이의 거리를 계산하였다. 노이즈가 0%인 테스트 이미지 의 경우, 4개의 모형 모두 매칭되는 문자를 완벽하게 찾아 냈으나, 노이즈가 있는 경우, 모두 거리가 무한대로 계산 되었다. 이는, 테스트 이미지를 그레이스케일 이미지로 변 환한 후, Grayscale Hausdorff 거리를 계산하는 과정에서, 픽셀의 그레이스케일 값 t가 1이거나 2인 경우, 한 쪽 이미 지에는 그러한 값이 존재하나, 다른 쪽 이미지에는 그러한 값이 존재하지 않는 경우가 발생하였기 때문이었다. 이런 경우, 계산 값은 무한대가 되어, 사용된 4개의 모형 모두에 서 거리가 무한대가 된다. 이를 방지하기 위하여, 본 실험에 서는 이러한 경우가 발생하면 계산하지 않고 무시하였다.
<Figure 6>는 4개의 모형을 사용한 실험 결과를 보여 준다. 노이즈가 없는 경우, 4개의 모형 모두 테스트 이미 지에 해당하는 문자를 정확하게 찾아내었다. 그러나, 모형 1을 사용하면, 낮은 수준의 노이즈에서도 정확도가 급격 히 하락하며, 모형 2를 사용하면, 노이즈의 증가에 따라 정확도가 꾸준히 하락 하였다. 모형 3과 모형 4를 사용 하면, 10%까지의 노이즈에서 해당하는 문자를 비교적 정확하게 찾아내었다.
그러나, 동일 폰트의 이탤릭체를 테스트 이미지로 하 여 실험한 결과 <Figure 7>에서 보듯이 4개의 모형 전부 에서 매칭의 정확도가 크게 떨어졌으며, 전체적으로는 모형 4가 모형 3보다 정확도가 약간 높았다.
원본 문자의 이미지에서 문자의 위치를 5% 우측으로 이동하여 노이즈가 없는 테스트 이미지를 만들어, 문자 의 위치에 따른 민감도를 살펴보았다. <Table 1>은 모형 2, 3, 4를 사용하면 문자의 위치가 변하였음에도 불구하 고 노이즈가 없는 상태에서는 정확하게 해당 문자를 인 식하였음을 보여준다.
<Figure 8>에 나타낸 바와 같은 여러 가지 폰트들을 테스트 이미지로 사용하여 노이즈가 없는 상태에서, 원본 폰트(Adobe Garamond Pro)를 사용하여 문자 매칭을 실 험한 결과를 <Table 2>에 요약하였다. 서로 다른 폰트에 대한 문자 매칭의 정확도는 폰트에 따라 편차를 보였으 며, 다른 폰트들을 인식하는데 사용하기에는 문자 매칭 의 정확도가 떨어짐을 알 수 있다.
4.결 론
본 연구에서는 흑백 점잡음을 가진 이미지와 매치하 는 문자를 찾아내기 위하여 Hausdorff 거리를 사용하였 다. 노이즈 효과를 감소시키기 위하여, 그레이스케일로 변환한 후, 4개의 Grayscale Hausdorff 거리에 대하여 여 러 수준의 노이즈를 가진 테스트 이미지와 원본 문자를 매치시키는 실험을 하였다. 그 결과, 모형 3과 본 논문 에서 제시한 Modified Grayscale Hausdorff 거리 모형(모 형 4)을 사용하는 것이 나머지 두 모형을 사용하는 것보 다 문자 매칭의 정확도가 훨씬 더 높은 결과를 가져 왔 다. 추가적으로, 전체 픽셀에 대하여 오른쪽으로 5% 치 우친 문자 이미지를 만들어 실험을 한 결과, 문자 매칭 의 정확도는 약간 낮아졌다. 원본 폰트의 이탤릭체를 테 스트 이미지로 사용하여 실험을 한 결과, 문자 매칭의 정확도는 본 논문에서 제시한 모형이 가장 높았으나, 모 든 모형에서 정확도가 현저히 떨어졌다. 이러한 결과들 을 종합하여 볼 때, 본 논문에서 제시한 모형은, 문자의 위치변화나 저 수준의 흑백 점잡음에 거의 영향을 받지 않으므로, 폰트의 종류가 제한된 문자의 인식에 사용이 가능할 것으로 보인다. 이러한 예로서 문서인식, 자동차 번호판 인식 등이 있다. 그러나, 실험결과에서도 알 수 있듯이, 서로 다른 폰트를 사용하는 경우, 문자 매칭의 정확도가 현저히 떨어져, 이 모델을 적용하는 것은 불가 능하다.
본 연구의 한계로는, 노이즈의 크기를 1 픽셀로 한정 한 바, 크기가 2 픽셀 이상인 경우에 대한 실험에서도 유 사한 결과를 얻는지 여부를 알 수 없다는 점에 있다. 아 울러, 숫자 및 특수문자의 매칭에 관한 실험과 다른 언어 의 문자에 대한 실험도 진행되지 못했다.
본 모형의 적용범위를 확장하기 위한 추후 연구과제 로, 여러 종류의 폰트를 몇 개의 유사 그룹으로 나누어, 각 그룹의 대표 폰트를 선택하여, 이들을 모두 원본 문자 이미지로 사용하여 문자 매칭의 정확성을 측정하는 실험 이 있을 수 있다.