1. 서 론
반도체는 매우 섬세하고 복잡한 장비이며 반도체 집적 회로 생산의 핵심 과정인 웨이퍼 제조 공정으로부터 시작 된다[9]. 반도체 공정은 반복되는 수많은 복잡하고 정교한 과정을 거쳐 완성되며, 주로 엔지니어의 육안 검사를 통해 웨이퍼 상의 결함을 판별하고 사후 분석을 통해 설계상, 공정상의 문제점을 발견하여 해당 엔지니어에게 문제점을 전달할 수 있다. 하지만 엔지니어의 역량과 숙련도 등에 따라 결함에 대한 판단 기준이 상이하고 웨이퍼의 대규모 생산은 모든 제품을 직접 육안 검사로 진행한다는 점에서 많은 시간적⋅경제적 제한이 존재한다[13].
위에서 언급된 단점을 보완하기 위해 엔지니어가 직접 검사를 하는 대신 반도체 웨이퍼 빈 맵의 결함패턴 탐지 연구가 진행되어 오고 있으며 결함패턴 탐지 연구는 3개 의 관점으로 볼 수 있다.
첫 번째는 반도체 웨이퍼 빈 맵 상의 단순 결함패턴 탐 지 연구이다. 단순 결함패턴 탐지 연구는 가장 오랜 기간 지속적으로 진행되어 왔다[6, 19, 25, 27]. 과거 전통적인 통계적 방법에서 인공지능(Artificial Intelligence: AI)을 활 용하여 성능 향상을 이루었다. 하지만 기존에 알려진 결함 패턴 이외에 다른 결함패턴이 발생하거나 여러 결함패턴 이 합쳐진 복합 결함패턴이 발생한다면 결함패턴을 탐지 하는 데 있어 많은 어려움이 존재한다.
두 번째는 반도체 웨이퍼 빈 맵 상의 신규⋅복합 결함패 턴 탐지에 대한 연구이다[2, 9, 26]. Baek et al.[2]은 다중 분류 시 입력 데이터에서 결함패턴에 대한 확률이 각 결함 패턴별 설정된 임계점을 넘지 못하면 신규 결함패턴으로 취급하는 방식이 있다. 그리고 Jin et al.[9]는 데이터를 극좌 표계와 직교 좌표계로 표현하여 교차점을 찾는 과정과 DBSCAN(Density-Based Spatial Clustering of applications with Noise)을 활용한 클러스터링을 통해 특징 추출을 하여 복합 결함패턴을 탐지한다. 또한 Wang et al.[26]은 웨이퍼 빈 맵 데이터의 공간 랜덤성 테스트를 하여 두 유형으로 분류 후 공간 필터, 커널 기반 고유분해를 통해 유사도 행렬 을 산출하고 이를 SVC(Support Vector Clustering)을 통해 복합 결함패턴을 탐지한다. 이와 같이 신규⋅복합 결함패턴 탐지 연구는 단순 결함패턴 탐지 연구의 단점을 보완하기 위함이며 기존의 알려진 단순 결함패턴만 탐지하는 수준에 서 신규⋅복합 결함패턴까지 탐지해 상세한 분류가 가능하 다는 장점이 있다. 위와 같은 연구들은 정확도 향상과 신규 ⋅복합 결함패턴 탐지가 가능하다는 기여를 하였지만 탐지 결과에 대한 설명력 부재라는 한계가 존재한다.
세 번째는 반도체 웨이퍼 빈 맵 상의 설명 가능한 결함 패턴 탐지에 대한 연구이다[5]. 설명가능한 결함패턴 탐지 연구는 현장 엔지니어들이 결함패턴 탐지 결과를 신뢰할 수 없으면 탐지 결과는 의미가 없기에 시작 되었다. Do[5] 는 기존의 알려진 결함패턴 탐지와 탐지 결과에 대한 설명 력을 더해 기여를 했지만 신규⋅복합 결함패턴 탐지를 못 하는 한계점이 존재한다. 이외에 설명가능한 이상탐지를 위해서는 분류 모델에 설명력을 추가하기 위해 개발된 설 명가능한 모델들을 접목시키는 방법이 있다. 하지만 분류 모델 구조 변화에 따라 설명가능한 모델을 접목시키는 것 이 원활하지 않을 수가 있다. 따라서 결과에 대한 근거를 고려하고 구성된 모델이 필요하다.
본 연구에서는 웨이퍼 공정 상 발생할 수 있는 다양한 결함패턴과 엔지니어로부터 신뢰를 받기 위해 웨이퍼 빈 맵 상의 기존의 알려진 결함패턴과 신규⋅복합 결함패턴 탐지 및 탐지 결과에 대해 설명력을 제공할 수 있는 프로 세스를 제시하고자 한다. 제안된 프로세스는 이중 필터를 활용해 결함패턴 탐지에 방해되는 노이즈 제거를 통해 결 함패턴 탐지를 준비하고 웨이퍼 빈 맵 상의 모든 결함패턴 을 탐지뿐만 아니라 설명력 확보를 할 수 있도록 해주는 설명가능한 이상탐지 방법론인 FCDD(Fully Convolutional Data Description) 모델을 활용하고자 한다.
2. 이론적 배경
2.1 이미지 필터
이미지 필터는 이미지의 노이즈 제거에서 자주 사용되 는 기법으로 웨이퍼 빈 맵 데이터 특성에 적합한 노이즈 제거를 하여 결함패턴 탐지 및 설명력 향상을 위해 적용한 다. 이미지 필터 기법에서 커널로도 불리는 필터는 정방행 렬로 정의한다. 이미지 필터 기법에서 커널로도 불리는 필 터는 정방행렬로 정의한다. 이미지 필터 기법의 연산은 이 미지 내에 필터를 이동시키면서 필터 영역과 이미지 영역 이 겹치는 영역을 필터 기법에 따라 연산한다. 필터 연산 결과를 새로운 이미지의 부분 영역으로 정의하며 이를 이 미지의 모든 영역에 대해 적용하면 필터가 적용된 이미지 가 생성된다. 필터 기법의 연산은 아래 식 (1)과 같다.
-
(x,y) : location of the origin image
-
f(x, y) : brightness of location (x,y)
-
h(x, y) : filter
-
g (x, y) : filtered image
이미지 필터 기법은 단순한 계산을 기반으로 하는 중앙 값 필터(median filter) 및 평균값 필터(average filter)와 복잡 한 계산이 요구되는 가우시안 필터(gaussian filter), 비지역 적 평균 필터(non-local means filter) 및 양방향 필터(bilateral filter) 등이 존재한다. 제3장에서 비지역적 평균 필터와 양방 향 필터를 선택한 이유를 설명하고 제4장에서 필터별 비교 를 적용한 결과를 비교하기에 여기선 비지역적 평균 필터와 양방향 필터에 대해서만 상세히 설명하기로 한다.
비지역적 평균 필터[3]는 이미지 내에서 전역적으로 유 사한 영역들을 찾아 평균을 기반으로 연산하여 노이즈를 제거하는 필터이다. 각 픽셀은 해당 픽셀의 가우시안 커널 에 해당하는 지역적 영역의 인접 픽셀뿐만 아니라 이미지 의 전체 영역에서 유사한 픽셀에 더 큰 가중치를 주는 방 식으로 가중평균으로 계산하여 전역적인 패턴의 특징을 살려 노이즈를 제거할 수 있다. 아래 식 (2)는 비지역적 평균 필터의 수식이며, 비지역적 평균 필터는 픽셀 p 기준 으로 픽셀 p와 다른 픽셀 q를 대상으로 정방행렬인 마스 크를 통해 비교하고 유사하다고 판단하는 것에 대해서만 합산하여 픽셀 값을 계산하게 된다.
-
p,q : different pixels
-
I : input image
-
W : weight
-
: p Fixed size mask near pixels
-
Z (p) : Normalization constant
양방향 필터[24]는 대상 픽셀과 대상 픽셀의 인접 픽셀 의 거리 및 픽셀 값의 차이를 함께 고려하는 비선형 디노 이징 기법이다. 양방향 필터는 가우시안 분포를 활용하여 인접 픽셀의 가중 평균을 활용하여 노이즈를 제거한다. 또 다른 중요한 특징은 대상 픽셀과 대상 픽셀의 인접 픽셀의 차이를 가중치로 사용해 이미지의 윤곽선 혹은 주요 패턴 의 경계를 보전한다. 아래 식 (3)은 양방향 필터의 수식이 며, 양방향 필터의 (∥p - q∥) 는 픽셀 p, q를 활용해 가우시안 필터를 적용한 것이며, (|Ip - Iq|)는 픽셀 p, q 간의 차이를 가중치로 연산하는 필터를 거친 픽셀 값의 계산을 의미한다.
-
p,q : target pixels, adjacent pixels
-
I : input image
-
σ : gaussian function
-
-
W : kernel/sum of kernel so that the sum is 1
2.2 합성곱 신경망 기반 이상탐지
Hubel and Wiesel[7]은 신경망(Neural Network: NN)은 시각 피질 안의 많은 뉴런이 작은 지역적 수용영역(receptive field)을 가지며, 뉴런들이 시야의 일부 범위 안에 있는 시각 자극에만 반응을 한다는 것을 발견하였다. 뉴런의 수용영역 들은 서로 겹칠 수 있으며 겹쳐진 수용영역들이 전체 시야 를 형성하는 방식으로 이미지 데이터를 학습하기 위한 방법 론을 제안하였다. 합성곱 신경망(Convolutional, Neural Network: CNN)은 LeCun et al.[12]에 의해 처음 제안된 모델 로 합성곱 층(convolutional layer)과 풀링 층(pooling layer) 을 중심으로 신경망을 정의하였으며, 위에서 언급한 뉴런 방식의 연산과정을 통해 학습한다.
Krizhevsky et al.[11]은 ImageNet Large Scale Visual Recognition Challenge 대회에서 우승한 AlexNet이라는 합 성곱 신경망 모델을 개발하고 이미지가 가진 특성을 학습 하기 위한 합성곱 신경망의 가정에 대해서 언급하였다. 언 급된 가정은 시계열 데이터가 시간이 지나도 변하지 않는 다는 통계적 특성인 정상성(staionarity)과 이미지 내에서 한 픽셀과 주변에 있는 픽셀들로만 국한하여 의미있게 연 결된다는 특성인 지역성(locality)이다. 따라서 합성공 신 경망은 여러 이미지에 대하여 위치와 무관하게 동일한 패 턴을 갖고 이미지 내 의미있는 점들이 군집해 패턴을 구성 하는 데이터에 대해서 합성곱 층과 풀링 층을 활용해 효율 적으로 연산한다. 합성곱 층은 커널 또는 필터라고 불리는 정방행렬을 입력 데이터 내에서 이동시키면서 수용영역과 입력 데이터가 겹치는 영역에 대해서 연산하는 역할을 한 다. 합성곱 층은 위와 같은 연산 과정을 통해 지역적 패턴 을 갖는 특징지도(feature map)를 출력하는 기능을 한다. 이때, 연산되는 수용영역과 이미지 특정 영역이 유사할수 록 수용영역은 큰 값을 출력하는 특성에 의해 수용영역은 이미지에 있는 패턴들과 유사한 형태로 학습된다.
풀링 층은 데이터의 입력 크기 대비 출력 크기를 줄이 며 주요 특징을 추출하는 역할을 한다. 풀링층은 특징지도 의 지역적 패턴을 활용하여 위치 불변성(translation invariant) 을 학습한 모델로 만드는 기능과 출력 크기의 축소 를 통해 특징지도의 가중치 파라미터(weight parameter)의 개수를 감소시킴에 따라 계산량과 메모리 사용량의 감소 및 과적합을 방지하는 기능을 한다. 풀링 층 연산 기법은 풀링 크기와 스트라이드(stride)를 설정을 해서 풀링의 크 기가 움직이며 입력 이미지 영역 내에서 움직이면서 계산 을 한다. 스트라이드란 풀링이 움직이는 간격을 의미한다. 주요 패턴이 큰 값을 가질 것이란 가정 하에 최대 풀링 (max pooling)을 일반적으로 사용하며, 이외에도 평균 풀 링(average pooling), 최소 풀링(min pooling) 등이 존재한 다. 예시로 아래 <Figure 3>의 경우 풀링 크기는 2 × 2, 스 트라이드는 2 × 2로 가장 좌상단 2 × 2인 푸른색 영역에 대해서 최대 풀링에 따라 100을 선택하고 우측으로 2칸을 이동 후 녹색 영역에서 최대 풀링에 따라 34를 선택하고 푸른색 영역에서 아래로 2칸 내려가서 붉은색 영역에서 최대 풀링에 따라 45를 선택하고 우측으로 2칸 이동 후 노란색 영역에서 최대 풀링에 따라 27을 선택하여 우측과 같은 2 × 2 크기를 산출한다.
이미지를 처리하는데 적절한 기법인 합성곱 신경망과 정상 데이터 외에 모든 이상 데이터를 탐지하기 위해 위에 서 설명한 합성곱 신경망 기반 이상탐지 모델에 대해서 알아보도록 한다.
SVDD(Support Vector Data Description)는 David and Robert[23]에 의해 제안된 모델로 커널 기반 데이터의 맵 핑(mapping)을 통해 정상 데이터만을 감싸는 최소 체적의 구(hypersphere)를 찾는 목적함수를 활용하여 이상 탐지를 위한 경계를 제공하는 알고리즘이다. SVDD는 정상 데이 터만을 감싸는 최소 체적의 구를 통해 다양한 경우에서 발생할 수 있는 다른 클래스를 하나로 보아 분류할 수 있 다는 점에서 이상 탐지의 기능을 한다. 모든 데이터가 단 위 벡터로 정규화가 된다면 SVDD는 잘 알려진 이상탐지 모델인 One-class SVM와 동일한 알고리즘이다.
DSVDD(Deep Support Vector Data Description)은 Lukas et al.[20]에 의해 제안된 모델로 SVDD와 마찬가지로 정상 데이터를 최소 체적의 초구로 감싸는 목적 함수를 사용한 다. DSVDD의 커널은 전통적인 통계 기법을 활용하는 SVDD와 달리 심층 신경망(Deep Neural Network: DNN)을 활용하는 알고리즘으로 심층 신경망 기반의 커널을 활용하 여 맵핑된 데이터와 구의 중심과의 거리를 반지름과 비교해 패널티를 부과하는 방식으로 학습을 한다. 이미지 데이터의 경우엔 DSVDD는 단순한 심층 신경망 대신 합성곱 신경망 을 커널로 사용해 적용이 가능하다. 이에 따라 이미지 데이 터를 다룰 수가 있고 전통적인 기법에 비해 성능이 향상되 었다. 하지만 지도학습만 가능하다는 한계점이 존재한다.
DeepSAD(Deep Semi-supervised Anomlay Detection)는 Lukas et al.[21]에 의해 제안된 모델로 DSVDD의 비지도 학습을 라벨이 있는 데이터와 라벨이 없는 데이터를 동시에 학습 시킬 수 있는 준 지도학습이 가능하게 한 알고리즘이 다. DeepSAD는 라벨이 없는 데이터에 대한 비지도 학습의 경우 사전 학습된 CAE(Convolutional Auto- Encoder)의 가 중치를 사용하였다. DeepSAD는 준지도학습을 가능케 해준 점과 이상 데이터 라벨의 개수가 적을 때는 지도학습보다 성능이 좋다는 장점을 가진다. 하지만 이상 데이터의 개수 가 증가 시 지도학습보다 성능이 낮은 단점을 보인다.
HSC(HyperSphere Classification)는 Lukas et al.[22]에 의 해 제안된 모델로 기존의 DeepSAD에 이상치 노출(Outlier Exposure: OE) 기법을 적용한 준지도 학습 이상 탐지 방법 론이다. HSC는 DeepSAD에서 라벨이 있는 이상 데이터의 사용 대신 도메인 외 분포(Out-Of Distribution: OOD) 데이 터에 대한 크로스 엔트로피 분류를 추가하여 성능을 높인 알고리즘이다. OE 기법을 통해 성능 향상을 이루었으며 정상 데이터만으로도 모델을 학습을 할 수 있다는 장점이 있다. 하지만 결과에 대한 설명이 없다는 한계점이 있다.
위 4가지 모델의 관계는 SVDD의 커널에서 심층 신경망 을 사용한 모델이 DSVDD이다. 지도학습 모델인 DSVDD 를 준지도 학습 모델로 발전 시킨 모델이 DeepSAD이다. DeepSAD를 학습 시 기존의 이상 데이터 대신 OOD 데이터 를 사용하는 OE 기법을 적용해 성능을 향상시킨 모델이 HSC이다. HSC 모델을 설명가능한 모델로 발전시킨 모델이 FCDD이다. FCDD는 설명가능한 모델로 활용하기 위해 HSC를 발전시킨 모델로 합성곱 신경망 구조와 HSC의 목적 함수를 차용하여 학습하는 모델이다.
3. 제안 프로세스
3.1 전반적인 프로세스
전반적인 프로세스는 다음과 같다. 웨이퍼 빈 맵의 이미 지 크기가 서로 상이한 관계로 크기 통일 및 정규화 과정의 전처리를 실시한다. 웨이퍼 빈 맵 데이터는 많은 노이즈로 인해 정상 및 결함패턴을 부각하기 위해 패턴 디노이징 (pattern denoising)을 적용한다. 패턴 디노이징은 패턴을 부 각하기 위해 노이즈를 제거하는 과정을 말한다. 패턴 디노 이징이 적용된 데이터는 정상 데이터와 결함패턴 데이터인 이상(anomaly) 데이터로 규정한다. 모델은 정상 데이터의 공간적 정보 기반으로 학습한다. 그리고 모델은 모든 입력 데이터에 대해서 이상점수를 산출하고 정상과 결함패턴을 분류하는 과정에서 베이지안 최적화를 통해 임계점을 최적 화하며, 최적화된 임계점을 기준으로 각 이미지의 정상과 이상을 판단한다. 설명력 확보 과정은 모델의 마지막 층에 서 출력된 이상 정보 행렬에 업샘플링(upsampling)을 적용 해 축소된 특징지도를 입력 이미지 크기로 복원하고 열지도 (heatmap)화 하여 이를 이상탐지 판단 결과에 대한 근거를 제시한다. 본 연구는 제안한 프로세스를 통해 정상 이외의 모든 결함패턴 검출 및 결함패턴에 대해서 이상 판단 결과 의 시각적 근거를 제시하는 이점을 가지며 제안하고자 하는 전반적인 프로세스는 <Figure 4>와 같다.
3.2 이중필터 패턴 디노이징
본 연구에서 패턴 디노이징은 웨이퍼 빈 맵의 특징에 적합하게 두 가지 필터를 혼합한 이중필터 패턴 디노이징 을 적용한다. 웨이퍼 빈 맵의 결함패턴 탐지 과정에서 주 된 문제점은 무수히 많은 노이즈와 노이즈 제거 시 발생하 는 결함패턴의 손실이다. 따라서 패턴 디노이징은 웨이퍼 빈 맵의 특징에 기반하여 이중필터 패턴 디노이징을 제안 한다. 이중필터 패턴 디노이징이란 데이터 특징에 따라 기 능이 다른 두 가지 필터를 활용하여 노이즈 제거와 정상과 결함패턴의 주요 특징을 명확히 한다. 이중필터 패턴 디노 이징은 비지역적 평균 필터와 양방향 필터를 사용하며 두 필터에 대한 설명과 적용 이유를 기술한다.
비지역적 평균 필터는 이미지 내에서 전역적으로 유사 한 영역 탐색 및 전역적으로 유사한 영역들과 상이한 영역 들에 대한 가중평균으로 노이즈 제거를 한다. 비지역적 평 균 필터는 웨이퍼 빈 맵의 전역적으로 존재하는 노이즈 제거와 결함패턴의 손실이 적은 기법이므로 모델에 적용 된다.
양방향 필터는 대상 픽셀과 인접 픽셀과의 거리 및 픽 셀 값의 차이 기반 비선형 노이즈 제거 기법이며 인접 픽 셀과의 비교를 통해 노이즈 제거와 경계 보전을 한다. 양 방향 필터는 다양한 웨이퍼 빈 맵 결함패턴의 경계를 보전 하여 중요한 결함패턴을 명확하게 만들므로 모델에 적용 된다.
이중필터 패턴 디노이징은 비지역적 필터와 양방향 필 터를 순차적으로 적용하여 비지역적 평균 필터를 활용해 노이즈 제거를 하고 양방향 필터를 활용해 결함패턴의 경 계를 보전하는 기능으로 사용한다. 따라서 이중필터 패턴 디노이징이 적용된 웨이퍼 빈 맵의 노이즈가 제거되고 결 함패턴이 부각된다.
3.3 커스터마이징 FCDD
FCDD는 Philipp et al.[14]에 의해 제안된 모델로 SVDD 구조에서 커널을 전통적인 통계 기법 대신 합성곱 신경망으 로 활용하여 이미지 데이터의 맵핑을 통해 이미지 데이터의 특징을 추출하며 이상탐지를 하고 업샘플링을 통해 설명력 을 확보하는 알고리즘이다. FCDD의 합성곱 신경망은 합성 곱 층과 풀링 층에서 공간 정보를 보존하는 수용영역을 통해 특징지도를 생성하고 목적함수와 pseudo-Huber 손실 함수를 활용해 공간적 이상 정보를 갖는 특징지도를 각 층에서 학습한다. FCDD는 최종 층에서 이상 정보를 보유한 최종 출력행렬인 최종 특징지도 (ϕ(X;W) ; X ∈ℝc×h ×w , ϕ : ℝc×h ×w →ℝu ×υ, ϕ(X;W) ∈ℝu ×υ )를 출력한다. 설명 력 확보는 최종 특징지도를 열지도로 변환 후 가우시안 커널 기반 트랜스포즈 합성곱 층(transposed convolutional layer)으로 업샘플링을 적용해 열지도로 변환된 최종 특징 지도의 출력 크기를 입력 이미지 크기로 복원한다. 복원된 열지도는 결함패턴 탐지 판단 결과의 근거로 제시된다. 아 래 <Figure 5>는 FCDD와 업샘플링 구조의 전반적인 개요 를 나타내고 있다[14].
FCDD가 기존의 CNN 모델과 다른 점이라면, 기존의 CNN 모델은 합성곱 층과 풀링 층을 활용해 특징추출 후 완전 연결 층과 활성화함수(activation function)를 통해 분류 를 진행한다. 하지만 FCDD는 기존 CNN 모델과 다른 방식 인 FCN(Fully Convolutional Networks)[15]을 따른다. FCN 은 픽셀 데이터의 지상 실측(ground-truth) 정보를 실제값으 로 활용하여 출력값과 지상 실측 정보로 픽셀단위 예측 (pixel-wise prediction)을 통해 손실함수를 계산하며 합성곱 층의 역산인 역합성곱 층(deconvolutional layer)을 활용해 업샘플링을 하는 end-to-end 구조로 모델 학습한다. 하지만 FCDD는 정상데이터(yi = 0)와 도메인 외 데이터(yi = 1)로 수용영역 기반 합성곱 층과 풀링 층으로 구성된 FCN 구조 를 통해 특징추출을 한다. FCDD의 손실함수 계산은 마지막 층에서 출력된 ϕ(X;W)에 pseudo-Huber 손실함수를 원소 단위 계산(element-wise operation)으로 적용한 행렬인 A (X ) = (ϕ(X;W)원소마다 적용한행렬, 의 ∥A (X )∥로 계산한다. 손 실함수 pseudo-Huber는 로 계산하고 2차 패널티화(quadratic penalization)에서 선형 패널티화(linear penalization)로 보간하는 방식으로 이상치에 대해 강건하 다. <Figure 6>의 ϕ(X;W)는 FCDD에서 학습 후 마지막 층에서 출력된 최종 출력행렬(최종 특징지도)인 이상 정보 행렬이다. Luo et al.[17]에 의하면 수용영역의 입력이 출력 에 미치는 영향의 분포가 가우시안 분포를 따른다고 한다. 위 이론을 기반으로 설명력 확보는 ϕ(X;W)를 열지도로 변환 후 가우시안 커널 기반 트랜스포즈 합성곱 층을 통해 업샘플링을 하는 과정을 통해 제공한다. 하지만 FCDD는 모델 학습과 설명력 확보의 두 단계이기 때문에 end-to-end 구조가 되지 못한다.
결론적으로 FCDD는 정상 데이터와 이상으로 취급하는 도메인 외 데이터를 입력 데이터로 사용하고 출력된 ϕ(X;W) 의 각 원소에 pseudo-Huber 손실함수를 적용해 모든 원소가 양수가 되도록 를 생성하고 FCDD의 목적함수에 따라 모델을 학습 후 공간 적 정보를 보유한 최종 출력행렬인 ϕ(X;W)를 열지도화 및 업샘플링을 통해 이상 열지도를 근거로 제시하여 설명력 을 확보한다. 아래 식 (4)는 FCDD의 목적함수이며, 모델의 학습 시 사용되는 데이터는 yi가 1이면 도메인 외 데이터, 0이면 정상 데이터이다. 각 데이터는 모델을 통해 얻은 출력 행렬에 pseudo-huber 손실함수를 활용해 원소 단위 계산을 하여 를 산출한다. 정상 데이터의 는 작고 이상 데이터의 는 크며, 는 u ∙ υ로 나누어 져 정규화(normalization)가 된다. 정상 데이터(yi = 0)와 도 메인 외 데이터(yi = 1)의 특징을 cross-entropy 기반 수식을 통해 목적함수를 계산한다.
-
n : number of data
-
yi : label
-
A ( Xi) : Apply loss function calculation matrix of ϕ(X;W)
-
W : weight
-
u × υ : size of A ( Xi )
본 연구에서 FCDD는 데이터 특성에 맞게 커스터마이 징을 실시한다. 기존의 FCDD는 합성곱 층, 노드 수가 많아 모델이 데이터 특성에 비해 규모가 커 느린 연산속도와 과적합 등의 단점이 있다. 하지만 커스터마이징 FCDD는 합성곱 층의 수와 채널 수를 기존보다 축소했지만 성능과 설명력에 대해선 크게 차이가 없으며, 대신 FCN의 출력 값인 이상 정보 행렬의 크기를 증가시켜 설명력 확보에 주력한다. 기존 FCDD는 활성화 함수로 ReLU (Rectified Linear Unit)[18], Leaky ReLU[28] 중 기본 활성화 함수는 Leaky ReLU를 사용했다. 그 이유는 ReLU의 단점인 0보다 작은 값을 0으로 만들어 데이터의 손실이 발생하기 때문에 웨이퍼 빈 맵 특징 중 각 픽셀별 값의 차이가 작아 적은 수의 합성곱 층으로 학습한다고 해도 ReLU를 사용할 시 뉴런이 0으로 출력되어 더 이상 학습을 할 수 없는 문제에 당면하기 때문이다. 이러한 이유로 ReLU의 문제점으로 인 해 다소 연산이 추가되더라도 Leaky ReLU가 사용되었다. 하지만 Leaky ReLU의 사용은 음수 구간에 대해 선형성이 생겨 입력값에 대한 출력값이 선형적인 결과를 내어 비선 형적인 웨이퍼 빈 맵 데이터에 적합하지 않다. 위 문제점의 해결방안은 ELU(Exponential Linear Unit)[4]를 적용이다. 커스터마이징 FCDD는 학습 후 이상 정보 행렬을 출력하는 모델이므로 미분이 가능하고 비선형성을 갖는 활성화 함수 가 적절하기에 ELU를 사용한다[4]. FCDD는 합성곱 층과 풀링 층, 활성화 함수가 반복된 구성으로 활성화 함수를 거친 출력행렬(특징지도)은 활성화 함수를 통해 원소 단위 계산이 된다. 위에서 소개한 활성화 함수들은 아래의 식 (5)~식 (7)과 같으며, 식 (5)는 음수 값은 0으로 0이상의 값은 해당 값을 가지게하는 함수이며, 식 (6)은 매우 작은 α 값을 통해 식 (5)에서 음수 값을 모두 0으로 만드는 대신 0은 아니지만 굉장히 작은 값으로 만들어주는 역할을 하여 기울기 소실(gradient vanish)을 방지한다. 식 (7)은 음수 값 이 들어오면 지수 함수를 사용하여 부드럽게 꺾어주기 때 문에 노이즈에 덜 민감한 효과를 가진다.
α is a very small value, x is a creates a new feature map by calculating the element units of feature map obtained through convolutional layer and pooling layer.
기존의 FCDD의 최적화 기법은 SGD(Stochastic Gradient Descent)[1] 혹은 Adam(Adaptive moment estimation)[10]을 사용한다. 최적화 기법은 가중치를 조정하는 과정에서 손실 함수를 최소화하기 위해 적용된다. SGD는 GD(Gradient Descent)보다 계산 속도가 훨씬 빠르다는 장점을 갖고 있지 만, 무작정 기울어진 방향으로 나아가는 방식인 비등방성 (anisotropy)함수로 탐색 경로가 비효율적이다. 이를 해결하 기 위해 Kingma and Ba[10]은 Adam 최적화 기법을 제안한 다. Adam 최적화 기법은 기울기의 경향, 기울기의 변화량을 감안하는 알고리즘이다. 기울기 변화가 변동이 큰 상황 혹 은 기울기가 희미해지는 현상이 일어나는 모델 훈련 과정에 적합하다. Loshchilov and Hutter[16]에서는 Adam의 가중치 감쇠(Weight decay)로 인해 L2 규제가 포함된 손실함수를 사용하여 최적화 시 일반화 효과를 감소한다는 점을 지적하 며 AdamW(Adaptive moment estimation Weight decay)[16] 를 제안한다. 하지만 제안한 프로세스에서 활용하는 손실함 수는 pseudo-Huber 손실함수로 L2 규제가 포함되지 않은 손실함수이다. pseudo-Huber 손실함수는 L1 손실함수의 이 상치에 대한 영향이 적은 장점과 L2 손실함수의 모든 지점 에서 미분이 가능하다는 장점을 모두 가진 손실함수이다. 따라서, 커스터마이징 FCDD의 최적화 기법은 탐색에 비효 율적인 SGD와 pseudo-Huber 손실함수에 적합하지 않은 AdamW 대신 Adam 기법을 채택한다.
위 내용을 기반으로 커스터마이징 FCDD는 웨이퍼 빈 맵의 특징에 적합한 모델을 구성한다.
3.4 베이지안 최적화 기반 임계점 설정
본 연구에서 FCDD는 베이지안 최적화를 통해 얻은 임계 점을 활용하여 각 이미지에 대해서 정상과 이상을 분류한 다. 커스터마이징 FCDD는 웨이퍼 빈 맵 이미지의 열지도만 제공하는 기존의 FCDD와 달리 베이지안 최적화를 통해 결정한 임계값을 기준으로 정상과 이상을 분류한 결과를 같이 제시가 가능하며, 임의로 설정한 임계값보다 신뢰할 수 있고 작업자가 개입하지 않아도 된다는 장점이 있다. 아래 <Figure 6>에서 X는 탐색할 임계점 데이터 셋, Y는 임계점인 X의 데이터와 검증 데이터 셋을 통해 얻은 모델의 성능인 F1 점수값으로 구성된 데이터 셋, [a, b]는 탐색할 X의 최소, 최대 구간이며, x*는 EI 함수값을 통해 추천된 하이퍼파라미터, y*는 x*로 모델의 성능을 통해 얻은 F1 점수값, n은 초기 데이터 개수, N은 추가할 데이터 개수, Surrogate 모델(f)은 X의 확률추정을 통해 일반화 성능을 예측하는 모델로 가우시안 프로세스 사용하고 Acquistion 함수는 모델을 검증 시 최적의 값을 선택해 추천하는 함수 로 EI 사용하여 베이지안 최적화 기법을 적용한다.
4. 분석 결과
4.1 데이터 설명
본 연구에서 사용된 데이터는 대만 국립대학교 MiLab 에서 공개한 WM-811K이다. WM-811K은 웨이퍼 빈 맵 결 함패턴 검출 연구에서 가장 많이 사용되었고 가장 많은 데이터를 보유된 데이터 셋이기에 사용한다. 모델의 학습 데이터는 WM-811K와 cifar-100를 OOD 데이터로 사용한 다. cifar-100은 IMAGENET에서 공개한 100개의 클래스 를 가진 사물 사진으로 구성되어 있는 데이터 셋이다.
4.2 이중필터 패턴 디노이징
이중필터 패턴 디노이징은 비지역적 평균 필터와 양방 향 필터를 이중필터로 활용해 웨이퍼 빈 맵의 노이즈 제거 와 결함패턴의 경계를 보전한다. 이중필터의 실험 결과는 다음과 같이 기술한다.
4.2.1 필터 간의 비교
웨이퍼 빈 맵의 결함패턴에 대한 패턴 디노이징을 위한 필터는 일반적으로 잘 알려진 필터들 중 이론적으로 적절 하다고 판단한 필터 5개에 대해서 실험을 통해 선택하기 로 한다. 5개의 필터는 이미지 전체의 영역을 활용해 노이 즈 제거를 하는 비지역적 평균 필터, 가우시안 노이즈 제 거에 효과가 탁월한 가우시안 필터, 0 또는 255의 픽셀값 처럼 뚜렷하게 잘못된 픽셀값을 갖는 것을 제거의 장점을 갖는 중앙값 필터, 주요 특징의 엣지를 보전하는 기법인 양방향 필터, 주변 픽셀값의 평균을 얻는 방식의 이미지 필터링으로 합성곱 신경망에서 평균을 사용하는 것과 같 은 방식인 상자 필터(box filter)이다. 실험은 결함패턴별 원본 데이터와 각 필터들을 적용한 데이터를 비교하며, 기 준은 결함패턴의 손실 최소화와 노이즈 제거의 정도이다. 아래 <Figure 7>, <Figure 8>, <Figure 9>는 정상과 결함패 턴에 대해 5개의 필터를 실험한 결과이다.
아래 <Figure 7>과 <Figure 8>을 통해 보면 정상 상태와 결함패턴인 Center, Edge-Local, Local, Edge-Ring, Donut 패턴에 대해서 박스 필터를 거친 데이터는 무의미한 결과 이다. 가우시안 필터를 거친 데이터는 결함패턴의 군집 특 성으로 결함패턴이 존재하지만 결함패턴과 노이즈 모두 흐려져 노이즈 제거보단 노이즈와 결함패턴이 모호하게 된다. 양방향 필터를 거친 데이터는 노이즈 제거보단 결함 패턴의 경계선이 뚜렷해져 노이즈와 결함패턴 간의 구분 이 명확해진다. 비지역적 평균 필터와 중앙값 필터는 노이 즈 제거 및 결함패턴 보존의 성능이 우수하다. 특히 중앙 값 필터가 노이즈 제거 측면에서는 비지역적 평균 필터에 비해 우수하다고 판단된다.
아래 <Figure 9>에서 비지역적 평균 필터보다 우수한 노이 즈 제거 성능을 보인 중앙값 필터는 결함패턴 Scratch와 Random에 대해서 결함패턴을 과하게 손실시킨다. 패턴 디 노이징에서 노이즈 제거가 중요하지만 패턴 디노이징의 목 표 중 가장 중요한 부분은 결함패턴의 보존이다. 패턴 디노이 징은 결함패턴을 잘 포착하기 위함이므로 패턴 디노이징을 통해 결함패턴의 정보가 손실된다면 패턴 디노이징의 의미 가 없다고 할 수 있다. 따라서 중앙값 필터에 비해 비지역적 평균 필터가 결함패턴 보존 성능이 우수하다고 할 수 있으며 패턴 디노이징에 더욱 적합하다. 하지만 비지역적 필터는 패턴 디노이징 과정에서 결함패턴과 결함패턴의 주변 픽셀 간의 경계가 모호해지면서 다소 결함패턴 특징의 정보가 손실됨을 볼 수 있다. 하지만 양방향 필터는 결함패턴을 뚜렷하게 해주는 장점이 있기 때문에 이를 활용한다.
4.2.2 이중필터 적용
실험은 비지역적 평균필터, 양방향 필터, 이중필터를 비 교하여 이중필터의 유효성을 시각화를 통해 확인하고 비 슷한 양상을 보이는 정상과 결함패턴에 대해 이중필터 패 턴 디노이징을 적용 후 결과를 비교한다.
아래 <Table 2>에서 비지역적 평균 필터와 양방향 필 터를 모두 적용한 패턴 디노이징은 한 가지 필터를 적용 했을 때보다 두 필터가 시너지를 보여 노이즈 제거와 결 함패턴 보존에서 우수한 성능을 보인다. 일반적으로 군 집이 잘 되어있다고 보이는 결함패턴인 ‘Center’와 ‘Loc’ 등 뿐만아니라 ‘Dount’, ‘Scratch’ 등과 같이 전체 영역의 기반으로 보지 않으면 결함패턴의 손실이 발생할 수 있 는 결함패턴까지 결함패턴 보존이 되면서 노이즈 제거가 잘 되었음을 볼 수가 있음에 따라서 비지역적 평균 필터 와 양방향 필터를 활용한 이중필터 패턴 디노이징을 채 택한다.
아래 <Figure 10>을 보면 원본 데이터에서 정상과 결 함패턴 ‘Center’ 간 유사하게 보이는 이미지가 있다. 두 이미지에 대해서 이중필터 패턴 디노이징 적용을 하면 정상과 결함패턴 ‘Center' 간의 차이가 뚜렷해지는 것을 볼 수 있다. 원본에서 유사해보이는 부분은 중앙에 미세 하게 군집이 되어있는 부분과 주변에 노이즈들의 양상이 비슷해보인다. 하지만 이중필터 패턴 디노이징이 적용된 정상 데이터에선 중앙에 있는 군집이 가장 확실하게 제 거가 되었으며, 주변에 있던 노이즈들도 제거되었다. 이 중필터 패턴 디노이징이 적용이 된 결함패턴 ‘Center’ 데 이터를 보면 중앙에 군집된 결함패턴 이외에 노이즈들이 잘 제거가 되어 결함패턴의 특징을 보다 잘 보여주는 결 과가 되었다.
4.2.3 필터별 설명력 비교
실험은 4.2.1에서 양호한 성능을 보인 필터인 중앙값 필 터, 가우시안 필터와 제안하는 필터인 이중필터에 대해서 필터별 노이즈 제거 성능의 상이한 점이 설명력에 영향을 끼치는지 확인한다.
필터별 설명력 제공의 결과를 아래 <Figure 11>을 통해 서 알아본다. <Figure 11>의 해석은 붉은 계열이 진할수록 이상임을 강하게 나타내고 푸른 계열이 진할수록 정상임 을 강하게 나타내며 붉은 계열이 결함패턴에만 나타나고 그 외에는 나타나지 않는 것을 설명력이 우수하다고 볼 수 있다. 원본 데이터의 설명력은 결함패턴을 표시는 해주 지만 그 외에 많은 노이즈까지 같이 표시를 함으로써 명확 하지 못한 설명력을 제시하며 오히려 헷갈릴 수 있다. 중 앙값 필터를 거친 데이터의 설명력은 결함패턴의 특징 보 존이 부족하여 탐지를 해야 할 결함패턴을 모델이 제대로 학습하지 못해 설명력을 제시할 자료로 부족하다. 가우시 안 필터를 거친 데이터의 설명력은 노이즈 제거보단 노이 즈의 강도만을 약하게 만들어 모델이 약해진 강도의 노이 즈와 결함패턴을 학습하여 설명력 제시 측면에선 부족한 자료이다. 마지막으로 이중필터를 거친 데이터의 설명력 은 우수한 노이즈 제거와 결함패턴의 경계를 보전하는 기 능을 통해서 노이즈에는 빨간 표시 부분이 없으며, 첫 번 째와 같은 복합 결함패턴, 두 번째의 ‘Center’ 결함패턴, 세 번째의 ‘Edge-Loc’ 중에서도 구름과 같은 독특한 패턴도 설명력 제공을 잘하는 모습을 볼 수 있다.
패턴 디노이징의 목적인 결함패턴에 대해 설명력을 제 시하는데 있어서 제안한 이중필터 패턴 디노이징이 가장 적합한 패턴 디노이징 기법이다.
4.3 커스터마이징 FCDD 기반 설명가능 이상탐지
실험은 웨이퍼 빈 맵의 정상 데이터와 OOD 데이터를 활용해 커스터마이징 FCDD를 학습하고 정상 데이터와 이상 데이터로 시험 후 모델의 성능 확인 및 결함패턴별 설명력을 확인한다.
아래 <Figure 12>는 모든 데이터에 대해 FCDD의 최종 출력값인 이상 정보 행렬을 이상 점수로 변환한다. 모든 데이터의 이상점수에 대해 모든 임계값에 따라 분류 모델 의 성능을 얻어 그린 그래프인 ROC(Reciever Operating Characteristic)의 면적을 성능을 보는 AUC(Area Under Curve)이다. 커스터마이징 FCDD는 지도학습 모델에 비해 다소 부족한 성능을 보이지만 이상 데이터가 없는 학습이 가능하고 신규⋅복합 결함패턴의 탐지가 가능하며 설명력 을 제시할 수 있다는 장점이 있다. 또한, AUC는 FCDD 모델의 개선을 통해 성능 향상이 가능하다.
아래 <Figure 13>은 각 결함패턴에 붉은 계열의 표현이 잘 표현되어 있다. 커스터마이징 FCDD는 이중필터 패턴 디노이징을 통해 결함패턴에 붉은 계열의 이상 표현이 잘 되어 있을 뿐만 아니라 결함패턴 외 노이즈에는 붉은 계열 표현이 되어있지 않으며 적절한 설명력 제공을 한다고 볼 수 있다.
Jin et al.[9], Ji[8]은 복합 결함패턴 탐지 및 복합 결함패턴 에 대해 열지도를 활용해 설명력을 확보했다. Jin et al.[9]은 복합 결함패턴을 찾은 예시로는 ‘Center’와 ‘Edge-Ring’, ‘Center’와 ‘Edge-Local’, ‘Scratch’와 ‘Edge-Ring’이고 복잡 한 프로세스를 갖는다. 하지만 본 연구는 이중필터 패턴 디노이징과 커스터마이징 FCDD, 업샘플링을 통한 신규⋅ 복합 결함패턴 검출, 설명력 확보가 가능한 단순한 프로세 스이다. Ji[8]은 설명력을 확보 할 때 합성곱 신경망 분류 모델과 Grad-CAM(Gradient Class Activation Map)을 활용 해 분류 할 클래스별 Grad-CAM의 표현으로 보는 방식이다. 복합 결함패턴의 설명력은 각각의 클래스 기준으로만 볼 수 있어 모든 클래스에 대해서 한 번에 볼 수 없단 단점이 있다. 하지만 본 연구는 분류 모델 기반이 아님에 따라 <Figure 13>, <Figure 14>와 같이 이미지 자체에 대해서 결함패턴을 시각화하기에 특정 클래스에 치우치지 않고 동 시에 다양한 클래스에 대한 설명력을 확보 할 수 있다는 장점이 있다.
제안한 프로세스는 준수한 성능(AUC ≒ 0.894) 과 기존 에 알지 못하는 결함패턴들에 대해서도 탐지가 가능하고 열지도를 활용한 이상 탐지 결과에 대한 이상 영역 표현을 통해 명확한 설명력 확보를 할 수 있다는 장점을 가진다.
5. 결론 및 향후 연구 제안
본 연구는 웨이퍼 빈 맵의 특징에 적합한 이중필터 패 턴 디노이징과 설명가능한 이상탐지 FCDD 모델의 커스 터마이징, 베이지안 최적화로 구성된 프로세스를 제안한 다. 이중필터 패턴 디노이징은 입력 데이터의 노이즈 제거 와 결함패턴 부각을 한다. 커스터마이징 FCDD는 웨이퍼 빈 맵의 특징에 적합한 구조로 정상 데이터의 특징을 학습 하여 기존에 보유한 결함패턴 뿐만 아니라 보유하지 못한 결함패턴에 대해서도 탐지가 가능하다. 커스터마이징 FCDD로 얻은 이상 정보 행렬은 베이지안 최적화을 활용 하여 정상과 결함패턴의 분류를 위한 임계점을 설정하는 데 사용되고 열지도로 변환 및 업샘플링의 과정을 통해 설명력 확보를 통해 분류 결과에 대한 근거를 제시하는데 사용된다.
주요 연구 기여는 이상 데이터를 학습이 아닌 시험할 때만 가용하는 모델 운영이 가능함에 따라 이상 데이터를 부족하게 보유한 환경에서도 효율적인 이상탐지가 가능하 고 정상 데이터 외에 모든 결함패턴을 탐지할 수 있기 때 문에 보유한 결함패턴이 아닌 신규⋅복합 결함패턴도 결 함패턴으로 탐지가 가능하다. 또한 열지도를 활용해 이상 부분을 제시하여 결과에 대한 설명력 확보를 통해 근거 제시하여 현직자에게 신뢰를 줄 수 있다.
기존엔 단순한 결함패턴 분류로 신규⋅복합 결함패턴 을 분류 못하거나 신규⋅복합 결함패턴을 분류하였지만 근거가 없어 현장 엔지니어에게 신뢰를 줄 수 없던 상황을 모두 보완할 수 있다. 본 연구는 다양한 패턴의 탐지와 설 명력을 기반으로 현장 엔지니어가 모델 판단 결과에 신뢰 를 가져 육안 검사보다 빠르게 공정⋅설계 상 결함패턴의 원인을 조기에 탐지하고 결함 상태에 따라 공정 과정을 보다 효율적으로 운영할 수 있게 도움을 줄 것이다.
향후 연구 방향은 이중필터 패턴 디노이징의 결함패턴 에 대한 노이즈 제거와 결함패턴 보존을 잘하지만 정상 데이터의 경우에는 노이즈 제거 성능이 다소 부족하기에 패턴 디노이징의 정상 데이터에 대한 노이즈 제거 성능 향상을 통해 정상 데이터와 이상 데이터 간의 격차를 크게 함으로써 탐지 성능을 향상 할 계획이다. 또한 제안한 프 로세스는 패턴 디노이징과 업샘플링을 모델의 층으로 구 성 등의 방식을 고안하여 프로세스를 하나의 모델로 개선 하여 최종적으론 end-to-end 구조의 모델이 될 수 있게 연 구를 진행할 계획이다.