1. 서 론
스마트 제조 및 자율 제조의 도입이 가속화됨에 따라, 제조 데이터 기반의 고장 감지는 제조 공정의 지능화를 위한 핵심 기술로 자리 잡고 있다[9, 19]. 특히, 자동화된 제조 공정 시스템에서는 아날로그 센서나 비전 카메라를 통해 수집한 데이터를 이용한 기계 상태 모니터링이 활발 히 이루어지고 있다[1, 5, 6]. 실제 제조 현장에서 현장 작 업자가 상주하는 설비의 경우, 고장 감지를 작업자가 생산 작업 중 육안으로 고장을 관찰할 수 있다. 그러나, 작업자 가 설비에 대한 지식이 부족할 경우, 현재 공정에서 고장 이 발생한 것인지 혹은 다음 작업을 대기 중인 상태인지 정확하게 인지하기 어려운 경우도 존재한다. 또한, 다수의 설비를 동시에 관리하거나 야간 또는 무인 등의 원격 환경 에서는 작업자에게 의존한 고장 감지 방식으로는 한계가 있다. 이러한 한계를 극복하고자, 제조 공정으로부터 수집 된 데이터를 기반으로 기계학습 및 딥러닝 등의 인공지능 을 이용한 고장 감지 시스템이 구축되고 있다. 예를 들어, Roh and Han[12]은 승강기의 안전사고를 미리 방지하기 위하여 운행 상태 정보를 이용한 승강기 유지관리 품질을 평가하는 모델을 제안하였다. 로지스틱 회귀 모형을 기반 으로 건물용도, 사용 연수, 승강기의 속도, 운행 층수 등을 입력받아 승강기 유지관리 품질을 ‘주의’, ‘그 외’로 구분 하였다. Yoon[16]은 머신 비전을 이용한 금형 품질 검사 시스템을 개발하였다. 전통적인 이미지 처리 기법을 이용 하여 해당 제품의 품질을 정상 또는 불량으로 구분할 수 있었다. 실시간으로 촬영된 제품의 표면에서 이진 임계화 등을 거쳐 홀 가공이 수행된 위치를 검출하고, 사전에 정 의된 제품 설계 도면에 따라 가공이 올바르게 이루어졌는 지를 검사하였다. 이를 통해, 불량률 감소와 함께 신속한 검사를 통한 리드 타임 단축이 가능하였다. 이와 같이 인 공지능 기반의 고장 감지를 적용하여 고장 현상의 신속한 인지와 더불어 설비 유지보수를 위한 고장 관련 정보를 자동으로 추출하는 등의 응용 연구가 많이 진행되고 있다.
특히, 수집된 제조 데이터 분석을 통해 고장 감지를 수 행하는 모델의 성능(예: 얼마나 빠르고 정확하게 시스템의 고장 발생 여부를 판단하는가)은 생산하는 제품의 품질과 설비의 운영 효율성에 직접적으로 연관된다[4, 13]. 데이 터 분석적인 관점에서, 맞추고자 하는 목표에 해당하는 데 이터가 존재할 경우, 해당 모델의 성능이 높은 편이다. 그 러나, 실제 산업 현장에서는 고장 감지 모델을 만들기 위 해 사전에 고장 상태에서 데이터를 충분히 수집하는 것은 매우 어렵기에 정상 상태에서 수집된 데이터만을 사용하 는 비지도 학습(Unsupervised learning) 기반의 고장 감지 모델이 널리 사용되는 편이다. 정상 상태에 대한 충분한 학습을 통해 기존에 학습하지 않은 비정상 패턴을 고장으 로 감지하는 형태이다. 예를 들어, Soultanzadeh et al.[14] 은 공조 시스템의 고장 감지를 위하여 PCA(Principal component analysis) 기법을 사용하였다. 수집된 정상 상태에 서의 센서 데이터로부터 92% 이상의 Cumulative variance 를 달성할 수 있는 잠재 변수(Hidden latent variable)를 도 출하였다. 이후 추출된 새로운 변수 차원 내에서 제곱 예 측 오차(Squared prediction error)를 설비의 건전 상태 지표 로 활용하여 고장 감지를 하였다. Li et al.[10]은 비지도 학습 기반의 딥러닝 모델로 대표적인 Autoencoder을 사용 하여 기계 시스템의 고장을 감지하였다. 복잡한 기계 시스 템상에서 고장 감지 성능을 높이고자 수집된 데이터로부 터 그래프 정보와 특성 행렬(Feature matrix) 정보를 동시 에 추출하여 입력 변수로 사용하였다. 이때 출력변수로는 재구성된 Feature matrix를 설정하였으며 해당 과정에서 생성적 적대 신경망(Generative adversarial network) 컨셉 을 추가로 적용하여 적은 학습 데이터 수의 단점을 극복하 였다.
그러나, 비지도 학습 기반의 데이터 분석 기법은 기계를 실제 업무에 사용하면서 누적되는 고장 데이터를 고장 감지 모델 학습에 직접적으로 추가 반영하기 어렵다는 한계가 있다. 예를 들어, Baek and Kim[2]은 고장 감지를 하는 데 있어 이상적인 정상 데이터와 고장 데이터의 분포는 분포 내에서는 거리가 가까우나(작은 군내 변동), 분포 간은 거리 가 먼 경우라고(큰 군간 변동) 제시하였다. 그러나, 기계 시스템의 상태를 아날로그 센서로 모니터링을 한 결과, 정 상 상태와 고장 상태가 센서 데이터의 타점으로는 분포상에 서 겹치기도 하고 특정한 패턴을 보이지 않았다고 한다. 고장 상태로부터 얻은 정보가 없다면, 예측할 수 있는 매우 이상적인 패턴으로 나타나는 고장 데이터에 대해서는 비지 도 학습으로 충분히 대응할 수 있으나 그렇지 못한 경우는 고장 감지에 실패하게 된다는 의미이다. 이와 같이 고장 데이터가 포함하고 있는 숨은 정보는 고장 감지에 있어서 매우 중요할 것으로 예상되지만, 비지도 학습으로 이미 사 전에 구축된 고장 모델이 있다면 다시 학습하기 위해서는 전체적인 구조를 변경하여야 한다. 이를 극복하기 위해 Baek[3]은 아날로그 센서로부터 수집된 수치 데이터 기반의 고장 감지 모델에서 전이 학습(Transfer learning)을 적용하 여 고장 데이터가 없을 때의 비지도 학습으로 데이터의 특징을 추출한 후 완전 연결 계층(Fully connected layer) 기반의 지도 학습으로 고장 발생 여부를 분류하는(정상 또 는 고장) 방법을 제안하였다. 해당 연구에 의하면, 고장 데이 터가 누적됨에 따라 기존 비지도 학습만을 사용할 때 대비 고장 감지율이 조금씩 상승하는 것을 증명하였다.
본 연구에서는 이를 응용하여 자동화 제조 시스템에서 하나의 공정이 시작하여 완료되기까지를 촬영한 이미지 (사진) 데이터를 사용하는 모델에서도 고장 감지 성능이 향상되는지 실험적으로 살펴보고자 한다. 특히, 딥러닝 기 반의 고장 감지 모델이 지도 학습으로 학습 패러다임이 변경되게 될 경우, 동시에 크게 고려해야 할 요소는 모델 의 출력 형식이다. 비지도 학습에서는 학습 단계에서 알고 있는 정보가 모두 정상 상태로부터 추출된 정보임에 따라 평가 단계에서 기존에 알고 있는 정상 상태로부터 얼마나 다른가를 고장 감지의 지표로 사용한다. 이에 따라 양수 실수 범위의 값을 출력 형식으로 설정하여 0에 가까울수 록 정상 상태에 가깝고, 값이 커질수록 정상 상태에서 멀 어진다고 표현한다. 이 과정에서 3 시그마, 6 시그마와 같 은 임계치를 벗어날 경우, 고장을 감지하였다고 정의한다.
반면 딥러닝 모델 기반의 지도 학습을 적용할 경우, 일 반적으로 고장 감지 모델은 분류(Classification) 문제로 다 루어져 원-핫 인코딩(One-hot encoding) 처리가 된 1×2 크 기의 벡터 형태로 출력 형식을 사용한다[7, 15]. 벡터 내 두 요소가 각각 정상과 고장 상태의 확률을 나타내는 형태 이다. 그러나, 일반적인 분류 문제에서와 달리 고장 감지 를 위해 수집되어 분석에 사용되는 제조 데이터는 시간에 흐름에 따라 변화하는 시계열 데이터이므로 고장이 발생 한 순간과 고장 상태가 유지되는 것은 큰 맥락에서는 고장 상태로 동일하나, 신속하게 고장을 감지한다는 관점에서 는 상이한 부분이 존재하게 된다. 그러므로, 고장을 정확 한 시점에 감지하기 위해서 기존과 같이 분류 문제로 처리 하여 원-핫 인코딩 기반의 벡터 출력 형식을 사용하는 것 이 최적일지 또는 비지도 학습에서 사용하는 형태와 같이 연속적인 출력 형태를 사용하는 회귀(Regression) 문제로 접근하는 것이 최적일지에 대한 탐구도 필요하다. 또는 고 장 발생 시점에 더 큰 가중치를 부여하는 라벨링 전략이 효과적일 수 있다. 그러므로 본 연구에서는 고장 데이터가 누적됨에 따라 고장 감지 모델이 전환되어야 하는 방향을 1) 학습 패러다임과 2) 출력 데이터 형식의 관점으로 주목 하고자 한다. 두 가지 관점이 실제 고장 감지 성능에서 어 느 정도의 차이를 유발하는지 실험적으로 분석하여 실무 적용에 유의미한 고장 감지를 위한 설계 및 운용 파이프라 인을 제공하고자 한다.
본 논문의 2장에서는 연구에 사용한 데이터의 수집 상황 에 관해 설명한다. 3장에서는 제안하는 기법 및 이의 효과를 검증하기 위한 실험에 관해 기술하였으며, 4장에서는 최종 적인 연구 결과와 추후 연구에 대해 언급하였다.
2. 데이터 수집 및 전처리
2.1 분석에 사용한 자동화 제조 공정
Yu[17]의 연구에서 수집된 데이터를 이용하여 본 연구 를 위한 데이터 분석을 수행하였다. 연속적인 이미지 데이 터를 수집하기 위해 사용된 순차 제조 공정은 H 대학교의 스마트팩토리 테스트베드이다. 해당 공정은 USB 타입의 제품에 대해 다양한 검사 과정을 수행하고 상자에 담아 포장하는 작업으로 이루어져 있다. 전체 공정은 크게 7가 지 단계의 작업으로 구성되어 있다. 이 중 본 연구에서는 모든 공정의 움직임을 이미지로 촬영하기에 가장 용이한 구조를 가지면서, 다양한 액추에이터의 움직임이 존재하는 USB 검사 공정(USB dispensing process)으로부터 수집된 데이터를 사용하였다. USB 검사 공정은 <Figure 1(a)>와 같이 다양한 액추에이터로 구성되어 있으며, 이전 공정으 로부터 공급된 상자에 정상 제품으로 판정된 USB를 담아 내는 작업을 수행한다. 정상 운영될 때 시간에 따른 공정의 변화는 <Figure 1(b)>와 같이 나타낼 수 있다. 먼저 상자를 적재한 팔레트가 컨베이어를 통해 왼쪽에서 진입한다(첫 번째 사진: 이전 공정으로부터 팔레트 진입). 이후 스토퍼 (Stopper) 앞의 지정된 위치에서 팔레트가 멈추면(두 번째 사진: 팔레트 정위치 도착) USB 슬라이더(USB Slider)가 매거진(Magazine)에 있던 USB 중 가장 하단의 것을 작업 대(Worktable)로 밀어서 공급한다. 작업대에 1개의 USB가 놓이면, 검사 센서(USB inspection sensors)를 통해 USB의 색깔, 재질, 높이 검사를 진행하여 정상품 여부를 판단한다 (세 번째 사진: USB 검사). 검사 결과가 정상이면 진공 그 리퍼가 부착된 공압 실린더(Pneumatic cylinder and vacuum gripper for USB picking and transferring)가 작업대 위에 있는 USB를 흡착하여(네 번째 사진: 상자에 USB 투입) 상자 안에 담는다. 이후 스토퍼가 컨베이어 아래로 내려가, USB를 담은 팔레트가 컨베이어를 통해 오른쪽에 있는 다 음 공정으로 넘어간다(다섯 번째 사진: 다음 공정으로 팔레 트 진출). 공정이 정상적으로 진행되었을 경우는 전체 작업 이 총 66초에서 70초 이내에 완료되며 USB가 담긴 상자가 다음 공정으로 넘어가게 된다. 그러나, 공정 진행 중 액추 에이터 등의 설비에 문제가 발생하면 해당 설비의 작동이 중단되어 공정이 멈추거나 문제가 있는 상태로 작업이 진 행되어 불량 제품이 생산될 수 있다.
2.2 정상 및 고장 데이터 수집
본 연구에서의 정상 상태는 공정이 66초에서 70초 사이 에 모든 작업을 마치고 정상 제품이 다음 공정으로 전달되 는 경우로 정의하였다[17, 18]. 자동화 공정의 고장 상태는 공정의 진행 중 설비의 고장이 발생해 작업을 마치지 못하 거나 고장을 인지하지 못한 채 불량 제품이 다음 공정으로 넘어가는 경우로 정의하였다. 특히, 본 연구에서 분석한 USB 검사 공정에서 발생하는 5가지 고장 상태는 다음과 같다. 해당 공정의 첫 번째 고장 상태는 USB 매거진 내에 재고 부족으로 인해 슬라이더가 작동하지 않는 경우이다 (<Figure 2(b)>). 이 경우 팔레트가 지정된 멈춤 위치에 도 달해도 다음 작업이 이루어지지 않아 공정이 멈추게 된다. 두 번째 고장 상태는 <Figure 2(c)>와 같이 나타난다. 상자 가 없는 상태로 팔레트만 공정에 진입하여 불량 제품이 생산되는 경우이다. 이 경우 순차 작업을 위한 디지털 센 서로는 문제 상황을 인식하지 못하기에 공정은 계속 진행 되어 빈 팔레트 위에 USB가 놓인 불량 상태로 다음 공정 으로 넘어가게 된다. 세 번째 고장 상태는 공압 그리퍼의 흡착 실패로 인해 제품이 상자 위로 옮겨지지 못하는 경우 이다. 이 경우도 <Figure 2(d)>에서 보이는 바와 같이, USB를 담지 못한 상자가 불량 제품의 형태로 다음 공정으 로 넘어가게 된다. <Figure 2(e)>와 같이, 네 번째 고장 상 태는 공압 그리퍼의 상하 동작 불능으로 인해 제품이 적재 되지 않는 경우이다. USB 검사 작업은 정상적으로 마친 후 공압 그리퍼의 상하 작동이 이루어지지 않은 경우이다. 다섯 번째 고장 상태는 USB 슬라이더의 작동 불능으로 인해 제품 이동이 이루어지지 않는 경우이다(<Figure 2(f)>). USB를 작업대로 밀어주지 못하였기 때문에 공정 진행을 멈추게 된다. USB 검사 공정의 정상 상태 진행 상 황을 나타낸 <Figure 2(a)>와 비교해 보면 각 고장 상태별 로 시점에 따라 차이가 있음을 확인할 수 있다.
데이터는 해당 공정의 진행 상황을 위에서 한눈에 볼 수 있는 위치에 웹캠을 설치하여 연속적인 공정 이미지로 수집되었다. 공정의 시작부터 종료까지 1초 주기로 공정 이미지를 수집하였다. 해당 USB 검사 공정은 66초에서 70 초 사이에 완료되므로 최대 시간인 70초를 기준으로 Cycle 당 이미지 수집을 하였다. 한 Cycle 당 70장의 이미 지가 수집되었으며 정상 Cycle은 60개를 수집하고, 고장 Cycle은 종류별로 30개를 수집하였다.
3. 학습 패러다임 및 출력 형식 전환에 관한 실험 설계 및 결과 분석
3.1 기존의 비지도 학습 기반의 이미지 분석을 통한 고장 감지 모델
본 연구에서 제안하는 학습 패러다임의 전환이 고장 감 지 성능에 있어 효과적인지 확인하기 위해 기존 연구를 통해 개발된 Conv-LSTM(Convolutional Long Short-Term Memory) 기반의 비지도 고장 감지 기법[17, 18]의 성능을 기준점으로 사용하고자 하였다. Conv-LSTM은 비지도 학 습 기반의 딥러닝 모델로 시간에 따라 변화하는 이미지에 서 직전의 이미지를 통해 다음 시점의 이미지를 예측하기 위하여 많이 사용된다. 앞선 2장에서 설명한 바와 같이 본 연구에서 사용하는 입력 데이터는 하나의 공정 Cycle 단 위로 70장의 연속적인 RGB 이미지로 구성되어 있다. 시 간에 따른 변화를 반영하는 시계열 형태로 이미지를 1초 간격으로 수집되었기 때문에, 이러한 데이터는 시간 축을 포함한 4차원 형태(Time, Width, Height, RGB channels)의 입력값으로 구성된다. 이에 따라 이미지의 공간적 특징 추 출이 유리한 CNN(Convolutional Neural Network)[11]과 시 간 흐름에 따른 패턴 학습하는 LSTM[8]이 합쳐진 모델인 Conv-LSTM 모델을 활용하였다. <Figure 3>와 같이 입력 된 시점의 이미지 프레임을 기반으로 다음 시점의 이미지 를 예측하는 구조로, 주어진 현재 공정 이미지를 통해 그 다음 이어질 공정 이미지를 예측하도록 학습을 수행한다. 정상 상태의 이미지 Cycle에서 첫 번째부터 n-1번째 이미 지까지 입력으로 사용하고, 두 번째부터 n번째 이미지는 출력으로 하여 학습을 진행하였다(n = Cycle 내 이미지 데 이터의 수, 본 연구에서는 70). 다시 말해 i번째 이미지에 대해 i+1번째 이미지를 예측하는 형태이다.
예측된 이미지와 실제 이미지 간의 차이를 정량적으로 측정하기 위하여 평균 제곱 오차(Mean Squared Error, MSE)를 계산하여 시점별 예측 성능을 평가하였다. 비지 도 학습으로 진행하였기에, 학습에 사용된 것과 같은 정상 상태 데이터에 대해서는 낮은 MSE 값을 보인다. 다시 말 해, 예측된 이미지가 실제 이미지와 매우 유사하다는 의미 이다. 반면 고장이 발생하였을 때의 공정 이미지에 대해서 는 모델이 학습하지 않았기 때문에 출력된 예측 이미지는 실제 이미지와 달라져 MSE 값이 커진다. 따라서 MSE는 제안하는 Conv-LSTM 모델을 이용한 고장을 감지하기에 유용한 지표이다. 이를 바탕으로 각 시점에서의 평균에 3 배의 표준편차를 더한 Dynamic Threshold를 설정한 후, 해 당 값을 초과하는 경우 고장 상태로 판단하였다. 이는 정 규분포를 따르는 데이터의 약 99.7%가 평균 ±3 시그마 범 위 내에 존재한다는 통계적 특성을 이용한 통계적 공정 관리도(Statistical process control chart)의 관리 상한 및 하 한 계산법에서 차용하였다. MSE 값이 이 임계치를 초과할 경우, 정상 상태에서 벗어나 고장이 발생하였다고 판단할 수 있다.
3.2 고장 데이터 누적 시 적용 가능한 지도학습 모델
아날로그 센서 데이터에서 시도한 Baek[3]의 연구의 틀 을 적용하여 본 연구에서는 기존 비지도 학습 기반의 모 델인 Conv-LSTM 모델을 특성 추출기(Feature extractor)로 사용하고자 한다. 특성 추출기를 통해 얻은 예측 데이터 는 다음 시간 프레임에서 정상 상태일 때 예측되는 정상 데이터임에 따라 해당 시간으로 변화하였을 때 얻은 실제 데이터와 프레임 차분(Frame differencing)을 수행하였다. 그 결과 계산된 행렬 형태의 예측-실제 차이 이미지(Error image)를 지도 학습의 입력 데이터로 다시 사용하였다. 이 Error image는 예측된 이미지와 실제 이미지 간 화소 단위 (Pixel wise) 차이를 정량화한 결과로, 두 이미지의 대응 픽셀 간 편차를 계산하여 절댓값으로 나타낸 행렬이다. 예를 들어, 예측과 실제 이미지 간의 차이가 큰 화소에서 는 값이 커지고, 배경과 같이 두 이미지 간의 변화가 전혀 없는 화소에는 0의 값을 보인다. 이 Error image는 기존 비지도 고장 감지를 위한 Conv-LSTM 모델에서 출력된 예측값과 실제 수집된 이미지 간의 차이를 이미지의 형태 를 유지한 채 계산한 것이다. 기존 비지도 학습에서는 이 를 다시 MSE 값으로 압축하여 사용하였다면, 지도 학습 으로의 전환에서는 본 Error image 자체가 가진 특성을 이 용하고자 한다. 고장이 발생하였다면, 정상 상태에서 운영 되었을 것으로 예측한 데이터와 실제 관측값이 큰 차이를 보일 것이다.
본 연구는 일반적인 이미지 기반의 분류 또는 회귀 문 제임에 따라, Error image를 CNN에 입력하여 고장 여부를 분류하였다. CNN은 이미지의 공간적 특징을 추출하는 데 효과적인 모델로 Error image 내 포함된 패턴을 학습하여 정상, 고장 여부를 분류하는 데 활용되었다[11]. 특히, 고 장 감지 문제는 이진 분류로 많이 수행됨에 따라, 본 연구 에도 시점마다 원-핫 인코딩(One-hot encoding) 형태의 출 력 데이터가 발생하도록 모델을 구축하였다. 이를 통해 고 장 발생 시점을 명확히 식별할 수 있다. 최적의 CNN 기반 의 고장 감지 모델을 설계하기 위하여 다양한 하이퍼파라 미터에 대한 탐색을 수행하였다. 주요 탐색 변수는 필터 수, 활성화 함수, 풀링 방식, 배치 크기이며 각각 다음과 같은 범위 내에서 탐색하였다. 컨볼루션 층의 필터 수는 16, 32, 128로, 활성화 함수는 ReLU, Leaky ReLU를 비교 하였고 풀링 방식은 Max pooling, Average pooling을 사용 하였다. 또한, 배치 크기는 16, 32, 64로 설정하여 성능을 비교하였다. 이와 같은 범위 내에서 최적의 하이퍼파라미 터 조합을 도출하였으며, 그 결과는 <Table 1>과 같다.
3.3 고장 데이터 누적 시 고장 감지 모델의 학습 패러다임 전환에 따른 성능 비교
정상 데이터는 초기 고장 감지 모델을 만들 때부터 충 분히 수집되어 있고, 이후 자동화 제조 시스템을 사용함에 따라 고장 데이터가 누적되는 상황을 재현하기 위하여 전 체 고장 데이터가 학습 데이터에 포함된 정도를 6가지 시 나리오로 분류하여 성능을 검증하였다: i) 정상 데이터만 이 존재하는 경우, ii)∼vi) 수집된 고장 데이터 중 10, 20, 40, 60, 80%와 정상 데이터가 함께 포함된 경우. 정상 데이 터의 경우 항상 수집된 데이터의 80%를 학습에 사용하였 고, 시나리오 별로 학습 데이터의 20%는 검증 데이터로 활용하였다. 또한 교차 검증(Cross validation)을 적용한 효 과를 내기 위해 전체 수집된 고장 데이터로부터 학습에 사용될 데이터는 무작위로 선정하여 실험하였으며, 하나 의 경우에 대한 실험 횟수는 총 5번으로 하였다. 기준치 비교를 위해 비지도 학습으로 고장 감지를 한 경우는 기존 연구의 결과의 수치[17]를 사용하였다.
시계열 데이터상에서 고장 감지를 수행함에 따라 고장 감지 성능 지표를 일반적인 분류에서의 정확도 지표를 그 대로 사용하는 것은 타당하지 않았다. 예를 들어, 자동화 제조 공정 시스템이 0초부터 계속 정상적으로 동작하다가 특정 시점인 t0에서 고장이 발생하여 데이터 수집이 t1에서 종료되었다고 가정하자. 이때 고장 감지 모델이 0초부터 고장 발생 직전까지를 정상으로 판단하고(t0-1), t0부터 t1 까지 모두 고장 발생으로 판단한다면 가장 이상적이겠으 나, t0+1 시점에 고장으로 판단한 것은 매우 잘못되었다기 보다는 고장 판단은 올바르나 다소 늦은 것으로 간주하여 야 할 것이다. 반면에 본 실험에 사용한 고장 데이터는 고 장 발생 전 열화를 보이지 않는 데이터이므로 고장 발생 시점 t0 이전에 고장 감지를 한 것은 매우 잘못 판단한 것일 것이다. 또한 올바른 시점에 고장 감지를 판단하게 되면 이후 실제 공정을 운영하는 작업자는 고장을 해결하기 위 해 시스템 운영을 종료하였을 것이므로 이 관점들을 모두 고려하여 데이터 세트 단위로 고장 발생 시점을 고려하여 고장 감지 성능을 측정하였다[3, 18].
최종적으로 실험 결과는 아래 <Table 2>와 같다. 실험 결과 정상 데이터의 결과와 비교하였을 때 학습에 활용할 수 있는 고장 데이터가 풍부해질수록 고장 감지 성능이 향상됨을 확인할 수 있었다. 특히, 이미지를 활용한 본 연 구에서도 아날로그 센서 데이터를 통한 연구에서와 같이 학습 데이터 내 정상 및 고장 데이터의 비율이 1:0.25인 지점부터 약 90% 이상의 높은 고장 감지율을 보였다. 또 한 고장 데이터가 학습 데이터에 많이 사용될수록 유의미 하게 고장 감지 성능이 계속해서 향상되었으므로, 제안한 방법과 같이 상황에 맞춘 학습 패러다임 전환의 필요성을 확인할 수 있었다.
3.4 출력 라벨의 표현 방식에 따른 고장 감지 성능 비교
3.3절을 통해 조금의 고장 데이터가 누적된 이후에는 기 존의 비지도 학습 모델을 특징 추출기로 사용하고, 전이 학습에서 보통 마지막 레이어만을 새로 학습하듯이 고장 데이터로부터 정보 학습이 가능한 지도 학습 레이어를 신 설하는 것이 고장 감지에 있어 더 효율적임을 확인하였다. 새롭게 추가하는 지도 학습 부분의 딥러닝 모델에 대해 최적의 고장 감지 모델로 구축하기 위해 아래와 같은 작업 은 사전에 수행하였다: (i) 이미지 데이터의 특성을 고려한 CNN 구조, (ii) 시계열 데이터의 특성을 고려한 데이터 입 력 시 Frame differencing, (iii) 하이퍼파라미터 튜닝. 그러 나, 비지도 학습에서 지도 학습으로 학습 패러다임에 전환 됨에 따라 출력 데이터의 형식을 1×2형태의 One-hot encoded vector로 변경하였으나 이것이 최적인지에 대한 탐 색이 필요하다. 보편적으로 고장 감지는 현재 데이터를 정 상과 고장을 분류함에 따라 정상, 고장에 대한 확률을 계 산하는 요소가 각각 존재하는 1×2 형태의 One-hot encoded vector로 출력 데이터의 형식을 지정한 분류 문제로 많이 접근된다. 신뢰성 분석과 같이 고장 발생 전 서서히 기계가 낡아감을 고려하여 열화 데이터가 수집되는 경우 에는 0에서 1 사이, 또는 0에서 100 사이의 연속적인 실수 로 출력 데이터의 형식으로 지정하는 회귀 문제로 접근하 는 것도 가능하다. 이외에도 열화 과정을 고장 발생 전 증 상(Symptom) 상태 등으로 정의하여 2개 이상의 카테고리 가 있는 분류 문제로 푸는 전략도 가능하다. 그러나, ‘고장 감지’ 문제에서는 고장이 발생한 후 정확하게 고장으로 감 지하느냐와 더불어, 얼마나 신속하게 식별할 수 있느냐가 동시에 중요하다. 그러므로 본 연구에서는 기존 출력 라벨 표현 방식을 변형하여 총 네 가지 경우로 구분하여 실험을 설계하여 결과를 획득하였다: i) 기존의 정상과 고장으로 분류하는 출력 형식(1×2 One-hot encoding), ii) 정상, 고장 발생, 고장 상태 유지로 분류하는 출력 형식(1×3 One-hot encoding), iii) 학습 시에는 0이 정상, 1이 고장으로 지정된 후 평가 시에는 0.5 이상일 경우, 고장이라고 판단하는 출 력 형식(0과 1 사이 범위의 수치 변수 1개), iv) 0에서 2 사이의 값을 가지며 학습 시에는 0이 정상, 1은 고장 상태 유지, 2는 고장 발생을 의미하며 평가 시에는 1 이상이면 고장 감지를 의미하는 출력 형식(0과 2 사잇값을 가지는 1개의 수치 변수). ‘고장 발생’에 대해 별도로 라벨을 표기 한 경우는 정확한 시점(하나의 타임스탬프)에만 해당된다. 모든 경우에 대해서 기존 3.2절에서 제시한 지도 학습 모 델의 구조를 그대로 활용하되 마지막 출력층에 대해서만 수정하였다. 학습 및 평가 데이터의 구성은 3.3절에서 실 험 결과 중 가장 성능이 좋았던 경우(수집된 고장 데이터 중 80%를 포함한 경우)에 대해 진행하였다.
실험 결과는 <Table 3>과 같다. 모든 경우에서 높은 수 준의 고장 감지 성능을 유지하였으나, 특히, 정상, 고장 발 생, 고장 유지로 분류하거나 회귀하는 출력 형식(1×3 One-hot encoding, 0과 2 사잇값을 가지는 1개의 수치 변 수)이 가장 뛰어난 성능을 보였다. 이는 고장 발생을 별도 의 카테고리로 취급하거나 가중치를 추가하는 것이 시계 열 데이터상에서 정확한 시점을 맞추는 데 있어 도움이 되었음을 의미한다. 다만 고장을 잘 감지한다는 것은 고장 이 발생하였음을 정확히 맞추는 것도 중요하지만, 고장 발 생 후 얼마나 빠르게 감지하느냐도 중요하다. 이에 따라 고장을 올바르게 감지한 경우, ‘고장 발생 후 고장 감지까 지 걸린 시간(Mean detection time)’을 추가로 측정한 결과 1×3 One-hot encoding 형식일 때 가장 빠르게 고장을 감지 함을 확인할 수 있었다. 회귀 분석 기반의 출력 형식의 경 우, 기존의 1×2 One-hot encoding 출력 형식과 비교하였을 때 정확하게 고장을 감지하느냐(고장 감지율)와 신속하게 고장을 감지하느냐(고장 감지 시간) 사이에서 Trade-off가 발생한 것으로 추정된다.
4. 결 론
본 연구는 자동화 제조 공정 시스템에서의 고장 감지를 위해 공정 시스템이 작동되는 동안 연속적으로 촬영된 이 미지 데이터 분석을 하는 관점에서, 고장 감지의 성능을 높이는 방법에 대해 탐색하였다. 자동화 제조 공정 시스템 의 특성상 고장 감지 모델을 구축할 당시 실제 발생 가능 한 모든 고장에 대해 사전에 데이터를 모두 수집하는 것은 어렵기 때문에 비지도 학습 기반으로 모델을 구축하는 편 이다. 이후, 고장이 발생하여 관련 데이터가 수집되었을 때 계속 기존 전략을 유지하는 것이 좋을지 변경하는 것이 좋을지에 초점을 맞추어 성능 비교 분석을 수행하였다. 본 연구에서는 제조 공정을 운영함에 따라 실제 고장 데이터 가 누적되므로, 기존의 비지도 학습 모델에서의 장점은 특 징 추출기로 유지하면서 고장 감지 모델 자체는 전이 학습 기반으로 지도 학습으로 변화하는 것을 제안하였다. 그 결 과 기존 구축된 비지도 학습 기법을 사용하는 것보다 학습 데이터 내의 고장 감지 데이터의 비율이 1:1 수준에 미치 지 못하는 매우 적은 수준이더라도 지도 학습으로 전환하 는 것이 고장 감지 성능 측면에서 더 효과적이었다. 또한 지도 학습으로 변화하는 과정에서 고장 감지 모델의 출력 형식에 대한 최적화를 추가로 수행하였다. 일반적으로 고 장 감지 문제를 이진 분류기로 간주하여 사용하는 1×2 One-hot encoded vector보다 고장 발생 시점에 대해 다른 라벨을 부여한 1×3 One-hot encoded vector로 하였을 때 정확도 및 신속성 측면에서 모두 고장 감지 성능이 향상됨 을 확인할 수 있었다.
제안하는 딥러닝 모델을 이용하여 고장 감지를 수행할 경우, 작업자가 설비 유지보수에 대한 지식이 부족하거나, 원격의 상황에서 설비 관리를 해야 하는 환경에서도 실시 간으로 고장 감지가 가능하므로 자동화 제조 공정 시스템 의 다운타임(Downtime)을 감소시킬 수 있을 것으로 기대 한다. 그러나, 제안한 방법에 대해 성능을 보다 향상하기 위해서는 고장 발생 상황에 대해 얼마나 가중치를 줄 것인 지(가중치의 크기 및 길이)에 대한 추가 연구가 필요하다. 또한, 다양한 기계 시스템에서 적용되기 위해서는 출력 형 식뿐만 아니라 입력 형식에 대한 최적화 역시 필요하다. 이미지 데이터로서의 가로, 세로 길이[18] 뿐만 아니라 센 서 데이터로 변환하였을 때의 제안한 방법을 적용하기 위 한 2차원 표현 형식에 대해 추가 제안한다면 설비의 고장 감지 및 건전 상태 모니터링 관점에서 더 효과적으로 적용 될 것이다.