1. 서 론
진동 데이터를 이용한 모터 상태 모니터링에서 진동 데이터가 수집되면 고장 진단을 위해서 일반적으로 FFT를 이용한 주파수분석, ISO 20816-1 기반의 기계진동 평가, 기계학습 등의 세 가지 방법을 사용할 수 있다. 먼저, <Figure 1>에 표시된 주파수분석은 FFT(Fast Fourier Transform)를 이용하여 신호에 대한 주파수 패턴을 도출하여 이상원인이나 모터 내부 베어링의 고장 원인을 찾아낼 수 있다[13]. 둘째, ISO 20816-1에 기반한 기계진동 평가 방법은 <Figure 2>에 표시된 것과 같이 모터 용량에 따른 진동의 속도 값을 기준으로 모터의 이상 여부를 판단할 수 있다. 셋째, 기계학습을 이용한 진단에서는 아날로그 신호에 대해 샘플링을 통해 디지타이징 및 특성치(Features)를 도출하여 이를 이용한 분류모형을 개발하여 분석할 수 있다[11, 23].
최근 모터의 이상상황 또는 고장탐지를 위해서 기계학습 기반의 이상상황 및 고장탐지 방법이 많이 사용되고 있다[3, 7, 12, 22, 23]. 이 방법은 기존의 물리적 해석적인 방법과 비교하여 신호 해석 등을 위한 전문가가 필요하지 않으며, 수집된 데이터를 이용하면 실시간으로 모터의 이상상황을 탐지해 낼 수 있다.
하지만, 진동, 소음, 전류 등의 아날로그 신호의 경우 기계학습 모형을 만들기 위해서는 샘플링을 통해 아날로그 신호를 디지털화해야 한다. 이때, 아날로그 신호에 대한 샘플링 값의 경우 신호의 숨겨진 패턴을 반영하지 못할 수 있다. 따라서 신호에 대한 샘플링 값을 이용하여 학습모형을 만드는 경우 만족스럽지 못한 성능을 보여주는 경향이 있다.
따라서, 모터의 진동 샘플링을 이용한 이상상황 탐지 및 상태에 대한 예측 모델의 성능을 향상시키기 위해서는 하이퍼파라미터 최적화를 적용할 수 있다. 하이퍼파라미터 최적화는 모형의 최상의 성능을 가져오는 하이퍼파라미터 조합을 찾기 위해 탐색을 수행하는 것을 의미하며, 기계학습 모형을 구축하는 데 있어 중요한 프로세스 중 하나이다 [13]. 하이퍼파라미터 최적화를 위한 일반적인 기법으로는 그리드 탐색(Grid Search), 랜덤 탐색(Random Search), 베이지안 최적화(Bayesian Optimization) 등이 있으며, 또한 실험계획법에 기반한 반응표면분석(RSM)을 최적화에 적용할 수 있다.
그리드 탐색은 가장 간단하고 직관적인 방법이지만, 탐색 시간이 많이 소요되는 단점이 있다. Hwang[5], You et al.[21], Kwon et al.[9]은 학습 모델의 하이퍼파라미터 최적화를 위해 그리드 탐색을 적용하는 방안을 제시하였다. Park et al.[11], Lee et al.[14], Vulpe-Grigorasi et al.[18]은 예측 모델의 정확성을 확보하기 위해 랜덤 탐색을 적용하여 하이퍼파라미터를 최적화하는 방안을 검증하였다. Choi et al.[1], Kim et al.[8], Hwang et al.[4]은 분류모형에 베이지안 최적화를 적용한 예측 기법을 제안하였다.
한편, 하이퍼파라미터 최적화를 위해 실험계획법에 기반한 방안을 제시한 연구도 있다[2]. 먼저 요인 분석을 통해 주요 하이퍼파라미터를 찾아낸 후 반응표면분석을 이용하여 하이퍼파라미터를 최적화하는 방법을 사용한다. 또한 Lee et al.[10]은 이미지 분류 문제에서 합성곱 신경망의 하이퍼파라미터 최적값을 찾기 위한 실험계획을 적용하는 방안을 제안하였는데, 높은 성능을 갖는 값을 랜덤 탐색으로 찾아낸 후 그리드 탐색을 적용함으로써 정확도를 높일 수 있음을 보였다.
본 연구에서는 진동 센서를 통해 수집된 아날로그 데이터를 적용한 기계학습 모형을 개발하였다. 일반적으로 기계학습 모형을 적용하기 위해서는 95% 이상의 분류 정확도를 요구하고 있다. 하지만, 본 연구의 경우 분류 정확도가 93% 안팎의 값을 나타내고 있어 이를 개선할 방안이 필요하였다.
기계학습 모형에서는 일반적으로 Raw 데이터를 이용하여 학습을 수행한 후 분류 정확도 등의 지표값이 낮은 경우 하이퍼파라미터 조정이 필수적이다. 기계학습 알고리즘의 하이퍼파라미터를 조정하기 위한 여러가지 방법이 있으며, 본 연구에서는 기계학습에서 제공하는 대표적인 하이퍼파라미터 최적화 방법인 그리드 탐색, 랜덤 탐색, 베이지안 최적화 방법을 수행한다. 본 연구에서는 추가로 직교배열표를 이용하여 효과가 큰 인자(하이퍼파라미터)를 선택하고 선택된 인자의 탐색 범위에서 반응표면분석 기반의 최적화를 시도한다. 직교배열표는 실험의 크기를 키우지 않고 실험에 많은 인자를 적용할 수 있으므로 효율적이다. 또한 불필요한 교호작용을 구하지 않음으로써 실험 횟수를 적게 할 수 있다. 그러나, 아날로그 신호 데이터는 샘플링 데이터만을 통해서는 패턴을 찾기가 어려우므로, 주기를 고려한 샘플링 및 분포를 반영할 수 있는 기술 통계치를 통해서 학습을 수행할 필요가 있다. 따라서 본 논문은 위와 같은 절차에 의해 연구를 수행하였다.
먼저, 진동 센서를 이용하여 진동 신호에 대한 샘플링을 통해 아날로그 데이터를 수집한다. 둘째, 수집된 데이터를 이용하여 분류모형을 개발한다. 셋째, 분류 정확도를 개선하기 위하여 그리드 탐색, 랜덤 탐색, 베이지안 최적화, 반응표 면분석을 적용한다. 이때 위에 언급된 하이퍼파라미터 최적화 기법을 통해서는 분류 정확도 개선에 한계가 있는 것으로 판명되었다. 따라서, 아날로그 신호 데이터의 숨겨진 특성치 패턴을 도출하기 위해 평균, 분산, 왜도, 첨도, 백분위수 등의 기술통계치를 구해서 이를 분류모형에 적용하였다.
본 논문의 구성은 다음과 같다. 제2장에서는 모터 다이나모 시험을 통한 데이터 수집과 각 분류모형에 대한 하이퍼파라미터를 도출한다. 제3장에서는 하이퍼파라미터 최적화 과정을 통해 도출된 하이퍼파라미터 값을 제시하고, 그 결과를 논의한다. 제4장에서는 기술통계치를 적용한 분류모형에 관해 설명하고, 마지막으로 제5장에서는 제안된 방법론의 한계점과 추후 연구에 대한 제시와 함께 결론을 제시하도록 한다.
2. 데이터셋 및 하이퍼파라미터 선정
2.1 데이터셋 수집 및 분류모형 학습
본 연구에서는 데이터 수집을 위해 <Figure 3>과 같이 다이나모 시험장치를 이용하여 시료 모터 시험을 실시하였다. 먼저 테스트베드에 시료 모터를 느슨하게 고정하는 경우, 고정볼트를 과하게 조여서 misalignment가 발생하는 경우, 적절하게 고정한 정상적인 경우에 대한 진동 데이터를 수집하였다. 진동 센서는 시료 모터의 베어링 위치의 표면에 X, Y, Z 방향으로 부착하여 진동 데이터를 수집하였으며 수집된 데이터 중 일부는 <Table 1>과 같다.
다이나모 시험 중 이상상황 탐지를 위해서 지도학습(Supervised Learning) 방법 중 Support Vector Machine (SVM), Random Forest(RF), Adaptive Boosting(AdaBoost) 등의 분류모형을 사용하였다. 수집된 정상 데이터와 비정상 데이터에 대해 라벨링을 수행한 후 특성치 값들이 평균이 0, 분산이 1을 갖도록 표준화하였다. 모형 학습 단계에서는 수집 데이터의 70%를 학습데이터(train data)로 사용하여 분류모형을 만들고, 나머지 30%(test data)를 사용하여 학습모형을 검증하였다. 이때 분류모형의 정확도는 93% 안팎의 값을 보여주었기 때문에 정확도 향상을 위해 분류모형별 하이퍼파라미터의 최적화 작업을 진행할 필요가 있었다.
2.2 하이퍼파라미터 선정
본 연구에서는 <Figure 4>에 표시된 것과 같은 절차에 따라 학습모형을 개발하였다. 도출된 학습모형에 대해서는 성능지표 개선을 위해 그리드 탐색, 랜덤 탐색, 베이지안 최적화 등의 하이퍼파라미터 최적화 기법을 이용하여 모형 최적화를 진행하였다. 각 분류모형에 대해 주요 인자로 알려진 하이퍼파라미터를 <Table 2>와 같이 선정하였 다[20].
3. 하이퍼파라미터 최적화 수행
일반적으로 분류 정확도를 개선하기 위해서는 그리드 탐색, 랜덤 탐색, 베이지안 최적화 등의 방법을 사용한다. <Figure 5>는 그리드 탐색, 랜덤 탐색, 베이지안 최적화 방법의 탐색 구간을 진행하는 방법을 나타내고 있다. 그리드 탐색은 미리 정의되어 있는 하이퍼파라미터 구간에서 일정 간격으로 하이퍼파라미터 값을 선택하여 성능지표를 확인하고, 가장 높은 성능지표를 갖는 하이퍼파라미터값을 최적해로 선택한다. 그리드 탐색과 달리 하이퍼파라미터 구간 내에서 임의로 값을 선택하는 랜덤 탐색은 반복 탐색 구간을 줄여 빠르게 최적의 하이퍼파라미터 값을 찾는 방법이다. 탐색 구간을 구성할 때 전 구간을 대상으로 하므로 초기해를 찾는 데 유리하다. 또한 랜덤 탐색 후 세분화하여 그리드 탐색으로 최적화 진행이 가능하다. 베이지안 최적화는 손실함수(Loss function)를 설정한 후 손실 함수를 최소화하는 방향으로 하이퍼파라미터 값을 탐색한다[16].
본 연구에서는 하이퍼파라미터의 탐색 범위 설정은 수준간 차이를 크게 해서 성능에 영향을 미치는 주요 범위를 스크리닝하기 위해 <Table 3>과 같이 선정하였다[2]. 세 가지 최적화 방법으로 구한 최적 하이퍼파라미터 값은 <Table 4>와 같으며, 모형별 분류 정확도가 가장 높은 하이퍼파라미터 조합을 보여주고 있다. 최적 하이퍼파라미터를 이용한 분류모형의 정확도는 <Table 10>의 두 번째 열, 세 번째 열, 네 번째 열에 각각 표시되어 있으며, 여전히 93% 안팎에 머물러 있다. 따라서, 위와 같은 세 가지 방법에 따른 하이퍼파라미터 최적화로는 원하는 성능지표 값을 달성할 수 없으므로, 추가로 반응표면분석을 이용한 하이퍼파라미터 최적화를 수행하였다.
본 연구에서는 주효과와 2인자 교호작용을 검출하고 실험 횟수를 줄일 수 있는 실험계획법인 직교배열표를 적용 하였으며, 유의한 요인 인자들을 판별하기 위해 분산분석 (ANOVA)을 수행하였다. 분산분석으로부터 유의한 인자를 도출한 후 인자에 대한 최적치를 찾기 위해 반응표면분석을 수행하였다.
반응표면분석을 통한 최적화를 위해 먼저, 하이퍼파라미터와 그 범위를 선택한다. 둘째, 직교배열표를 이용하여 주요 인자(하이퍼파라미터)를 식별해 낸다. 셋째, 식별된 인자를 사용하여 반응표면분석을 수행하고, 반응의 변화가 원하는 목표치가 될 때까지 모델 최적화를 진행한다. 직교배열표에서 사용한 인자와 수준은 <Table 5>와 같다.
본 연구에서는 2수준계 직교배열표를 적용하였으며, 3 인자 이상의 교호작용은 없을 것으로 판단하여 제외시켰다. SVM, RF, AdaBoost 모형에 2수준계 직교배열표를 적용하였고, 그중에서 <Table 6>은 Random Forest에 사용되 는 하이퍼파라미터에 대한 직교배치 요인과 수준을 보여 주고 있다. <Table 6>의 인자와 수준을 적용한 2수준계 직교배열 설계의 분산분석 결과는 <Table 7>과 같으며, 유의수준 0.05 기준으로 유의하지 않은 인자는 풀링(pooling) 하였다. 주효과 B와 C는 유의수준 0.05에서 유의하지 않지만, 교호작용(B*C)에서 유의하므로 인자 B, C, D, F를 사용하여 반응표면분석을 실시하였다. 본 연구에서 최적화할 응답 변수는 정확도(accuracy)이며, 정확도는 크면 클수록 좋은 망대특성이므로 반응표면분석을 통해 얻은 인자의 값은 <Table 8>과 같다.
<Table 10>의 다섯 번째 열에 표시된 것과 같이 반응표 면분석을 통한 최적화 역시 분류모형의 정확도 향상에는 한계를 보여주었다. 이는 아날로그 신호는 주기(주파수) 단위의 패턴을 근거로 정상/비정상 등 특성을 판단해야 한다. 따라서 신호에 대한 일반적인 샘플링을 통해서는 패턴을 찾기가 어렵고, 주기를 고려한 샘플링 및 기술통계치와 같은 분포 정보를 통해서 아날로그 신호의 본래 특성을 파악할 수 있다. 따라서, 본 연구에서는 아날로그 데이터의 패턴 정보를 찾기 위해 신호에 대한 샘플링 데이터를 이용한 기술통계치를 도출하고, 이를 분류모형에 적용하였다.
4. 기술통계치를 활용한 분류모형 개발
수집한 샘플링 데이터로 <Table 9>와 같이 평균(mean), 분산(variance), 표준편차(standard deviation), 왜도(skewness), 첨도(kurtosis), 백분위수(Percentiles) 등의 기술통계치를 도출하였다. 데이터의 전처리는 앞서 진행한 방법과 동일하게 적용하였으며, 기술통계치를 특성치로 사용하여 분류모형을 학습시켰다. 기술통계치를 이용한 분류모형의 정확도는 <Table 10>의 마지막 열에 표시된 것과 같이 99% 이상의 만족스러운 성능을 보였다.
<Table 10>은 각 분류모형에 대해서 검증 데이터(test data)를 사용한 Raw 데이터, 그리드 탐색, 랜덤 탐색, 베이지안 최적화, 반응표면분석, 기술통계치를 적용하였을 때의 정확도를 비교한 결과를 보여주고 있다. 아날로그 신호 데이터를 이용한 모형과 이 모형에 대한 하이퍼파라미터 최적화를 수행한 모형의 경우 요구되는 95%를 달성할 수 없었지만, 기술통계치를 이용한 분류모형의 경우 분류 정확도를 99% 이상 달성할 수 있어 현장에 적용할 수 있다고 판단할 수 있다.
5. 결 론
본 연구에서는 주기를 갖는 아날로그 신호 데이터를 이용한 이상상황 탐지 기계학습 알고리즘에서 성능향상을 위한 방법론들을 제시하였다. 아날로그 신호에 대해서는 <Table 10>에서 알 수 있듯이 그리드 탐색, 랜덤 탐색, 베이지안 최적화, 반응표면분석을 활용한 하이퍼파라미터 최적화의 경우 성능향상에 한계가 있음을 알 수 있었다. 이는 아날로그 신호에 대한 샘플링 데이터는 신호에 숨겨진 패턴을 반영하지 못하고 있기 때문이라고 판단된다. 아날로그 신호 데이터의 경우 신호에 숨겨진 패턴을 반영할 수 있는 기술통계치를 이용한 분류모형의 개발이 대안이 될 수 있음을 알 수 있다.
본 연구에서는 시료 모터 체결상태의 불량을 통한 이상 상황 판단에 초점을 맞추었다. 추후 연구로는 첫째, 모터 시험 중에 시료 모터의 베어링 파손 등과 같은 기계적인 결함이 발생할 수 있으므로 이러한 상황에 대한 추가적인 데이터 수집을 통해 분류모형에 반영할 필요가 있다. 둘 째, 기술통계치를 사용하는 경우 과적합 문제가 발생할 수 있지만, 앙상블 학습을 사용할 때는 각 베이스 모형들을 학습한 후 대푯값을 취하므로, 과적합의 가능성을 줄일 수 있다고 알려져 있다. 따라서 과적합의 가능성은 낮은 것으로 예상되지만 이에 대한 추가 검증이 필요하다.