Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.47 No.4 pp.29-38
DOI : https://doi.org/10.11627/jksie.2024.47.4.029

Mixed Oversampling Using BAGAN-GP and Oversampling Techniques

Dongju Lee†

Department of Industrial Engineering, Kongju National University

^†Corresponding Author : djlee@kongju.ac.kr

Received 12/09/2024 Finally Revised 26/10/2024 Accepted 28/10/2024

Abstract

Defective product data is often very few because it is difficult to obtain defective product data while good product data is rich in manufacturing system. One of the frequently used methods to resolve the problems caused by data imbalance is data augmentation. Data augmentation is a method of increasing data from a minor class with a small number of data to be similar to the number of data from a major class with a large number of data. BAGAN-GP uses an autoencoder in the early stage of learning to infer the distribution of the major class and minor class and initialize the weights of the GAN. To resolve the weight clipping problem where the weights are concentrated on the boundary, the gradient penalty method is applied to appropriately distribute the weights within the range. Data augmentation techniques such as SMOTE, ADASYN, and Borderline-SMOTE are linearity-based techniques that connect observations with a line segment and generate data by selecting a random point on the line segment. On the other hand, BAGAN-GP does not exhibit linearity because it generates data based on the distribution of classes. Considering the generation of data with various characteristics and rare defective data, MO1 and MO2 techniques are proposed. The data is augmented with the proposed augmentation techniques, and the performance is compared with the cases augmented with existing techniques by classifying them with MLP, SVM, and random forest. The results of MO1 is good in most cases, which is believed to be because the data was augmented more diversely by using the existing oversampling technique based on linearity and the BAGAN-GP technique based on the distribution of class data, respectively.

Key Words : BAGAN-GP , Data Augmentation , Manufacturing System

BAGAN-GP와 오버샘플링 기법들을 이용한 혼합 오버샘플링

이동주†

공주대학교 산업공학과

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

제조데이터는 양품데이터는 풍부한 반면에, 불량품 데이터의 확보가 어려우므로 불량품 데이터 수가 극히 적은 경우가 많다. 이렇게 데이터 불균형이 심한 경우 인공신경망 등의 분류 모형 학습 시 모든 데이터를 양품으로 판단하여 분류 예측 성능이 낮더라도 정확도(Accuracy)가 높게 나타나는 등의 문제를 야기할 수 있다.

데이터 불균형으로 인한 문제를 해결하기 위해 자주 사용되는 방법 중 하나는 오버샘플링(Oversampling)이다. 오버샘플링이란 데이터의 수가 적은 소수 클래스(Minor Class)의 데이터를 증가시켜 데이터 수가 많은 다수 클래 스(Major Class)의 데이터 수와 비슷하도록 만드는 방법이다. 이러한 오버샘플링 기법으로는 SMOTE(Synthetic Minority Over-Sampling Technique), ADASYN(Adaptive Synthetic Sampling), Borderline-SMOTE, GAN(Generative Adversarial Networks), BAGAN-GP(Balancing Generative Adversarial Networks-Gradient Penalty)등이 있다.

GAN은 2014년 Goodfellow[4]가 제안하였는데, 다층퍼셉트론으로 구성된 생성자(Generator)와 판별자(Discriminator)의 대립적인 학습을 통해 데이터를 생성해내는 생성 모델이다. GAN은 데이터 불균형이 심한 경우 소수 클래스의 데이터의 증강에 자주 사용되는데, 특히 이미지 데이터의 증강에 사용되어 왔다. GAN의 목표는 실제 데이터 분포와 생성자가 만든 가짜 데이터 분포가 같아지는 것을 목표로 한다. 즉, 진짜 같은 가짜를 생성하는 것이 목표이다.

GAN을 적용하여 데이터를 증강한 연구들은 다음과 같다. Kim et al.[10]은 부식결함 데이터를 GAN을 이용하여 생성하고 가스배관의 잔여수명 확률분포를 추정하는데 사용하였다. Han and Kim[6]은 시계열 특성을 지닌 농산물 거래 데이터의 결측치와 이상값 보정을 위해 LSTM-GAN 방법을 적용하였다. Choi et al.[2]은 고병원성 조류 인플루엔자(HPAI) 가 겨울철에 자주 발생하지만, 이외의 경우에는 자주 발생하지 않아 충분한 양의 데이터가 축적되지 못하기에 GAN기법을 이용하여 가상데이터를 생성하고, HPAI의 예방을 위해 사용할 수 있도록 하였다. Jung et al.[9]은 건설 현장 위험 상태 판단 이미지 데이터를 GAN 을 이용하여 증강하고, 이미지 분류를 위해 ResNet50을 적용하였다. Ding et al.[3]은 Isolation Forest기법으로 희소한 데이터의 경계면을 탐색하고, GAN을 적용하여 효과적으로 데이터를 생성하는 기법을 제안하고, 의료관련 이미지 데이터 증강에 활용하였다.

Malriani et al.[11]이 제안한 Balancing GAN(BAGAN)은 소수클래스 데이터만을 입력으로 사용하는 GAN과 달리 다수클래스와 소수클래스 데이터를 모두 입력으로 사용하여 소수클래스의 데이터를 생성한다. 또한, 오토인코더 (Autoencoder)를 학습 초기에 이용하여 다수클래스와 소수클래스의 분포를 추론하고, GAN의 가중치를 초기화하는데 사용하였다.

한편, Huang and Jafari[8]이 제안한 BAGAN-GP는 유사한 클래스가 많은 경우에 성능이 불안정한 BAGAN을 개량한 기법이다. BAGAN-GP는 클래스의 레이블 정보를 포함하여 학습시키기 위해 레이블 정보를 포함한 오토인코더로 지도학습을 실시한다. 가중치가 경계에 몰리는 가중치 클리핑(Weight Clipping) 문제를 해결하기 위해 가중치를 범위 내에 적절히 분포하도록 하는 기울기 페널티(Gradient Penalty) 방법을 적용하였다. 또한, 실제 데이터에 잘못된 레이블을 추가하여 성능을 향상하였다. 본 연구에서는 처음으로 이미지 데이터가 아니라 수치 데이터에 BAGAN-GP를 적용하여 소수 클래스 데이터를 증강하였다. 수치데이터에 적용하기 위해 인코더(Encoder), 디코더(Decoder)/생성자(Generator), 판별자(Discriminator)에 MLP (Multi-Layer Perceptron)형태의 구조를 적용하였다.

이어지는 제2장에서는 기존의 오버샘플링 기법들과 GAN, BAGAN-GP에 대해 설명한다. 제3장에서는 제안하는 기법에 대해 소개한다. 제4장에서는 적용한 분류기법과 분류기법에 사용된 하이퍼파라미터들에 대해 살펴본다. 제 5장에서는 BAGAN-GP에 사용된 구조, 실험조건과 실험결과를 보여주고, 마지막으로 제6장에서는 결론을 다룬다.

2. 오버샘플링 기법

소수 클래스 데이터들의 볼록결합(Convex Combination)을 이용하여 소수 클래스 데이터를 증강하는 SMOTE, ADASYN, Borderline-SMOTE등의 선형 오버샘플링기법에 대해 살펴보고, 생성자와 판별자를 경합시켜 진짜 같은 가짜를 생성하는 GAN과 GAN을 개량한 BAGAN-GP에 대해 살펴보고자 한다.

2.1 선형 오버샘플링: SMOTE, ADASYN, Borderline-SMOTE

SMOTE(Synthetic Minority Over-sampling Technique) Chawla et al.[1]이 제안한 SMOTE는 소수 클래스 중 임의로 1개의 관측치(x₁)를 선택하고, KNN(K-Nearest Neighbors) 기법으로 x₁과 유클리드 거리 기반으로 가까운 K개의 소수 클래스 관측치를 구한다. x₁과 K개의 소수 클래스 관측치 중 1개의 소수 클래스 관측치와 x₁ 사이에 선분을 긋고 선분에 속하는 임의의 점을 선택하여 새로운 샘플을 생성한다. 샘플 생성 시 선분상의 점만 선택한다는 단점이 존재한다.

ADASYN(Adaptive Synthetic Sampling Approach)

SMOTE의 경우에는 소수클래스의 주변에 존재하는 다수 클래스의 관측치 수에 대한 고려 없이 소수 클래스의 관측치들을 생성한다. He et al.[7]이 제안한 ADASYN은 소수 클래스에 속한 관측치들 중 주변에 다수 클래스에 속한 관측치들이 얼마나 존재하느냐에 따라 생성하는 샘플의 수를 달리 한다. 즉, 임의의 소수 클래스 관측치에 KNN기법으로 소수클래스 관측치 K개를 찾고, K개의 관측치들이 있는 반경 내에 있는 다수 클래스 관측치 수에 비례하여 소수 클래스 샘플을 생성한다. 이는 다수클래스 관측치가 주변에 많은 소수 클래스 관측치는 다수클래스로 잘 못 분류되기 쉽기에 주변에 소수 클래스 샘플을 많이 생성하여 이를 예방하기 위함이다.

Borderline SMOTE

Han et al.[5]이 제안한 기법으로 다수 클래스와의 경계에 있는 소수클래스 관측치들에 대해 SMOTE방법을 적용하여 샘플들을 생성하도록 하는 기법이다. 소수 클래스에 속하는 모든 관측치들에 대해 다수와 소수의 구분없이 KNN을 이용하여 K개의 이웃 관측치들을 탐색한다. 탐색된 K개의 이웃 관측치들 중 절반 이상이 다수 관측치라면 해당 소수 클래스 관측치는 Danger라고 칭한다. Danger는 경계선(Borderline)에 있는 관측치이므로 SMOTE기법으로 소수 클래스 샘플을 생성한다. 즉, Danger에 대해 KNN을 이용하여 K개의 소수 클래스의 관측치들을 구하고 Danger 와 K개의 소수 클래스 관측치 중 1개의 관측치 사이에 선분을 긋고 선분에 속하는 하나의 점에 해당하는 샘플을 생성한다.

2.2 GAN

GAN은 게임이론을 기반으로 한 생성모델로 생성자(Generator)와 판별자(Discriminator)가 서로의 대응에 따라 최선의 선택을 하면 서로가 자신의 선택을 바꾸지 않는 내시 균형(Nash Equilibrium)을 이루도록 설계되었다. 생성자는 실제 데이터와 유사한 데이터를 만들어내어 판별자를 속일 수 있도록, 즉 판별자가 1로 판별하도록 학습한다. <Figure 1>에 생성자의 학습에 대한 설명을 표현하였다.

판별자는 실제 데이터는 1로, 생성자가 생성한 가상 데이터는 0으로 판별하도록 학습한다. <Figure 2>에 판별자 의 학습에 대한 설명을 표현하였다.

2.3 BAGAN-GP

BAGAN(Balancing GAN)은 데이터 불균형이 심한 데이터셋에서 균형성을 보완하면서 데이터 증강을 하도록 개발된 기법이다. 하지만, BAGAN은 유사한 클래스가 많은 경우 불안정하여 성능이 좋지 않기에 이를 보완하기 위해 개발된 방법이 BAGAN-GP이다.

BAGAN-GP에서는 오토인코더를 이용하여 각 클래스의 분포를 파악하는데 레이블 정보를 부여하여 지도학습으로 오토인코더를 학습시킨다. 판별자 학습 시 기존의 기법들이 가중치 분포를 불균일하게 만들어 기울기 소실(Gradient Vanishing)문제를 일으키는데, 이를 해결하기 위해 Gradient Norm을 1로 맞춰주도록 손실함수에 페널티를 부여하는 기울기 페널티(Gradient Penalty) 방법을 적용하였다. 또한, 실제 데이터에 잘못된 레이블(Wrong Label) 부착하여 클래스 정보의 학습을 향상시켰다.

판별자에 사용된 손실함수는 식 (1)과 같다.

\begin{array}{l} L^{D} (X_{r}, Z, Y_{r}, Y_{f}, Y_{w r o n g}) = \\ - E_{(x_{r}, y_{r}) \sim (X_{r}, Y_{r})} [log D (x_{r}, y_{r})] \\ - E_{(z, y_{f}) \sim (Z, Y_{f})} [log (1 - D (G (z, y_{f}), y_{f}))] \\ - E_{(x_{r}, y_{w r o n g}) \sim (X_{r}, Y_{w r o n g})} [log (1 - D (x_{r}, y_{w r o n g}))] \\ + λ E_{(\hat{x}, y_{r}) \sim (\hat{X}, Y_{r})} [{({‖ \nabla_{(\hat{x}, y_{r})}) D (\hat{x}, y_{r}) ‖}_{2} - 1)}^{2}] \end{array}

(1)

D: 판별자 함수
G: 생성자 함수
n: 클래스의 수
x_r :실제데이터분포 X_r로 부터 샘플링된 표본
$\hat{x}$ : 잡음 보간(noise interpolation), $\overset{⌢}{x} \sim α x_{r} + (1 - α) x_{n o i s e}, α \sim U (0, 1), x_{n o i s e} \sim P_{n o i s e} {‖ \nabla_{(\overset{⌢}{x}, y_{r})}) D (\overset{⌢}{x}, y_{r}) ‖}_{2}$ : Gradient의 L2 norm
λ: 페널티와 관련된 하이퍼파라미터
$z \sim N (0, I_{dim (Z)}) \equiv Z$
$y_{f} \sim U (0, 1, \dots, n) \equiv Y_{f}$
$y_{w r o n g} \sim U {0, 1, \dots, n} \equiv Y_{w r o n g}$ . 실제데이터 x_r에 틀린 레이블을 부여하기 위해 사용

판별자는 L^D 손실함수를 최소화되도록 학습한다. 이를 유념하면서 각항을 살펴보면 식 (1)의 우측의

첫 번째 항: 실제 데이터(x_r )와 실제 레이블(y_r)에 대한 판별값은 D (x_r, y_r )로 나타내는데 판별값이 참이면 1, 가짜이면 0이다. (x_r, y_r )을 참(1)이라고 판별되도록 돕는다.
두 번째 항: 임의의 레이블 y_f에 맞도록 무작위 잡음 벡터 z를 이용하여 생성자에 의해 생성된 가짜데이터 G(z, y_f)를 거짓(0)이라고 판별되도록 돕는다.
세 번째 항: 실제 데이터(x_r)에 틀린 레이블 (y_wrong)을 부여하고, D (x_r, y_wrong)을 거짓(0)이라고 판별되도록 돕는다.
네 번째 항: 기울기 페널티(Gradient penalty)를 나타내기 위해 추가된 항이다. 잡음보간으로 생성된 $\hat{x}$ 에 실제 레이블을 부여하고, Gradient의 L2 Norm인 ${‖ \nabla_{(\hat{x}, y_{r})} D (\hat{x}, y_{r}) ‖}_{2}$ 이 1에 가깝도록 돕는다. 기울기 소실 문제를 해결하기 위해 도입되었다.

첫 번째 항과 두 번째 항은 일반적인 GAN에 사용되는 식으로서 비지도학습으로 사용되나 BAGAN-GP는 지도 학습을 적용하므로써 레이블이 있다.

생성자에 사용된 손실함수는 식 (2)와 같다.

L^{G} = (Z, Y_{f}) = - E [log (D (G (z, y_{f})))]

(2)

즉, 생성자는 L^G 를 최소화하도록 학습하는데, 생성자에 의해 생성된 가짜데이터 G(z, y_f)를 판별자가 참(1)이라고 판별하도록 학습이 된다.

3. 제안하는 기법

SMOTE, ADASYN, Borderline-SMOTE는 관측치들 사이를 선분으로 잇고 선분상의 임의의 한 점을 선택하여 데이터를 생성하는 선형성에 기반한 선형 오버샘플링기법 들이다. 반면에 BAGAN-GP는 클래스의 분포에 기반하여 데이터를 생성하기에 선형성을 띄지 않는다.

제조데이터의 특징은 양품 데이터는 풍부하나, 불량품 데이터는 희소하다. 그러므로, 다양한 특성을 지닌 데이터 생성과 희소한 불량품 데이터를 고려하여 2가지 기법을 제안한다.

제안하는 혼합 오버샘플링기법 1(MO1, Mixed Oversampling 1)은 선형성에 기반한 기법인 SMOTE, ADASYN, Borderline-SMOTE으로 생성한 데이터와 데이터의 분포에 기반한 BAGAN-GP 기법으로 생성한 데이터를 각각 합쳐 좀 더 다양한 특성을 지닌 데이터를 생성할 수 있도록 하는 것이다.

MO1

Step 1: 선형성에 기반한 SMOTE, ADASYN, Borderline- SMOTE의 기법 중 하나를 이용하여 소수 클래스와 다수 클래스의 비율이 사용자가 설정한 비율이 되도록 오버샘플링한다.
Step 2: BAGAN-GP를 이용하여 소수 클래스와 다수 클래스의 비율이 사용자가 설정한 비율이 되도록 데이터를 증강한다.
Step 3: 원데이터, Step 1에서 증강한 데이터, Step 2에서 증강한 데이터를 합친다.

MO1으로 SMOTE + BAGAN-GP, ADASYN + BAGAN-GP, Borderline-SMOTE + BAGAN-GP라는 3가지 기법을 사용하 였다.

제안하는 혼합 오버샘플링기법 2(MO2)는 SMOTE, ADASYN, Borderline-SMOTE으로 오버샘플링 후 BAGAN-GP의학습용 데이터로 원데이터와 오버샘플링데이터를 활용하고 BAGAN-GP로 데이터를 생성하는 것이다.

MO2

Step 1: 선형성에 기반한 SMOTE, ADASYN, Borderline- SMOTE의 기법 중 하나를 이용하여 소수 클래스와 다수 클래스의 비율이 사용자가 설정한 비율이 되도록 데이터를 오버샘플링한다.
Step 2: Step1에서 오버샘플링한 데이터와 원데이터(소수 클래스)를 투입하여 BAGAN-GP를 이용하여 소수 클래스와 다수 클래스의 비율이 사용자가 설정한 비율이 되도록 데이터를 증강한다.
Step 3: 원데이터(소수클래스)와 Step 2에서 증강한 데이터를 합친다.

MO2로 SMOTE => BAGAN-GP, ADASYN => BAGANGP, Borderline-SMOTE => BAGAN-GP를 사용하였다.

MO1과 MO2로 생성한 데이터는 학습용 데이터(Training Data)와 검증용 데이터(Validation Data)로만 활용되었으며, 테스트 데이터(Test Data)는 학습용과 검증용으로 사용되지 않은 원데이터를 활용하였다.

4. 분류를 위해 적용된 기법

지도학습기법인 서포트벡터 머신(SVM, Support Vector Machine), 랜덤 포레스트(RF, Random Forest), 다층퍼셉트론(MLP, Multi-Layer Perceptron)이 적용되었다.

4.1 SVM

SVM은 분류오차를 줄이면서 동시에 여백(Margin)을 최대로 하는 결정경계를 찾는 분류기법이다. 여백이란 결정경계와 가장 가까이에 있는 학습데이터까지의 거리이며, 서포트 벡터(Support Vector)란 결정경계로부터 가장 가까이에 있는 관측치들이다. SVM은 선형 분류뿐 아니라 비선형 분류에도 적용될 수 있으며, 비선형 분류를 위해서는 커널(Kernel Trick)을 사용한다. 하이퍼파라미터로는 오류를 얼마나 허용할지에 관련된 ‘C’, 결정경계를 얼마나 유연하게 그릴지에 관련된 ‘gamma’, 선형과 비선형 분류를 위해 커널이 고려되었다. 사용된 하이퍼파라미터와 그 범위는 <Table 1>에 주어져 있다.

4.2 RF

랜덤포레스트는 반복적인 복원표본 추출(Boostrap)을 한 후, 다수의 의사결정나무(Decision Tree)를 만들고 결과를 합치는(Aggregation) 배깅(Bagging)을 통해 모델의 분산을 줄이는 기법이다. 랜덤포레스트는 전체 변수를 선택하지 않고, 일부 변수만 선택하여 개별 트리(Tree)간의 상관관계 문제를 회피하는데, 분류 문제에서는 p를 변수의 수라고 할 때, $\sqrt{p}$ 만큼의 변수를 선택한다. 개별 트리수인 n_estimators, 트리의 최대 깊이인 max_depth, 각 단말 노드(leaf node)당 필요한 최소 관측치 수인 min_sample_split, 단말노드가 되기 위해 필요한 최소한의 샘플 데이터 수인 min_samples_leaf를 하이퍼파라미터로 고려하였다. 사용된 하이퍼파라미터와 그 범위는 <Table 2>에 주어져 있다.

4.3 MLP

인간의 신경세포 뉴런이 자극을 전달하듯이 인공적인 뉴런의 역할을 하는 인공신경을 퍼셉트론(Perceptron)이라고 한다. 다수의 신호를 입력 받아 하나의 신호를 출력하는 퍼셉트론을 다층으로 쌓은 것으로, 입력층(Input Layer), 1개 이상의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된 인공신경망(Artificial Neural Network)이다. 각 층들의 가중치는 선형방정식으로 계산되고, 층과 층 사이에 선형으로 표현된 데이터들을 비선형으로 변형하기 위해 활성화함수(Activation Function)가 사용된다. 과적합을 감소시키기 위해 은닉층에 있는 노드(Node)들을 특정한 확률로 제거하는 드롭아웃(Drop Out)을 적용하였다. 사용된 MLP의 아키텍처는 <Table 3>에 주어져 있다.

5. 실험

실험조건과 실험결과는 다음과 같다.

5.1 실험조건

실험에 사용된 데이터셋은 Kamp에 있는 제조 관련 데이터셋으로 주조설비 예지보전(Casting Facility Predictive Maintenance)[12], 정밀가공(Precision Machining)[13], 소성가공(Plastic Processing)[14] 데이터셋이다. 주조설비 예지보전 데이터셋은 실린더압력, 실린더압력의 상승시간 등의 변수를 이용하여 설비의 정상/비정상을 예측하는데 활용될 수 있다. 정밀가공 데이터셋은 주축회전속도, 서보 머터 전류값 등을 이용하여 제품의 양품/불량품을 예측하는데 활용될 수 있다. 소성가공 품질보증 데이터셋은 압출기 수지온도, 압출기 수지압력 등을 이용하여 제품의 양품/불량품을 예측하는데 활용될 수 있다.

이상치와 결측치를 제거하였으며, 영향이 적거나 상수라고 판단되는 독립변수들을 제거하는 전처리를 실행하였다. 한편, 소성가공 데이터셋은 데이터량이 많아 데이터불균형을 고려하여 데이터량을 감소시켰다. 실험에 사용된 데이터셋에 대한 설명은 <Table 4>에 주어져 있다.

BAGAN-GP에서 각 클래스의 분포를 파악하기 위해 오토인코더를 사용하는데 인코더의 아키텍처는 <Table 5> 와 같다. 디코더와 생성자는 동일한 아키텍처를 사용하는 데 <Table 6>과 같다. 판별자의 아키텍처는 <Table 7>과 같다. hid는 주조설비 예지보전, 정밀가공, 소성가공 각각에 대해 7, 12, 5를 사용하였다. 인코더의 투입층과 디코더의 출력층의 노드 수는 데이터셋의 독립변수 수와 동일하게 각각 14, 27, 11로 하였다.

5.2 실험결과

각 데이터셋에 대해 BAGAN-GP로 데이터를 증강하고 기존의 오버샘플링 기법인 SMOTE, ADASYN, Borderline-SMOTE로 데이터를 증강하였다. 또한, 제안한 기법 MO1인 SMOTE + BAGAN-GP, ADASYN + BAGAN-GP, Borderline-SMOTE + BAGAN-GP와 MO2인 SMOTE => BAGAN-GP, ADASYN => BAGAN-GP, Borderline- SMOTE => BAGAN-GP으로 데이터 증강을 실시하였다.

소수 클래스의 데이터 수가 다수 클래스 데이터 수의 30%가 되도록 데이터를 증강하였다. MO1의 경우에는 오버샘플링 기법으로 20%(원데이터 포함) 증강하고, BAGANGP로 10%로 증강하였다. MO2의 경우에는 오버샘플링 기법으로 20% 증강하여 BAGAN-GP의 투입데이터로 사용하여 BAGAN-GP로 30%(원데이터 포함)가 되도록 하였다. 해당 비율은 간단한 실험을 통하여 30%로 설정하였으나, 최적화를 통해 좀 더 좋은 비율을 도출할 수도 있을 것으로 보인다.

분류기법으로는 MLP, SVM, RF를 적용하였다. 5번의 데이터 증강과 분류기법 적용을 통해 데이터 증강기법과 분류기법별 F1-Score, Recall, Precision, Accuracy의 평균과 표준편차를 계산하였다. 오버샘플링을 적용하지 않고 원래의 데이터로 학습시킨 경우는 Original로 표시하였다. 결과는 <Table 8>, <Table 9>, <Table 10>에 주어져 있다. 분류기법별 최고의 결과는 볼드체로 표현하였다.

데이터 불균형이 심하므로 F1-Score가 분류의 성능을 나타내는 중요한 지표이다. 주조설비 예지보전의 경우 ADASYN + BAGAN-GP으로 데이터를 증강하고, RF로 분류한 경우 F1-Score가 0.805로 가장 높게 나타났다. 정밀 가공의 경우 ADASYN으로 데이터를 증강하고, RF로 분류한 경우 F1-Score가 0.962로 가장 높게 나타났다. 소성가공의 경우 SMOTE, BAGAN-GP+SMOTE로 데이터를 증강하고, RF로 분류한 경우 F1-Score가 0.857로 가장 높게 나타났다.

각 데이터셋에 대해 증강기법별 F1-Score 결과를 분류기 법에 따라 나타낸 결과가 <Figure 3>, <Figure 4>, <Figure 5>에 주어져 있다.

BAGAN-GP, 오버샘플링 기법인 SMOTE, ADASYN, Borderline-SMOTE의 F1-Score의 평균, 제안하는 기법인 MO1의 세 가지 기법의 평균, MO2의 세 가지 기법의 평균과 모든 증강기법의 평균 F1-Score(Overall)이 분류기법에 따라 각각 주어져 있다.

동일한 분류기법 내에서 오버샘플링을 하지 않은 경우와 오버샘플링 기법별 비교를 해 보면, 제안한 기법인 MO1이 가장 좋은 결과를 나타내는 경우가 많았다.

주조설비 예지보전 데이터셋의 경우 MO1의 결과가 가장 좋으며, 분류 기법으로는 RF의 결과가 가장 좋다. 정밀 가공 데이터셋의 경우에는 MO1의 결과가 가장 좋다. 기법으로는 SVM과 RF의 결과가 가장 좋은 것으로 나타났다. 소성가공의 경우 MO1의 결과가 가장 좋으며, 분류기법으로는 RF가 가장 좋다. 데이터를 증강하는 방법과 분류기법에 따라 분류성능이 차이가 나며, 전반적으로 보면 MO1이 대부분의 경우에 좋은 결과를 나타내며, 분류기법으로는 RF의 결과가 가장 좋게 나타났다.

6. 결 론

본 연구에서는 제조데이터셋의 특징인 데이터불균형을 해소하기 위해 소수 클래스의 데이터를 증강하는 기법들을 제안하였다. BAGAN-GP, MO1, MO2로 데이터를 증강하고, 기존의 오버샘플링 기법인 SMOTE, ADASYN, Borderling-SMOTE 기법으로 증강한 경우와 비교하였다. 다양한 증강기법으로 증강한 훈련용 데이터를 MLP, SVM, RF 분류기로 분류하여 성능 비교를 해 보았다. 비교 결과 제안한 기법인 MO1의 결과가 대부분의 경우에 좋게 나타났는데, 이는 선형성에 기반한 기존의 오버샘플링 기법과 클래스 데이터의 분포에 기반한 BAGAN-GP기법을 각각 이용하여 좀 더 다양하게 데이터를 증강하였기 때문으로 판단된다.

좀 더 다양한 데이터셋들을 이용하여 제안하는 기법들의 성능을 파악할 필요가 있으며, 데이터의 복합적 특성을 반영할 수 있는 데이터 증강기법들에 대한 연구가 필요하다.

Acknowledgement

This work was supported by the research grant of Kongju National University in 2024.

Figure

<Figure 1>.

Training for Generator

<Figure 2>.

Training for Discriminator

<Figure 3>.

F1-Score of Each Classifier by Augmentation Method in Casting Facility Predictive Maintenance

<Figure 4>.

F1-Score of Each Classifier by Augmentation Method in Precision Machining

<Figure 5>.

F1-Score of Each Classifier by Augmentation Method in Plastic Processing

Table

<Table 1>.

Hyperparameters Considered in SVM

Hyperparameters	Considered Values
C	0.1 1,10
gamma	auto, 0.1,1
kernel	linear, poly, rbf

<Table 2>.

Hyperparameters Considered in RF

Hyperparameters	Considered Values
n_estimators	1000, 2000, 3000
max_depth	100, 200, 300
min_sample_split	2,3
min_samples_leaf	1,2

<Table 3>.

Architecture of MLP

	no. in nodes	Activation Function
Input	Depends on Problem
Hidden 1	16	ReLU
Hidden 2	32	ReLU
Drop Out (30%)
Hidden 3	16	ReLU
Drop Out (30%)
Hidden 4	8	ReLU
Output	1	Sigmoid

<Table 4>.

Used Manufacturing Dataset after Preprocessing

Dataset	Casting Facility Predictive Maintenance	Precision Machining	Plastic Processing
Class	2	2	2
Attribute	14	27	11
Instances	4617	1085	4036
Major Class Instances	4513	986	4000
Minor Class Instances	104	99	36
Minor/Total	0.023	0.091	0.009

<Table 5>.

Architecture of Encoder in BAGAN-GP

	no. in nodes	Activation Function
Input	Depends on Problem
Hidden 1	hid×4	Leaky ReLU
Drop Out (30%)
Hidden 2	hid×2	Leaky ReLU
Drop Out (30%)
Hidden 3	hid	Leaky ReLU

<Table 6>.

Architecture of Decoder/Generator in BAGAN-GP

	no. in nodes	Activation Function
Hidden 1	hid	Leaky ReLU
Hidden 2	hid×2	Leaky ReLU
Hidden 3	hid×4	Leaky ReLU
Output	Depends on Problem	Sigmoid

<Table 7>.

Architecture of Discriminator in BAGAN-GP

	no. in nodes	Activation Function
Input	Depends on Problem
Hidden 1	hid×4	Leaky ReLU
Hidden 2	hid×2	Leaky ReLU
Hidden 3	hid	Leaky ReLU
Output	1	Sigmoid

<Table 8>.

Results of Casting Facility Predictive Maintenance Dataset by Augmentation Method

Sampling Method	Classifier	F1Score	Recall	Precision	Accuracy
Original	MLP	0.597	0.013	0.426	0.013	1.000	00.000	0.987	0.000
SVM	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
RF	0.755	0.000	0.645	0.000	0.909	0.000	0.991	0.000
BAGAN-GP	MLP	0.629	0.015	0.465	0.016	0.974	0.032	0.988	0.000
SVM	0.603	0.015	0.432	0.016	1.000	0.000	0.988	0.000
RF	0.745	0.000	0.613	0.000	0.950	0.000	0.991	0.000
SMOTE	MLP	0.691	0.059	0.542	0.075	0.967	0.028	0.990	0.002
SVM	0.759	0.000	0.710	0.000	0.815	0.000	0.990	0.000
RF	0.785	0.007	0.742	0.000	0.834	0.015	0.991	0.000
ADASYN	MLP	0.642	0.039	0.477	0.052	0.989	0.021	0.988	0.001
SVM	0.471	0.011	0.606	0.013	0.386	0.013	0.970	0.001
RF	0.756	0.015	0.710	0.000	0.810	0.034	0.990	0.001
Borderline-SMOTE	MLP	0.748	0.013	0.632	0.016	0.917	0.031	0.991	0.001
SVM	0.662	0.011	0.645	0.000	0.681	0.023	0.986	0.001
RF	0.784	0.012	0.703	0.013	0.886	0.015	0.992	0.000
SMOTE+BAGAN-GP	MLP	0.687	0.058	0.548	0.082	0.940	0.042	0.989	0.001
SVM	0.786	0.000	0.710	0.000	0.880	0.000	0.992	0.000
RF	0.782	0.014	0.716	0.013	0.861	0.018	0.991	0.001
ADASYN+BAGAN-GP	MLP	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
SVM	0.615	0.020	0.490	0.024	0.828	0.033	0.987	0.001
RF	0.805	0.017	0.761	0.026	0.855	0.004	0.992	0.000
Borderline-SMOTE+BAGAN-GP	MLP	0.728	0.049	0.594	0.060	0.948	0.006	0.990	0.001
SVM	0.697	0.010	0.645	0.000	0.758	0.024	0.988	0.001
RF	0.779	0.024	0.697	0.033	0.885	0.017	0.991	0.001
SMOTE=>BAGAN-GP	MLP	0.643	0.024	0.484	0.029	0.963	0.030	0.988	0.001
SVM	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
RF	0.750	0.010	0.619	0.013	0.950	0.001	0.991	0.000
ADASYN=>BAGAN-GP	MLP	0.627	0.028	0.484	0.041	0.905	0.080	0.987	0.001
SVM	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
RF	0.727	0.025	0.594	0.026	0.938	0.022	0.990	0.001
Borderline-SMOTE=>BAGAN-GP	MLP	0.635	0.019	0.477	0.024	0.950	0.025	0.988	0.000
SVM	0.616	0.013	0.445	0.013	1.000	0.000	0.988	0.000
RF	0.737	0.025	0.606	0.032	0.940	0.018	0.991	0.001

<Table 9>.

Results of Precision Machining Dataset by Augmentation Method

Sampling Method	Classifier	F1Score	Recall	Precision	Accuracy
Original	MLP	0.843	0.017	0.733	0.015	0.990	0.020	0.977	0.002
SVM	0.929	0.000	0.963	0.000	0.897	0.000	0.988	0.000
RF	0.913	0.009	0.852	0.000	0.983	0.020	0.986	0.002
BAGAN-GP	MLP	0.895	0.017	0.852	0.033	0.943	0.018	0.983	0.002
SVM	0.935	0.018	0.948	0.018	0.923	0.041	0.989	0.003
RF	0.909	0.014	0.852	0.000	0.976	0.032	0.986	0.002
SMOTE	MLP	0.859	0.040	0.778	0.066	0.964	0.018	0.979	0.005
SVM	0.920	0.000	0.852	0.000	1.000	0.000	0.988	0.000
RF	0.957	0.008	0.919	0.015	1.000	0.000	0.993	0.001
ADASYN	MLP	0.859	0.065	0.770	0.098	0.982	0.022	0.980	0.008
SVM	0.906	0.078	0.874	0.130	0.951	0.013	0.986	0.010
RF	0.962	0.000	0.926	0.000	1.000	0.000	0.994	0.000
Borderline-SMOTE	MLP	0.860	0.027	0.778	0.047	0.964	0.018	0.979	0.004
SVM	0.907	0.011	0.874	0.044	0.946	0.025	0.985	0.001
RF	0.941	0.000	0.889	0.000	1.000	0.000	0.991	0.000
SMOTE+BAGAN-GP	MLP	0.871	0.029	0.800	0.038	0.956	0.026	0.980	0.004
SVM	0.928	0.017	0.867	0.030	1.000	0.000	0.989	0.002
RF	0.945	0.008	0.896	0.015	1.000	0.000	0.991	0.001
ADASYN+BAGAN-GP	MLP	0.898	0.026	0.852	0.052	0.951	0.013	0.984	0.004
SVM	0.937	0.017	0.941	0.044	0.935	0.012	0.989	0.002
RF	0.945	0.008	0.896	0.015	1.000	0.000	0.991	0.001
Borderline-SMOTE+BAGAN-GP	MLP	0.886	0.021	0.807	0.028	0.982	0.022	0.983	0.003
SVM	0.938	0.027	0.948	0.018	0.929	0.039	0.989	0.005
RF	0.938	0.007	0.889	0.000	0.992	0.016	0.990	0.001
SMOTE=>BAGAN-GP	MLP	0.914	0.017	0.874	0.030	0.959	0.001	0.986	0.002
SVM	0.932	0.006	0.956	0.015	0.910	0.026	0.988	0.001
RF	0.910	0.021	0.852	0.000	0.977	0.046	0.986	0.004
ADASYN=>BAGAN-GP	MLP	0.881	0.031	0.830	0.055	0.942	0.019	0.981	0.004
SVM	0.937	0.025	0.941	0.030	0.936	0.040	0.989	0.004
RF	0.913	0.009	0.852	0.000	0.983	0.020	0.986	0.002
Borderline-SMOTE=>BAGAN-GP	MLP	0.893	0.031	0.844	0.049	0.950	0.017	0.983	0.005
SVM	0.938	0.016	0.904	0.038	0.977	0.019	0.990	0.002
RF	0.917	0.015	0.859	0.015	0.983	0.020	0.987	0.002

<Table 10>.

Results of Plastic Processing Dataset by Augmentation Method

Sampling Method	Classifier	F1Score	Recall	Precision	Accuracy
Original	MLP	0.585	0.070	0.455	0.081	0.860	0.127	0.994	0.001
SVM	0.308	0.000	0.182	0.000	1.000	0.000	0.993	0.000
RF	0.842	0.000	0.727	0.000	1.000	0.000	0.998	0.000
BAGAN-GP	MLP	0.644	0.018	0.527	0.036	0.843	0.092	0.995	0.000
SVM	0.380	0.059	0.236	0.045	1.000	0.000	0.993	0.000
RF	0.845	0.006	0.745	0.036	0.980	0.040	0.998	0.000
SMOTE	MLP	0.636	0.132	0.873	0.045	0.526	0.185	0.990	0.005
SVM	0.400	0.000	0.818	0.000	0.265	0.000	0.978	0.000
RF	0.857	0.000	0.818	0.000	0.900	0.000	0.998	0.000
ADASYN	MLP	0.641	0.081	0.673	0.109	0.639	0.122	0.993	0.002
SVM	0.400	0.000	0.818	0.000	0.265	0.000	0.978	0.000
RF	0.842	0.019	0.818	0.000	0.867	0.040	0.997	0.000
Borderline-SMOTE	MLP	0.697	0.094	0.800	0.068	0.631	0.134	0.993	0.003
SVM	0.400	0.000	0.818	0.000	0.265	0.000	0.978	0.000
RF	0.826	0.016	0.818	0.000	0.835	0.033	0.997	0.000
SMOTE+ BAGAN-GP	MLP	0.671	0.083	0.818	0.081	0.588	0.138	0.992	0.003
SVM	0.390	0.010	0.818	0.000	0.256	0.008	0.977	0.001
RF	0.857	0.000	0.818	0.000	0.900	0.000	0.998	0.000
ADASYN+ BAGAN-GP	MLP	0.664	0.064	0.727	0.057	0.619	0.100	0.993	0.002
SVM	0.400	0.000	0.818	0.000	0.265	0.000	0.978	0.000
RF	0.842	0.019	0.818	0.000	0.867	0.040	0.997	0.000
Borderline- SMOTE+ BAGAN-GP	MLP	0.694	0.094	0.782	0.045	0.641	0.151	0.993	0.003
SVM	0.400	0.008	0.818	0.000	0.265	0.007	0.978	0.001
RF	0.849	0.016	0.818	0.000	0.884	0.033	0.997	0.000
SMOTE=> BAGAN-GP	MLP	0.616	0.089	0.509	0.045	0.800	0.183	0.994	0.002
SVM	0.425	0.071	0.273	0.057	1.000	0.000	0.993	0.001
RF	0.819	0.034	0.709	0.068	0.980	0.040	0.997	0.000
ADASYN=> BAGAN-GP	MLP	0.637	0.029	0.527	0.036	0.810	0.049	0.995	0.000
SVM	0.308	0.000	0.182	0.000	1.000	0.000	0.993	0.000
RF	0.829	0.026	0.709	0.036	1.000	0.000	0.997	0.000
Borderline- SMOTE=> BAGAN-GP	MLP	0.644	0.062	0.509	0.045	0.881	0.109	0.995	0.001
SVM	0.319	0.166	0.200	0.106	0.800	0.400	0.993	0.001
RF	0.845	0.006	0.745	0.036	0.980	0.040	0.998	0.000

Reference

Chawla, N.V., Bowyer, K.W., Hall, L.O., and Kegelmeyer, W.P., SMOTE: Synthetic Minority Over-sampling Technique, Journal of Artificial Intelligence, Vol. 16, No. 1, pp. 321-357.
Choi, D., Han Y., Song Y., Kang, T., and Lee W., Generating GAN-based Virtual data to Prevent the Spread of Highly Pathogenic Avian Influenza(HPAI), Journal of Korean Big Data Society, 2020, Vol. 5, No. 2, pp. 69-76.
Ding H., Huang, N., and Cui, X., Leveraging GANs data augmentation for imbalanced medical image classification, Applied Soft Computing Journal, 2024, Vol. 165, 112050.
Goodfellow, I.J., Pouget-Abadie, J., Mirza, M., Xu, B. Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y., Generative adversarial networks, Communications of the ACM, 2020, Vol. 63, No.11, pp. 139-144.
Han, H., Wang, W.-Y., and Mao B-H, Borderline- SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning, Proceedings of ICIC, 2005, Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 878-887.
Han, S. and Kim, H.J., Improving Time Series Data Quality based on LSTM-GAN, Proceedings of 2021 Korean Communication Association Fall Conference, 2021, Yeosu-si, Korea, pp. 148-149
He, H., Bai, Y., Garcia, E., Li, S., Adasyn: Adaptive synthetic sampling approach for imbalanced learning, IEEE International Joint Conference on Neural Networks, 2008, HongKong, pp. 1322–1328.
Huang, G. and Jafari, A.H., Enhanced balancing GAN: minority-class image generation, Neural Computing and Application, 2023, Vol. 35, No. 7, pp. 5145-5154.
Jung, D., Choi, G., and Kim, N., Image generation and classification using GAN-based Semi Supervised Learning, Smart Media Journal, 2024, Vol.13, No. 3, pp. 27-35.
Kim, D., Kim, S.J., Kim W., and Kim, C., A Generative Adversarial Network based Data Generating for Estimation of Remaining Life Distribution in Gas Pipes, Journal of Korean Institute of Intelligent Systems, 2020, Vol. 30, No. 1, pp. 80-85.
Mariani, G., Scheidegger, F., Istrate R., Bekas C., and Malossi, C., Bagan: Data augmentation with balancing gan, 2018, arXiv preprint arXiv:1803.09655.
Ministry of SMEs and Startups’, Korea AI Manufacturing Platform(KAMP), Cast Facility Predictive Maintenance AI Dataset, KAIST(InterX, Nestfield), 2022.12.23., https://kamp-ai.kr.
Ministry of SMEs and Startups', Korea AI Manufacturing Platform(KAMP), CNC Machine AI Dataset, KAIST (InterX), 2020.12.14., https://kamp-ai.kr.
Ministry of SMEs and Startups', Korea AI Manufacturing Platform(KAMP), Plastic Processing Quality Assurance AI Dataset, KAIST(InterX), 2024.05.28., https://kamp-ai.kr.

Sampling Method	Classifier	F1Score		Recall		Precision		Accuracy
Sampling Method	Classifier	avg.	s.d.	avg.	s.d.	avg.	s.d.	avg.	s.d.
Original	MLP	0.597	0.013	0.426	0.013	1.000	00.000	0.987	0.000
	SVM	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
	RF	0.755	0.000	0.645	0.000	0.909	0.000	0.991	0.000
BAGAN-GP	MLP	0.629	0.015	0.465	0.016	0.974	0.032	0.988	0.000
	SVM	0.603	0.015	0.432	0.016	1.000	0.000	0.988	0.000
	RF	0.745	0.000	0.613	0.000	0.950	0.000	0.991	0.000
SMOTE	MLP	0.691	0.059	0.542	0.075	0.967	0.028	0.990	0.002
	SVM	0.759	0.000	0.710	0.000	0.815	0.000	0.990	0.000
	RF	0.785	0.007	0.742	0.000	0.834	0.015	0.991	0.000
ADASYN	MLP	0.642	0.039	0.477	0.052	0.989	0.021	0.988	0.001
	SVM	0.471	0.011	0.606	0.013	0.386	0.013	0.970	0.001
	RF	0.756	0.015	0.710	0.000	0.810	0.034	0.990	0.001
Borderline-SMOTE	MLP	0.748	0.013	0.632	0.016	0.917	0.031	0.991	0.001
	SVM	0.662	0.011	0.645	0.000	0.681	0.023	0.986	0.001
	RF	0.784	0.012	0.703	0.013	0.886	0.015	0.992	0.000
SMOTE+BAGAN-GP	MLP	0.687	0.058	0.548	0.082	0.940	0.042	0.989	0.001
	SVM	0.786	0.000	0.710	0.000	0.880	0.000	0.992	0.000
	RF	0.782	0.014	0.716	0.013	0.861	0.018	0.991	0.001
ADASYN+BAGAN-GP	MLP	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
	SVM	0.615	0.020	0.490	0.024	0.828	0.033	0.987	0.001
	RF	0.805	0.017	0.761	0.026	0.855	0.004	0.992	0.000
Borderline-SMOTE+BAGAN-GP	MLP	0.728	0.049	0.594	0.060	0.948	0.006	0.990	0.001
	SVM	0.697	0.010	0.645	0.000	0.758	0.024	0.988	0.001
	RF	0.779	0.024	0.697	0.033	0.885	0.017	0.991	0.001
SMOTE=>BAGAN-GP	MLP	0.643	0.024	0.484	0.029	0.963	0.030	0.988	0.001
	SVM	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
	RF	0.750	0.010	0.619	0.013	0.950	0.001	0.991	0.000
ADASYN=>BAGAN-GP	MLP	0.627	0.028	0.484	0.041	0.905	0.080	0.987	0.001
	SVM	0.622	0.000	0.452	0.000	1.000	0.000	0.988	0.000
	RF	0.727	0.025	0.594	0.026	0.938	0.022	0.990	0.001
Borderline-SMOTE=>BAGAN-GP	MLP	0.635	0.019	0.477	0.024	0.950	0.025	0.988	0.000
	SVM	0.616	0.013	0.445	0.013	1.000	0.000	0.988	0.000
	RF	0.737	0.025	0.606	0.032	0.940	0.018	0.991	0.001