Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.48 No.4 pp.165-173
DOI : https://doi.org/10.11627/jksie.2025.48.4.165

Grease Consistency Prediction for Grease Products Quality Improvement

Donghyun Kim

, Dongju Lee†

Department of Industrial Engineering, Kongju National University

^†Corresponding Author : djlee@kongju.ac.kr

Received 12/11/2025 Finally Revised 13/12/2025 Accepted 17/12/2025

Abstract

Grease consistency is a critical quality factor in industrial lubrication processes, as it significantly affects mechanical performance, operational stability, and product durability. In grease manufacturing, fluctuations in process variables such as feed temperature, evaporation time, flow rate, and environmental conditions can cause inconsistencies in quality, which may lead to operational defects or increased maintenance costs. To address this challenge, this study proposes a predictive modeling approach for forecasting grease consistency with the aim of enhancing process quality. Real manufacturing process data were collected from a grease production facility, and irrelevant or highly correlated variables were eliminated through multicollinearity analysis and dimensionality reduction. Multiple machine learning regression techniques were applied and evaluated to identify the most effective model for predicting grease consistency. Through systematic comparison, the final predictive model was developed to provide accurate consistency estimation based on selected process variables. The proposed model enables proactive quality control by allowing consistency deviations to be detected early, thereby supporting process optimization and decision-making in manufacturing environments. This research demonstrates the applicability of data-driven predictive modeling in the grease industry and contributes to the development of intelligent quality management strategies in modern manufacturing. The findings suggest that machine learning-based consistency prediction can play a key role in improving production efficiency and ensuring stable product performance.

Key Words : Grease Consistency , Support Vector Regression , Principal Component Analysis , Quality Prediction

그리스 제품의 품질 향상을 위한 그리스 주도예측

김동현, 이동주†

공주대학교 산업공학과

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

윤활 그리스(lubricating grease)는 고온, 고하중, 수분 및 오염 등 극한 환경에서 기계의 마찰을 줄이고 장비의 수명 을 유지하는 데 사용되는 핵심 산업소재이다[9]. 이 중 주 도(Consistency)는 그리스의 점도 수준과 구조적 안정성을 결정하는 대표적인 품질 지표로, 사용 환경에 따라 요구되 는 물성 기준이 달라지기 때문에 일관된 품질 유지가 매우 중요하다[11]. 주도가 적절하지 않을 경우 윤활 성능 저하, 이상 마모 및 공정 불량과 같은 문제를 초래할 수 있으며, 이는 유지 보수 비용 증가와 생산성 저하로 이어질 수 있 다[9].

그리스 산업에서는 일반적으로 ASTM D217 기준에 따 라 콘 관입 시험(Cone Penetration Test)을 통해 주도를 평 가하지만, 이 방식은 대량의 시료를 필요로 하고 숙련자의 작업 능력에 따라 오차가 발생할 수 있으며, 실시간 공정 제어에 활용하기 어렵다는 한계가 있다[11]. 이러한 이유 로 제조 공정 단계에서 예측 가능한 지표를 활용하여 주도 를 사전에 추정하고 품질 이상을 조기에 감지할 수 있는 데이터 기반 품질 예측 기법에 대한 수요가 증가하고 있다 [9].

제조 분야에서는 센서 데이터 및 환경 조건 데이터를 활용한 머신러닝 기반 예측 모델이 다양한 품질 특성 분석 에 적용되고 있으며, 그리스 분야에서도 레오미터 기반 특 성 분석이나 누적 엔트로피 생성량(Accumulative Entropy Generation) 기반 실시간 주도 예측 등 데이터 주도형 (data-driven) 연구가 시도되고 있다[11]. 그러나 이러한 선행연구는 실험실 환경에서 제한된 조건으로 수행되었 거나 특정 분포 기반 가정에 의존하는 경우가 많아 실제 생산 현장에서 발생하는 변수 간 상관성, 다중공선성 (multicollinearity), 소규모 샘플 데이터 문제 등을 충분히 반영하지 못한다는 한계가 존재한다[9].

이에 본 연구는 실제 그리스 제조 공정에서 수집된 현 장 데이터를 기반으로, 기존 연구에서 충분히 다루지 못한 공정 변수-주도(Consistency) 간 다변량 관계를 정량적으 로 분석하고 예측 모델을 구축하는 절차를 제안한다. 특히 공정 데이터에 내재된 상관성 및 다중공선성 문제를 완화 하기 위해 통계적 분석과 변수 선택을 적용하여 주요 영향 요인을 선별함으로써, 선행연구와 구별되는 실증적이고 해석 가능한 예측 구조를 확립하고자 하였다. 또한 실제 생산 데이터를 통해 그리스 주도의 예측 가능성을 검증하 고, 제한된 표본 환경에서도 변수 정제 절차를 통해 모델 의 일반화 가능성을 확보했다는 점에서 의의를 갖는다. 나 아가 다양한 회귀 기반 머신러닝 모델을 비교․검증함으 로써 데이터 기반 품질예측 접근의 적용 가능성을 제시하 고, 제조 현장에서 주도 편차를 조기 감지하고 품질 이상 을 예측할 수 있는 실무적 활용 방향을 모색한다.

2. 이론적 배경

주도는 NLGI(National Lubricating Grease Institute)에서 제시한 등급 체계로 분류되며, 값이 높을수록 단단하고 점 조성이 강한 상태를 의미한다. 반대로 값이 낮을수록 유동 성이 높은 부드러운 상태를 나타낸다[9]. 이 등급은 ASTM D217 콘 침입도(Cone Penetration)시험을 통해 결정되며, 침입도 값(0.1 mm 단위)에 따라 <Table 1>과 같이 구분된다.

<Figure 1>은 ASTM D217 표준에 따라 수행된 그리스 주도(Consistency) 측정 절차를 단계별로 나타낸 것이다.

① 반응기에서 채취한 시료를 교반하여 균질화하고, ② 항온조에서 25 ± 0.5 °C로 온도를 조정한다.

③과 ④에서는 조정된 그리스를 혼화컵에 충전하여 공 기를 제거하고 표면을 평탄하게 만든다.

⑤ ASTM D217 규격의 혼화 장치를 이용해 정해진 횟 수만큼 혼화(working)를 수행한 후, ⑥ 혼화가 완료된 그리 스를 다시 혼화컵에 채운다.

마지막으로 ⑦ 150 g의 금속 콘을 시료 위에 자유 낙하 시켜 5 s 동안 침투시킨 뒤, 침입 깊이를 0.1 mm 단위로 측정한다.

침입도가 클수록 그리스가 부드럽고 유동성이 높으며, 반대로 작을수록 점조성이 강한 상태를 의미한다.

이 ASTM D217 시험은 절차가 단순하고 반복성이 높 아, 산업 현장에서 그리스 품질 판정 및 점조성 관리에 널 리 활용된다[10,11].

다음은 주도의 정밀 예측을 위해 적용된 회귀 알고리즘 은 총 여섯 가지이며, 변수 간 다중공선성 문제를 완화하 기 위해 주성분분석(PCA)을 병행하였다. 각 기법의 개념 은 다음과 같다.

(1) Random Forest Regression

여러 개의 회귀 트리(Decision Tree)를 독립적으로 학습 시켜 예측 결과를 평균함으로써 과적합을 완화하는 앙상 블(ensemble) 기법이다. 각 트리는 부트스트랩 샘플링 (bootstrap sampling)을 통해 생성되며, 무작위로 선택된 변 수 집합을 이용해 학습한다. 최종 예측 함수는 식 (1)과 같이 정의된다.

{\hat{f}}_{R F} (x) = \frac{1}{K} \sum_{k = 1}^{K} h_{k} (x)

(1)

여기서 ${\hat{f}}_{R F} (x)$ 는 입력 x에 대한 예측값, K는 생성된 트리의 수, h_k (x)는 K번째 회귀 트리의 예측 함수이다. 이 러한 구조는 개별 트리의 편향을 줄이고, 예측값의 분산을 완화하여 안정적인 성능을 제공한다[1].

(2) Support Vector Regression

Support Vector Regression은 허용 오차 ε-불감대 내에서 데이터를 근사하도록 최적의 초평면을 찾는 회귀 기법이 다[5].

모델의 최적화식은 식 (2)와 같다.

\begin{array}{l} \min i m i z e \frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{N} (ξ_{i} + ξ_{i}^{*}) \\ subject to \begin{array}{l} y_{i} - ≺ ω, x_{i} ≻ - b \leq ε + ξ_{i} \\ ≺ ω, x_{i} ≻ + b - y_{i} \leq ε + ξ_{i}^{*} \\ ξ_{i}, ξ_{i}^{*} \geq 0 \end{array} \end{array}

(2)

여기서 ω는 가중치 벡터, b는 편향값, ξ_i, $ξ_{i}^{*}$ 는 slack 변 수이며, C는 오차 허용 정도를 조절하는 하이퍼파라미터 이다.

Support Vector Regression은 모델 복잡도와 예측 오차 간의 균형을 통해 일반화 성능을 향상시킨다[4].

(3) XGBoost Regression

XGBoost Regression은 Gradient Boosting 알고리즘을 기 반으로 트리 복잡도에 대한 정규화 항을 추가하여 과적합 을 억제한 모델이다[2]. 각 단계의 트리는 1차 및 2차 미분 통계(g_i, h_i)를 이용해 근사된 목적함수(식 (3))를 최소화하 도록 학습된다.

o b j = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}

(3)

여기서 T는 리프 노드 수, w_j는 리프의 가중치이며 γ,λ 는 정규화 계수이다.

XGBoost Regression은 명시적인 제약식 없이 손실함수 와 정규화를 통해 모델 복잡도를 조절한다[3].

(4) Ridge Regression

Ridge Regression는 다중공선성(multicollinearity)으로 인한 회귀계수 추정의 불안정성을 완화하기 위해 제안된 정규화 회귀 기법이다[6].

오차 제곱합을 최소화하면서 회귀계수의 크기에 대한 L2 제약을 부여하며, 그 식은 (4)와 같다.

\begin{array}{l} \min_{β} \sum_{i = 1}^{n} {(y_{i} - x_{i}^{T} β)}^{2} \\ subject to \sum_{j = 1}^{p} β_{j}^{2} \leq c \end{array}

(4)

여기서 c는 제약 강도를 조절하는 상수로, 값이 작을수 록 제약이 강해져 회귀계수의 크기가 감소한다.

Ridge Regression는 변수 간 상관성이 높은 경우에도 안 정적이고 일반화된 예측 성능을 제공한다[6].

(5) Lasso Regression

Lasso Regression는 변수 선택(feature selection) 기능을 포함한 정규화 회귀 기법으로, 회귀계수의 크기에 L1 제 약을 부여하여 일부 계수를 0으로 만드는 특징이 있다[7]. 그 식은 (5)와 같다.

\begin{array}{l} \min_{β} \sum_{i = 1}^{n} {(y_{i} - x_{i}^{T} β)}^{2} \\ subject to \sum_{j = 1}^{p} | β_{j} | \leq t \end{array}

(5)

여기서 t는 제약 강도를 조절하는 상수로, 값이 작을수록 더 많은 계수가 0이 되어 변수 선택 효과가 강화된다.

Lasso Regression는 불필요한 변수를 자동으로 제거하 여 모델의 해석력을 높이고, 과적합을 방지하는 데 유용하 다[7].

(6) Elastic Net Regression

Elastic Net Regression는 Ridge와 Lasso의 제약을 결합 하여 두 기법의 장점을 모두 활용하는 정규화 방법이다 [8].

L1 제약을 통해 변수 선택 기능을 유지하면서, L2 제약 을 통해 다중공선성 문제를 완화한다.

그 식은 (6)과 같다.

\begin{array}{l} \min_{β} \sum_{i = 1}^{n} {(y_{i} - x_{i}^{T} β)}^{2} \\ subject to a \sum_{j = 1}^{p} | β_{j} | + (1 - a) \sum_{j = 1}^{p} β_{j}^{2} \leq t \end{array}

(6)

여기서 a는 L1과 L2 제약의 비율을 조절하는 하이퍼파 라미터이며, a = 1일 때는 Lasso, a = 0일 때는 Ridge와 동 일한 형태가 된다.

Elastic Net Regression는 변수 간 상관성이 높고 변수 선택이 필요한 경우 모두에 효과적으로 적용될 수 있다[8].

(7) Principal Component Analysis (PCA)

주성분분석(Principal Component Analysis)은 고차원 데 이터의 분산을 가장 잘 설명하는 새로운 축(주성분)을 찾 아 차원을 축소하는 기법이다.

평균이 0으로 중심화된 데이터 행렬 X^*의 공분산 행렬 은 식(7)과 같이 정의된다[6].

S = \frac{1}{n - 1} X^{*^{T}} X^{*}

(7)

이를 통해 데이터의 주요 분산 방향을 나타내는 주성분을 도출할 수 있으며, 변수 간 상관성을 제거하여 모델의 다중 공선성을 완화하고 예측 안정성을 향상시킬 수 있다[9].

3. 데이터 구성 및 전처리

제조 공정에서 생산된 총 24개 배치(batch)의 실제 생산 데이터를 활용하였다. 데이터는 공정 조건의 변동에 따른 주도의 변화 특성을 분석하고 예측 모델을 구축하기 위해 수집되었으며, 수집 기간은 2024년 7월부터 2025년 1월까 지 약 7개월간으로 제한된다. 주도는 ASTM D217 콘 관입 시험을 통해 측정된 값을 기반으로 하였으며, 이를 종속 변수로 사용하였다.

수집된 독립 변수는 크게 반응기 내부 조건 변수(온도 계열), 투입 유량 변수(유량 계열), 작업 환경 변수(현장 온 도 및 습도), 공정 시간 변수 등으로 구성되어 있으며, <Table 2>에 요약되어 있다.

반응기 내부 온도는 즉시 측정이 가능한 센서 온도 (sensor_temp)와 반응기 내부를 3개의 구역으로 구분하여 측정한 실측 온도(measure_temp1~3)로 구성된다. 유량 변 수(flux1~3)는 서로 다른 기유가 투입되는 라인의 유량을 나타내며, 환경 변수(factory_temp1~3, factory_moist1~3)는 작업 시작 전․중․후의 공장 내부 온도 및 습도 데이터를 포함한다. 또한 비누화 반응 단계에서 수분 증발이 완료되 기까지의 시간을 나타내는 evapor_time 변수를 포함하였다.

종속변수는 NLGI 2호 등급에 해당하는 단일 제품군에 서 측정된 주도(Consistency) 값으로, 동일 등급 내 주도 값의 변동을 예측하기 위한 회귀 분석을 수행하였다.

분석 대상 제품군은 NLGI 2호 규격을 만족하되, 주도 값 분포가 2호와 3호 등급의 경계에 근접한 특성을 갖는 단일 제품군으로 정의된다.

주도는 제품의 구조적 강도와 점도를 대표하는 주요 품 질 지표이다.

데이터는 연구자가 실측 및 공정 시트 기록을 기반으로 전수 수집하였기에 결측값은 존재하지 않았으나, 저장 프 로세스 과정에서 문자열 또는 정수형으로 인코딩된 변수 는 모두 연속형(float) 형식으로 변환하였다. 이후 <Figure 2>와 같이 변수 간 상관관계를 분석하기 위해 피어슨 상 관계수 기반의 히트맵을 도출하였으며, 그 결과 일부 변수 들 간에 0.9 이상으로 높은 상관성이 확인되었다.

이에 상관계수가 높은 변수들 중 대표성을 갖는 변수만 을 남기고 나머지를 제거하여 최종적으로 6개의 주요 독 립변수만을 선정하였다.

<Figure 3>은 제조 과정 중 이상이 발생한 특정 배치의 산점도 분석 결과를 보여준다. 해당 배치는 유량 공사로 flux1 계측이 정상적으로 작동하지 않아 다른 관측치와 명 확히 구분되는 극단값을 보였으며, 그 배치 전체가 공정 조건을 반영하지 않는 비정상 데이터로 확인되어 분석 대 상에서 제외하였다.

이에 따라 최종 분석에는 총 23개의 batch 데이터가 사 용되었으며, 상관관계 분석과 변수 선택 과정을 통해 선별 된 6개의 독립변수가 최종 입력 변수로 확정되었다.

각 변수의 기초통계량은 <Table 3>에 제시하였다.

변수들의 평균값과 중앙값의 차이는 대부분 1 단위 이 하로 작고, 가장 큰 차이를 보이는 evapor_time에서도 약 2~3 단위에 불과하다. 이는 변수 범위(약 200~1600)에 비 해 미미한 수준으로, 분포의 비대칭성이 크지 않고 극단값 의 영향이 제한적임을 의미한다. 표준편차와 사분위수 범 위(IQR) 또한 과도하게 크지 않아 데이터가 전반적으로 균일하게 분포하고 있음을 확인할 수 있다. 이는 전처리 과정에서 이상치를 제거한 결과, 데이터 분포가 안정화되 었음을 보여준다.

시간 변수 evapor_time은 표준편차 21.80으로 변동 폭이 다소 크지만, flux1~3변수는 1~2 수준으로 작아 공정 조건 이 일정하게 유지된 것으로 해석된다. 한편 factory_temp1 은 12.90~39.20의 넓은 범위를 보여 환경 요인의 영향 가 능성을 시사하며, 종속변수의 범위(245~283)는 본 연구의 주도(Consistency) 예측 대상 특성을 잘 반영하고 있다.

4. 모델링 전략

모델링 절차는 (1) 전처리가 완료된 6개 독립 변수를 이 용한 1차 회귀 모델 학습 및 성능 비교, (2) 동일 변수에 대한 다중공선성 검토 및 주성분분석(PCA)을 통한 차원 축소, (3) 축소된 변수를 이용한 2차 회귀 모델 학습 및 성능 비교, (4) 두 경우의 결과를 종합한 최종 모델 선정의 단계로 구성된다.

우선 전처리를 통해 확정된 6개의 독립 변수를 입력 변 수로 사용하여 총 6개의 회귀 모델을 동일한 조건으로 학 습시키고, 원변수 기반 1차 모델의 예측 성능을 비교하였 다. 이 과정에서 각 모델의 하이퍼파라미터는 Grid Search 를 통해 탐색하였으며, K-fold 교차검증을 적용하여 제한 된 표본 환경에서도 보다 안정적인 성능 평가가 이루어지 도록 하였다.

이후 동일한 변수 집합에 대해 다중공선성을 확인한 뒤, PCA을 적용하여 변수를 축소하고, 축소된 주성분을 입력 변수로 사용한 2차 회귀 모델 학습을 수행하였다. PCA 기 반 모델 역시 원변수 기반 모델과 동일하게 Grid Search와 K-fold 교차검증을 적용하여 학습 및 성능 평가를 수행함 으로써, 각 회귀 모델의 예측 성능을 비교하였다.

최종 모델은 원변수 기반 학습과 PCA 기반 학습 두 경 우 모두에서 상대적으로 안정적이고 우수한 예측 성능을 보인 모델을 중심으로 선정하였으며, 다양한 변수 처리 조 건에서도 일관된 예측 성능을 유지하는 모델을 최종 예측 모델로 채택하였다.

5. 실험 결과

본 장에서는 앞서 제시한 모델링 절차에 따라 실제 데 이터를 기반으로 수행한 실험 결과를 제시한다.

선택된 변수들을 활용하여 학습 데이터를 Train(80%)과 Test(20%)의 8:2 비율로 분할한 뒤, 총 6개의 회귀 모델을 학습 및 평가하였다. <Table 4>는 각 모델에 대한 Train 및 Test 데이터셋의 결정계수(R²) 결과를 정리한 것이다.

XGBoost Regression의 경우 Train R²는 0.9816, Test R² 는 0.6828로 나타났으며, Random Forest Regression은 Train R² 0.7114, Test R² 0.7247로 Train과 Test 간 성능 차이가 상대적으로 작아 가장 안정적인 일반화 성능을 보 였다. 반면 Lasso Regression은 Train R² 0.0000, Test R² -0.1181로 유의미한 예측력을 확보하지 못하였는데, 이는 L1 규제를 기반으로 하는 Lasso의 특성상 소표본․고상관 구조에서 회귀 계수가 과도하게 0으로 축소되는 영향으로 해석된다.

Elastic Net Regression과 Support Vector Regression 또한 전반적으로 낮은 설명력을 보였으며, Ridge Regression 역 시 트리 기반 모델에 비해 제한적인 성능을 기록하였다. 이처럼 모델별로 Train과 Test 성능 간 차이가 존재하였으 며, 특히 트리 기반 모델인 XGBoost Regression과 Random Forest Regression이 다른 회귀 모델들과 비교하여 상대적 으로 우수한 예측 성능을 보였다.

<Table 5>는 PCA 적용 전․후의 분산팽창계수(VIF)를 비교한 결과를 나타낸 것이다. PCA 적용 이전에는 flux1(657,571.41), flux2(713,881.82), flux3(130,715.76)의 VIF 값이 매우 높아 세 변수 간 강한 다중공선성이 존재함 을 확인할 수 있었다. 또한 sensor_temp(34,625.99)와 evaport_ime(137.85) 역시 높은 상관성을 보였으며, factory_ temp1은 VIF 18.92로 상대적으로 낮았으나 일반적인 기준(VIF < 10)을 고려하면 여전히 다중공선성의 영향이 남아 있는 수준이었다.

이러한 문제를 완화하기 위해 PCA를 적용하여 고도로 상관된 변수들을 대표 주성분으로 재구성하였다. 유량 계열 변수인 flux1․flux2․flux3는 하나의 주성분인 flux_PC1으 로 축약되었으며, sensor_temp와 evapor_time은 공정 특성 이 유사한 변수로 판단되어 temp_PC1으로 통합되었다. PCA 적용 후 flux_PC1과 temp_PC1의 VIF는 각각 1.2755와 1.2702로 크게 감소하였고, factory_temp1 역시 1.0051로 개 선되어 전체 변수 집합이 다중공선성의 영향을 거의 받지 않는 안정적인 구조로 정제되었다.

PCA 적용 후 회귀 모델 성능을 비교한 결과, <Table 6> 에 제시된 바와 같이 Random Forest Regression이 Train R² 0.8746, Test R² 0.8049로 가장 높은 성능을 보였으며, Train과 Test 간 성능 차이도 상대적으로 작아 일반화 성능 이 가장 우수한 모델로 확인되었다. Support Vector Regression 역시 Test R² 0.7348로 비교적 높은 성능을 나 타내며, Random Forest 다음으로 우수한 예측력을 보였다.

반면 XGBoost Regression은 Train R² 0.9594로 학습 성 능은 매우 높았으나 Test R² 0.4558로 급격히 감소하여, Train-Test 성능 차이가 크게 나타났다. Ridge Regression과 ElasticNet Regression은 각각 Test R² 0.4114, 0.3425로 중 간 이하의 성능을 보였으며, Lasso Regression은 Test R² -0.1181로 가장 낮은 예측 성능을 기록하였다.

종합적으로, PCA 적용 이후 트리 기반 모델(Random Forest)과 커널 기반 모델(Support Vector Regression)이 다 른 회귀 모델에 비해 일관되게 높은 Test R²를 보였으며, 선형 회귀 계열 모델은 상대적으로 낮은 성능을 나타냈다. 이러한 결과는 PCA 적용 이후의 입력 변수 구조에서 모델 별 성능 차이가 명확히 구분됨을 보여준다.

최종 예측 모델로는 Random Forest Regression을 선정 하였으며, 해당 모델을 기준으로 PCA 적용 전․후의 예측 성능 변화를 비교하였다. 이를 통해 입력 변수 구성 방식 에 따른 성능 차이를 보다 직관적으로 확인하고자 하였으 며, 결정계수(R²) 및 오차 지표 변화를 시각적으로 비교한 결과를 그림으로 제시하였다. 해당 시각화는 PCA 적용 전․후의 성능 변화를 명확히 보여주며, 최종 모델 선정의 타당성을 보조적으로 뒷받침한다.

<Figure 4>는 결정계수(R²) 기반의 성능 비교를 나타낸 다. PCA 적용 전 Train R²은 0.7114, Test R²은 0.7247로 학습과 예측 단계 모두에서 일정 수준의 설명력을 보였다. PCA를 적용한 이후에는 Train R²이 0.8746으로 향상되었 고, Test R²은 0.8049로 증가하였다.

이는 두 지표가 동시에 개선된 결과로, 입력 변수 간 중복 된 변동성이 제거되면서 설명력이 강화되었음을 보여준다.

flux 계열 변수처럼 상관성이 높은 입력이 다수 존재할 경우, PCA는 공통 변동성을 하나의 축으로 통합하여 보다 간결한 구조를 제공하며, 이에 따라 모델이 핵심 패턴을 효율적으로 학습할 수 있다. 또한 Train-Test 간 성능 차이가 크게 확대되지 않았다는 점에서, 성능 향상이 과적합이 아 닌 실제 예측 능력 개선으로 이어졌음을 확인할 수 있다.

다음으로 <Figure 5>는 평균제곱오차(MSE)의 변화를 비교한 것이다. PCA 적용 전 Train MSE는 31.6741, Test MSE는 28.8881로 측정되어 기본 입력 구조에서도 일정 수준의 예측 정확도를 보였다. 반면 PCA 적용 후에는 Train MSE가 13.7569로 크게 감소하였고, Test MSE 역시 20.4712로 줄어들어 두 지표 모두 개선되었다. 이는 PCA 가 다중공선성을 완화하고 입력 잡음을 줄여 모델이 보다 안정적인 분기 구조를 형성하는 데 기여했음을 보여준다. 특히 Train MSE의 감소는 학습 과정에서 주요 변동 요인 이 보다 명확히 정리되었음을 의미하며, Test MSE의 감소 는 이러한 개선이 실제 예측 단계에서도 반영되었음을 나 타낸다. 전반적으로 MSE 기준 비교를 통해 PCA 적용이 오차 수준을 전반적으로 낮추는 데 기여했음을 확인할 수 있다.

마지막으로 <Figure 6>는 PCA 적용 전․후의 평균절대 오차(MAE) 변화를 비교한 결과를 제시한다. PCA 적용 이 전에는 Train MAE가 3.7786, Test MAE가 5.1589로 나타 나, 예측 오차의 절대적 크기 측면에서 일정 수준의 정확 도를 보였다. PCA를 적용한 이후에는 Train MAE가 2.8514, Test MAE가 4.2346으로 감소하여, 학습 단계와 예 측 단계 모두에서 오차 규모가 전반적으로 축소되었다.

MAE는 개별 관측치에 대한 평균적인 예측 오차를 직접 적으로 반영하는 지표로서, PCA 적용 이후 전체 데이터 범위에서 예측 오차가 보다 균일하게 감소했음을 확인할 수 있다. 이는 고상관 구조를 가지는 유량 관련 변수들이 주성분으로 통합되면서, 모델이 특정 관측치에 과도하게 반응하는 경향이 완화된 결과로 나타난다. 이러한 변화는 PCA 적용이 예측 오차의 절대적 크기와 안정성 측면에서 모두 긍정적인 영향을 미쳤음을 보여준다.

종합적으로, PCA 적용 전에도 양호한 예측 성능을 보였 으며, PCA 적용 이후에는 R² 향상과 MSE․MAE 감소가 동시에 나타나 모델의 안정성과 설명력이 전반적으로 개 선되었다. 이는 변수 간 상관성이 높은 데이터에서 PCA가 입력 구조를 정제함으로써 예측 성능과 일반화 능력을 효 과적으로 향상시켰음을 보여주며, 그 결과 PCA 기반 Random Forest Regression이 최종 예측 모델로 가장 적합 한 것으로 확인되었다.

6. 결론 및 시사점

Random Forest Regression은 PCA 적용 전․후 두 경우 모두에서 일관되게 우수한 예측 성능을 보였다. 특히 PCA 적용 이후에는 결정계수(R²)의 상승과 함께 평균제곱오차 (MSE) 및 평균절대오차(MAE)가 동시에 감소하는 경향이 확인되었다. 이는 고상관 구조를 가지는 공정 변수들이 주 성분분석을 통해 정제된 이후, 모델이 보다 안정적인 분기 구조를 형성하며 핵심 패턴을 효과적으로 학습할 수 있었 음을 시사한다. 반면, PCA를 적용하지 않은 경우에도 전 반적으로 안정적인 예측 성능을 유지하여, 원 변수 기반 모델 역시 충분한 활용 가능성을 보였다. 이러한 결과는 데이터 특성과 분석 목적에 따라 PCA 적용 여부를 선택적 으로 결정할 수 있음을 의미한다.

아울러 최종모델은 시험 데이터 기준으로 MAE 약 4~5 수준의 예측 오차와 R² 약 0.75~0.80의 성능을 보였으며, 이는 주도 분포 범위(약 245~283)에 대비하여 약 11~14% 수준의 평균 예측 오차에 해당한다. 또한 MAE는 주도 표 준편차 대비 40% 미만 수준으로 확인되어, 모델이 실제 공정 내 주도 변동성을 과도하게 벗어나지 않는 범위에서 예측을 수행함을 정량적으로 보여준다.

학문적 측면에서는 기존의 실험실 기반 연구나 단일 지 표 중심 분석에서 벗어나, 실제 제조 현장에서 수집된 다 변량 공정 데이터를 활용하여 주도 예측 문제를 다루었다 는 점에서 의미를 가진다. 특히 공정 변수 간 강한 상관 구조가 존재하는 환경에서, 상관분석-주성분분석-머신러 닝 모델링으로 이어지는 분석 절차를 통해 다중공선성 문 제를 체계적으로 완화하고, PCA 적용 전․후의 예측 성능 변화를 정량적으로 비교․제시하였다. 이는 실제 양산 공 정 데이터를 기반으로 주도를 예측한 사례로서, 데이터 기 반 품질 예측 접근의 확장 가능성을 보여준다.

산업적 측면에서는 표본 수가 제한된 조건에서도 Random Forest 기반 예측 모델이 비교적 안정적인 성능을 유지함을 확인함으로써, 제조 현장 적용 가능성을 시사한 다. 특히 본 연구에서 확인된 ±4~5 수준의 평균 예측 오차 는, 주도 편차를 사전에 인지하고 유량․온도 등 주요 공 정 변수를 조정하여 품질 변동성을 관리하기 위한 현장 품질 관리 목적에 충분한 정확도 수준으로 판단된다. PCA 를 적용한 모델은 변수 간 상관성이 높은 환경에서 보다 정제된 입력 정보를 제공하여 공정 조건 변화에 따른 주도 편차를 사전에 예측하는 데 유리하며, 반대로 원 변수 기 반 모델은 해석 용이성과 즉각적인 적용 측면에서 장점을 가진다. 따라서 현장의 데이터 확보 수준, 해석 요구도, 운 용 목적에 따라 PCA 적용 여부를 유연하게 선택하여 활용 할 수 있을 것으로 판단된다. 향후 실시간 공정 데이터 수 집 시스템과 연계될 경우, 이러한 예측 모델은 사전 품질 관리 및 이상 감지 체계로의 확장 가능성도 기대된다.

다만, 분석은 2024년 7월부터 2025년 1월까지 약 7개월 간 수집된 24개 batch 데이터를 기반으로 수행되었기 때문 에, 계절적 요인이나 설비 노후화와 같은 장기적 변동성을 충분히 반영하지 못한 한계가 존재한다. 향후 장기간의 데 이터가 추가로 확보된다면, 계절․원료 특성․설비 상태 변화가 주도에 미치는 영향을 보다 정교하게 예측할 수 있을 것이며, 심층신경망 기법을 통한 예측도 시도해 볼 수 있을 것이다. 또한 압력, 회전수, 투입량 등 추가적인 공정 변수를 포함한 확장 분석을 통해 모델의 일반화 성능 을 더욱 향상시킬 필요가 있다.

종합적으로, 실제 제조 공정 데이터의 복잡한 상관 구조 를 정량적으로 분석하고, PCA 적용 여부에 따른 머신러닝 예측 성능을 비교함으로써 주도 예측의 실현 가능성을 제 시하였다. 이러한 접근은 주도(Consistency)뿐만 아니라 점 도(Viscosity)와 같은 유변학적 특성을 핵심 품질 지표로 갖는 윤활제 제조 산업 전반으로 확장 가능성이 크며, 데 이터 기반 공정 관리 및 품질 예측을 위한 실질적인 참고 자료로 활용될 수 있을 것이다[12].

Figure

<Figure 1>.

Experimental Procedure for Grease Consistency Measurement ASTM D217)

<Figure 2>.

Correlation-Based Variable Preprocessing and Reduction Process

<Figure 3>.

Flux1 Scatter Plot before and after Outlier Removal

<Figure 4>.

Comparison of R2 Before and After PCA

<Figure 5>.

Comparison of MSE Before and After PCA

<Figure 6>.

Comparison of MAE Before and After PCA

Table

<Table 1>.

Classification of NLGI Grades according to Cone Penetration (ASTM D217)

NLGI Grade	Penetration Range (0.1 mm units)	Physical Characteristics
000	445~475	Very fluid gel type, almost liquid-like viscosity
00	400~430	Highly flowable semi-solid with excellent mobility
0	355~385	Soft semi-solid, suitable for low‑speed applications
1	310~340	Slightly soft consistency, suitable for medium‑speed rotation
2	265~295	General‑purpose grease with standard viscosity
3	220~250	High viscosity and close to a solid state
4	175~205	Firm, solid‑type lubricant with excellent structural stability
5	130~160	Very stiff texture with minimal flowability
6	85~115	Extremely hard, nearly solid‑like form

<Table 2>.

Description of Variables

Category	Variable	Unit
Temperature	sensor_temp	℃
measure_temp1	℃
measure_temp2	℃
measure_temp3	℃
Flow Rate	flux1	L/min
flux2	L/min
flux3	L/min
Environmental	factory_temp1	℃
factory_temp2	℃
factory_temp3	℃
factory_moist1	%RH
factory_moist2	%RH
factory_moist3	%RH
Time	evapor_time	min
Target	Consistency	Grade

<Table 3>.

Summary Statistics of Selected Variables

	sensor_ temp	evapor _time	flux1	flux2	flux3	factory _temp1	Consistency
count	23.00	23.00	23.00	23.00	23.00	23.00	23.00
mean	200.49	228.78	1210.58	1597.37	178.33	29.30	263.04
std	1.22	21.80	1.43	1.82	0.60	7.30	10.76
min	197.60	178.00	1208.80	1594.00	177.20	12.90	245.00
25%	200.00	221.00	1209.55	1596.20	177.95	25.55	254.00
50%	201.00	231.00	1210.20	1597.10	178.10	28.80	265.00
75%	201.15	240.00	1211.40	1598.50	178.85	35.60	271.00
max	202.00	270.00	1214.00	1601.80	179.90	39.20	283.00

<Table 4>.

Model Performance (R²) Using Selected Variables

Model	Train R2	Test R2
XGBoost Regression	0.9816	0.6828
Random Forest Regression	0.7114	0.7247
Lasso Regression	0.0000	-0.1181
Ridge Regression	0.3064	0.5238
ElasticNet Regression	0.2719	0.4335
Support Vector Regression	0.7110	0.5533

<Table 5>.

VIF Results Before and After PCA

Category	Variable	VIF
Before PCA	flux1	657,571.41
flux2	713,881.82
flux3	130,715.76
sensor_temp	34,625.99
evapor_time	137.85
factory_temp1	18.92
After PCA (flux1․flux2․flux3 → flux_PC1, sensor_temp․evapor_time → temp_PC1)	flux_PC1	1.275542
temp_PC1	1.270215
factory_temp1	1.005144

<Table 6>.

Model Performance After PCA

Model	Train R²	Test R²
XGBoost Regression	0.9594	0.4558
Random Forest Regression	0.8746	0.8049
Lasso Regression	0.0000	-0.1181
Ridge Regression	0.2655	0.4114
ElasticNet Regression	0.2339	0.3425
Support Vector Regression	0.6478	0.7348

Reference

Breiman, L., Random Forests, Machine Learning, 2001, Vol. 45, No. 1, pp. 5-32.
Chen, T. and Guestrin, C., XGBoost: A Scalable Tree Boosting System, Proceedings of the 22^nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’16), pp. 785-794, 2016.
Friedman, J.H., Greedy Function Approximation: A Gradient Boosting Machine, The Annals of Statistics, 2001, Vol. 29, No. 5, pp. 1189-1232.
Smola, A.J. and Schölkopf, B., A Tutorial on Support Vector Regression, Statistics and Computing, 2004, Vol. 14, No. 3, pp. 199-222.
Vapnik, V. N., The Nature of Statistical Learning Theory, Springer, New York, 1995.
Hoerl, A.E. and Kennard, R.W., Ridge Regression: Biased Estimation for Nonorthogonal Problems, Technometrics, 1970, Vol. 12, No. 1, pp. 55-67.
Tibshirani, R., Regression Shrinkage and Selection via the Lasso, Journal of the Royal Statistical Society: Series B (Methodological), 1996, Vol. 58, No. 1, pp. 267-288.
Zou, H. and Hastie, T., Regularization and Variable Selection via the Elastic Net, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2005, Vol. 67, No. 2, pp. 301-320.
Gurt, A. and Khonsari, M.M., Testing Grease Consistency, Lubricants, 2021, Vol. 9, No. 2, Article 14.
Khonsari, M.M., Lijesh, K.P., Miller, R.A., and Shah, R., Evaluating Grease Degradation through Contact Angle Approach, Lubricants, 2021, Vol. 9, No. 1, Article 11.
NLGI, Serving the Grease Industry Since 1933, NLGI Spokesman, 2023, Vol. 87, No. 2, pp. 10-25.
Shah, R., Tung, S., Chen, R., and Miller, R., Grease Performance Requirements and Future Perspectives for Electric and Hybrid Vehicle Applications, Lubricants, 2021, Vol. 9, Article 40.