Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.47 No.4 pp.161-170
DOI : https://doi.org/10.11627/jksie.2024.47.4.161

Ensemble Prediction Model Using Mixture Design of Experiments

Youngseok Kwon, Kwanghyun Lee, Dongju Lee†
Department of Industrial Engineering, Kongju National University
Corresponding Author : djlee@kongju.ac.kr
11/11/2024 16/12/2024 16/12/2024

Abstract


This study proposes a weight optimization technique based on Mixture Design of Experiments (MD) to overcome the limitations of traditional ensemble learning and achieve optimal predictive performance with minimal experimentation. Traditional ensemble learning combines the predictions of multiple base models through a meta-model to generate a final prediction but has limitations in systematically optimizing the combination of base model performances. In this research, MD is applied to efficiently adjust the weights of each base model, constructing an optimized ensemble model tailored to the characteristics of the data. An evaluation of this technique across various industrial datasets confirms that the optimized ensemble model proposed in this study achieves higher predictive performance than traditional models in terms of F1-Score and accuracy. This method provides a foundation for enhancing real-time analysis and prediction reliability in data-driven decision-making systems across diverse fields such as manufacturing, fraud detection, and medical diagnostics.



혼합물 실험계획법을 활용한 앙상블 예측 모델

권영석, 이광현, 이동주†
공주대학교 산업공학과

초록


    1. 서 론

    기계 학습 기술의 발전은 전 세계 산업에 혁신을 일으키고 있으며, 데이터 기반 의사결정의 중요성이 커지고 있다[17]. 특히, 제조업에서는 복잡한 생산 공정과 다변량 데이터를 다루기 위해 불량 예측과 품질 관리에 머신러닝이 사용되며, 스마트 팩토리 환경에서 생산성 향상과 불량률 감소를 위해 실시간 데이터 분석을 통한 관리가 이루어지고 있다[12, 17]. 스마트 팩토리 환경에서 발생하는 데이터를 바탕으로 머신러닝 알고리즘이 적용됨으로써, 공정 중 발생할 수 있는 결함을 사전에 예측하고 관리하는 사례가 점차 증가하고 있다[11]. 금융 산업에서는 사기 탐지를 위해 복잡한 거래 데이터 분석이 요구되며, 이 과정에서 데이터 불균형을 해결하는 기법이 적용된다. 거래 데이터의 비대칭성 및 대량의 데이터로 인해 사기 탐지 문제는 머신러닝 알고리즘의 주요 적용 분야로 떠오르고 있다[7]. 의료 분야에서도 유전체 데이터 분석과 암 진단[5] 등에서 머신러닝이 활용되고 있다.

    Support Vector Machine(SVM)과 같은 알고리즘은 복잡한 유전체 데이터를 처리하여 중요한 특징을 추출하고 이를 바탕으로 예측 모델을 구축하는 데 유용하다[6]. 의료 산업에서 발생하는 데이터는 고유한 복잡성과 비선형성을 지니며, 이를 처리하기 위해 고도화된 머신러닝 모델의 최적화가 필수적으로 요구된다. 특히 의료 영상 데이터나 유전체 데이터는 환자 맞춤형 치료와 질병 예측을 위한 중요한 기반이 되며, 이를 위한 설명 가능한 인공지능(XAI)의 역할도 점차 커지고 있다[14, 15].

    산업별 머신러닝 적용 사례로는, 제조업의 고차원적 데이터 패턴을 탐지하여 결함을 예측하는 앙상블 학습 기법, 금융 산업의 불균형 문제를 해결하는 부스팅 기법, 의료 데이터의 복잡성을 다루는 비선형 모델이 있다[3, 6]. 기존 연구는 특정 산업 데이터를 분석하는 데 단일 모델을 사용하는 데에 그쳐, 데이터의 복잡성과 비선형성을 충분히 반영하지 못하는 한계를 지니고 있다. 이에 따라, 다양한 산업 데이터를 효과적으로 처리하기 위해 단일 모델의 한계를 극복할 수 있는 앙상블 학습 기법이 대안이 될 수 있으며, 앙상블 학습 내에서 각 모델의 기여도를 최적화하는 가중치 설정을 하는 것이 좋은 결과를 도출할 수 있다.

    앙상블 학습은 단일 모델보다 높은 성능을 달성하기 위해 여러 모델을 결합하는 기법으로, 배깅, 부스팅, 스태킹 등이 주요 방법론으로 꼽힌다. 배깅은 랜덤 포레스트와 같은 방식으로 분산을 줄이고 과적합을 방지하는 데 효과적이며, 부스팅은 데이터의 비선형성과 복잡성을 처리하는 데 강점을 가진다. 특히, 금융이나 의료와 같이 불균형 데이터 문제를 가진 산업에서는 XG-Boost[2]와 LightGBM이 부스팅 기법으로 사용되어 우수한 성능을 발휘하고 있다[3]. 또한, 스태킹은 다양한 기저 모델(Base Model)의 예측을 메타모델(Meta Model)이 결합하여 최종 예측을 수행 하는 방식으로, 데이터의 비선형성을 효과적으로 반영할 수 있으며 제조업 등에서 품질 관리와 결함 탐지의 성능을 높이는 데 유리하다[19]. 가중치 다수결 앙상블 기법은 각 모델의 기여도를 조절해 성능을 향상시키며, 기존의 다수결 방식보다 높은 정확도를 보인다[4].

    기존의 앙상블 모형(스태킹 모형)은 단일모델인 기저모델들의 예측결과를 투입변수로 하고 이들을 이용한 예측을 산출변수로 하는 메타모델을 이용하여 기저모델들의 예측결과를 종합하여 일반화 성능 지표인 정확도와 F1-Score를 최대화하였다.

    본 연구에서는 일반화 성능 지표를 최대화하는 기저모델 예측치의 최적 가중치를 구하기 위해 혼합물 실험계획법을 적용하여 최소한의 실험 횟수를 통해, 고려하는 일반화 성능 지표를 예측하는 함수를 구하였다. 또한, 구한 일반화 성능 지표 예측 함수를 최대화하도록 가중치를 최적화하는 기법을 적용하였다.

    또한, 본 연구에서 제안하는 해법의 성능을 평가하기 위해 다양한 산업데이터에 적용하고, 기존의 기법들과 비교 하였다.

    다양한 산업에서 기저모델들에 적절한 가중치를 부여하는 앙상블 기법은 제조업의 공정 최적화, 금융의 사기 탐지, 의료의 유전체 분석, 마케팅의 고객 세분화 및 예측 등에 활용될 수 있으며, 실시간 데이터 분석과 결합하여 산업별 데이터 기반 의사결정 시스템의 실효성을 높일 수 있을 것으로 기대된다.

    제조업에서는 공정 중 발생할 수 있는 결함을 예측하고 품질 관리의 정확성을 높여 생산성을 향상시키는 데 기여할 수 있다. 제조 현장에서 실시간으로 수집되는 데이터는 대규모의 복잡한 패턴을 포함하고 있으며, 이를 효율적으로 처리하는 머신러닝 모델이 결함 예측 및 공정 문제 해결에서 중요한 역할을 할 수 있음을 보여준다[4].

    또한, 의료 영상 데이터나 유전체 데이터를 기반으로 보다 정밀한 예측 모델을 구축할 가능성을 보였다. 이를 통해 의료 현장에서 의사결정을 지원하고 환자 맞춤형 치료를 제공하는 데 중요한 역할을 할 수 있다[15].

    이어지는 제2장에서는 사용된 데이터셋들을 소개하고, 기저모델로 사용된 기법들에 대해 설명하였다. 제3장에서는 제안하는 해법에 대해 소개하고, 제4장에서는 실험을 통해 기존 기법들과 제안하는 해법의 결과를 비교하였다. 마지막으로 제5장에서는 결론을 도출하였다.

    2. 데이터 및 방법론

    2.1 데이터셋 설명

    데이터셋들은 다양한 산업에서의 머신러닝 모델 성능 평가에 활용된다. <Table 1>에서 보듯이 의료 분야에서는 ‘Breast Cancer Wisconsin’과 ‘Pima Indians Diabetes’ 금융 산업에서는 ‘Credit Card Fraud Detection’ 등 데이터셋이 있으며, 제조업에서는 ‘Manufacturing Defect’, ‘CNC Precision Processing’ 등의 데이터셋이 있다. 데이터셋에서 독립 변수들은 표준화를 통해 데이터의 스케일을 조정하였다.

    2.2 앙상블 기법

    앙상블 학습은 여러 모델을 결합하여 단일 모델보다 더 나은 성능을 달성하는 기법으로, 다양한 산업 분야에서 널리 사용되고 있다. 이 기법의 주요 목적은 개별 모델이 놓치는 패턴을 보완하여, 불확실성이나 잡음이 포함된 데이터에서도 안정적인 예측을 가능하게 만드는 데 있다[16]. 앙상블 기법에는 배깅(Bagging), 부스팅(Boosting), 스태킹 (Stacking)과 같은 다양한 방법론이 포함된다.

    배깅은 여러 데이터 샘플에 대해 개별 모델을 학습시킨 후 이를 평균화하거나 다수결 투표 방식으로 결합하는 방식으로, 분산을 줄이고 과적합 문제를 해결하는 데 효과적이다. 랜덤 포레스트는 배깅의 대표적인 사례로, 여러 결정 트리를 결합하여 안정적인 예측 성능을 제공한다[16].

    부스팅은 이전 모델의 오류를 보완하며 순차적으로 모델을 학습시키는 방법으로, 데이터의 비선형성과 복잡성을 처리하는 데 강점을 가진다. XG-Boost는 정밀 가공 데이터에서 높은 성능을 기록한 바 있으며, LightGBM은 메모리 효율성과 속도 면에서 뛰어나 대규모 데이터셋에 적합하다는 연구 결과가 있다[9].

    스태킹은 다양한 기저 모델의 예측 결과를 결합하여 메타 모델이 최종 결정을 내리는 앙상블 학습 기법으로, 데이터의 비선형성을 처리하며 각 모델의 강점을 결합할 수 있다는 장점이 있다[11]. 메타 모델은 기저 모델의 예측값을 학습하여 최적의 결합 방식을 찾으며, 제조업, 금융, 의료 등 다양한 산업에서 품질 관리와 결함 탐지 같은 복잡한 문제를 해결하는 데 효과적이다[9]. 특히, 스태킹은 데이터 불균형 문제를 해결하거나 비선형 패턴을 처리하는 데 탁월한 성능을 발휘한다[11].

    가중치 다수결 앙상블(Weighted Majority Voting) 기법은 개별 모델의 성능에 따라 가중치를 부여하여 최종 예측을 수행하는 방식으로, 기존 다수결 방식보다 높은 정확도를 보인다[4]. 이 기법은 모델의 편향을 줄이고 일반화 성능을 향상시키는 데 중요한 역할을 한다.

    앙상블 학습의 핵심은 여러 모델이 가진 서로 다른 오류 패턴을 보완함으로써 전반적인 예측 성능을 높이는 데 있다[15]. 이러한 특성 덕분에 앙상블 학습은 다양한 산업에서 복잡한 데이터 상호작용을 모델링하고, 안정적이며 정확한 결과를 도출하는 데 유용하게 활용되고 있다.

    2.3 사용된 기저 모델들

    본 연구에서 활용된 기저 모델은 K-최근접 이웃(KNN), 서포트 벡터 머신(SVM), 로지스틱 회귀(Logistic Regression), 나이브 베이즈(Naive Bayes), 의사결정 트리(Decision Tree)로 구성된다, 이 다섯 가지 모델을 선택한 이유는 편향과 분산 간의 균형을 통해 과적합 문제를 완화하고, 각 모델이 상이한 가정을 바탕으로 학습하여 다양한 조합을 통해 모델 간의 약점을 상호 보완할 수 있기 때문이다.

    • a) K-최근접 이웃(KNN)은 비모수적(non-parametric) 모델로서, 데이터의 분포나 모형에 대한 사전 가정 없이 유사도를 기반으로 예측하는 방법이다. K개의 가 까운 이웃을 참조하여 새로운 데이터를 분류하며, 고 차원일 때 성능이 저하될 수 있으나, 다른 기저 모델이 보완할 수 있는 유연성을 제공한다. 또한 간단하고 직관적인 알고리즘이지만 데이터가 많아질수록 계산 비용이 증가하는 단점이 있다. KNN은 스태킹 앙상블 구조에서 다른 모델들과 조합하여 성능을 강화하는 데 효과적이며, 특히 분산이 높은 특성 때문에 편향이 높은 모델(Logistic Regression, Naive Bayes)과 상호 보완적으로 활용된다[18].

    • b) 서포트 벡터 머신(SVM)은 초평면을 통해 분류를 수행하며, 적절한 커널을 선택해 비선형 문제를 처리할 수 있다. 데이터의 일부인 서포트 벡터에 집 중하여 분류를 수행하기 때문에 과적합 위험을 줄일 수 있는 장점이 있다. 이는 고차원 공간에서도 중요한 특징을 잘 추출해내지만, 데이터의 양이 많아질수록 학습 시간이 길어지는 한계가 있다. 따라서 고차원 및 복잡한 데이터셋에서 주요 특징을 추 출하는데 유리하다. SVM은 데이터의 결정 경계를 효과적으로 구분하기 위해 Cost 파라미터 조정을 통해 정밀도와 재현율 간의 균형을 맞추는 데 효과 적이다. 또한, SVM은 배깅(Bagging) 시나리오에서 Naive Bayes 및 Random Forest와 결합하여 강력한 성능을 발휘한다[13, 18].

    • c) 로지스틱회귀(Logistic Regression)는 선형 모델로, 예측 결과를 확률로 변환하여 분류에 주로 사용된다. 독립 변수와 종속 변수 간의 선형 관계를 가정하면, 시그모이드(Sigmoid) 함수 기반으로 확률을 예측한다. 비선형성을 반영하지 못하는 한계가 있지만, 편향이 높고 분산이 낮아 안정적인 결과를 도출한다. 특히. 분산이 큰 모델(KNN, Decision Tree 등)과 조합 해 모델의 균형을 맞출 수 있어 앙상블 모델에서 중 요한 역할을 한다. 또한, Logistic Regression은 L2 정 규화를 통해 과적합을 방지하며, Decision Tree와 같은 높은 분산(Variance)을 가진 모델과 결합해 앙상블 환경에서 예측 오류를 줄이는 데 기여한다[10, 13].

    • d) 나이브 베이즈(Naive Bayes)는 모든 특징이 서로 독립적이라는 가정하에 조건부 확률에 기반하여 분류를 수행하는 간단하고 빠른 알고리즘이다. 이 독립성 가정은 실제 데이터에서는 완전히 성립하지 않지만, 예측 속도가 매우 빠르고, 고차원 텍스트 데이터에서 특히 효율적이다. 나이브 베이즈는 편향이 높고 안정적인 모델이므로, 분산이 큰 다른 모델(KNN, Decision Tree 등)과 조합하여 예측의 안정성을 제공 하는 데 유리하다. 또한, 나이브 베이즈는 스태킹 구조에서 텍스트 기반 데이터의 분류에 강점을 가지며, 가중치 다수결 및 다수결 방식의 앙상블 프레임워크에서 효율적으로 사용될 수 있다[13, 18].

    • e) 의사결정 트리(Decision Tree)는 데이터를 분할하여 트리 구조로 학습하는 모델로, 고차원 데이터에서 과적합될 가능성이 있다. 분산이 매우 크지만, 데이터의 특정 패턴을 잘 탐지하고 해석 가능성이 높아 모델이 직관적이다. 분할 규칙에 따라 데이터를 재귀적으로 나누며, 분류 결과가 명확하고 이해하기 쉽다는 장점이 있다. 다만, 지나치게 세분화될 결우 일반화 성능이 저하될 수 있어, 편향이 높은 모델(Logistic Regression, Navie Bayes)과 조합하여 과적합을 방지하는 방식으로 활용된다. Decision Tree는 Gini Index 를 활용한 속성 선택 및 가지치기(Pruning)를 통해 과적합을 방지하며, 배깅 및 부스팅 프레임워크의 주요 구성 요소로 활용된다. 또한, 다양한 데이터 속성을 학습하고 앙상블 모델 내에서 중요한 역할을 한다 [18].

    이와 같은 모델들은 각자의 고유한 장단점을 지니고 있으며, 본 연구에서는 이들의 상호 보완적 특성을 활용하여 최적의 앙상블을 구성하고자 한다. 다양한 기저 모델들을 활용함으로써 데이터의 다양한 특성을 반영하고, 상호 보완적인 성능을 통해 최적의 예측 결과를 도출하는 데 중점을 두었다.

    2.4 메타 모델(Meta Models)로 사용된 XG-Boost

    XG-Boost는 부스팅 기법을 기반으로 한 메타 모델로, 기저 모델에서 발생하는 예측 오류를 점진적으로 줄이는 데 매우 효과적인 알고리즘이다. 부스팅 방식의 특징은 각 단계에서 이전 모델의 예측 오차를 기반으로 다음 모델을 학습시키는 점진적 학습 방식을 통해 모델 성능을 향상시키는 데 있으며, 이를 통해 기저 모델의 오차를 상쇄하여 최종 예측 정확도를 높일 수 있다, 특히 XG-Boost는 과적 합을 방지하기 위해 정규화 기법을 도입하여 복잡한 데이터에서도 안정적인 성능을 발휘하도록 설계되어 있다, 이러한 XG-Boost의 특성은 본 연구의 앙상블 모델 구성에서 중요한 역할을 담당한다.

    XG-Boost는 병렬 학습(Parallel Computing)을 통해 대규 모 데이터에서도 효율적인 학습을 수행할 수 있다. 데이터가 클수록 계산 복잡도가 증가하지만, 병렬 처리 덕분에 학습 시간을 크게 단축할 수 있다. 이로 인해 실시간 데이터 분석이 필요한 제조업, 금융, 의료 분야에서 XG-Boost 는 중요한 역할을 한다. 특히, 대규모 제조업 데이터를 처리할 때, XG-Boost는 스케일링(Scalability)을 제공하여 다수의 결정 트리(Decision Tree)를 효율적으로 학습시키는 데 유리하다[16].

    본 연구에서 활용된 앙상블 구조는 다양한 편향과 분산을 가진 모델들의 조합을 통해 예측 성능을 극대화하고자 하며, 이 조합은 높은 분산을 가진 모델(KNN, Decision Tree)과 높은 편향을 가진 모델(Logistic Regression, Naive Bayes)을 포함하고 있다. XG-Boost는 메타 모델로서 이러 한 모델 간의 편향을 줄이는 데 효과적이다. 한편, Random Forest는 분산을 줄이는 데 효과적이기에 XG-Boost와 Random Forest를 각각 메타 모델로 활용하여 결과를 도출하고 본 연구에서 제시한 방법과 비교하였다.

    XG-Boost는 앙상블 모델의 특성을 활용하여 높은 편향 모델과 높은 분산 모델 간의 균형을 맞춘다. 예를 들어, K-최근접 이웃(KNN)이나 결정트리(Decision Tree)와 같은 모델은 높은 분산을 가지는 경향이 있고, 로지스틱 회 귀(Logistic Regression)나 나이브 베이즈(Naive Bayes) 모 델은 높은 편향을 가진다. XG-Boost는 이러한 기저 모델들(base models)의 예측값을 결합하여, 편향을 감소시키고 분산을 최소화하는 메타 모델로 기능한다[4].

    각 기저 모델이 다양한 데이터 특성을 반영하도록 설계된 가운데, XG-Boost는 이 모델들의 예측 결과를 통합하 여 최종 예측을 수행하며, 각 기저 모델이 놓칠 수 있는 패턴을 보완적으로 학습한다.

    일반적인 스태킹 앙상블 모형은 <Figure 1>에 주어져 있다. 본 연구에서는 기저 모델로 KNN, SVM, Logistic Regression, Naive Bayes, Decision Tree가 사용되어 데이터의 패턴을 학습하고, 교차 검증(CV) 과정을 통해 각 모델의 예측값을 도출하였다. 이 과정에서 도출된 예측값들은 새롭게 구성된 데이터셋으로 결합되어 메타 모델(XG-Boost 혹 은 Random Forest)의 학습에 사용되었다.

    3. 제안하는 해법

    혼합물 실험계획법, 후진제거법에 대해 살펴보고, 이들을 이용한 제안하는 해법을 소개한다.

    3.1 혼합물실험계획법

    혼합물 실험계획법(Mixture Design of Experiment, MD)은 여러 변수 간의 비율이 정해진 합계(일반적으로 1)를 이루는 환경에서 최적의 변수 조합을 도출하는 실험 계획 기법으로, 변수 간 교호작용을 깊게 이해하고 분석하는 데 유용하다. 이는 특히 복잡한 데이터 환경에서, 단순한 변수 조정이 아닌 변수 간 비율 조합이 결과에 미치는 영향을 구체적으로 반영할 수 있어 최적화 실험에 효과적이다. MD에서 사용하는 회귀 모델은 Scheffé 다항식으로, 반응 변수(예측 성능)를 모델링하기 위해 다양한 혼합물 요소의 비율 변화를 반영한다. 두 가지 이상의 기저모델( x 1 , x 2 , , x k )이 있을 때, 식 (1)과 같은 다항식으로 나타낼수 있다.

    y = i = 1 k β i x i + i j β i j x i x j + i < j < l β i j x i x j x l +
    (1)

    • y: 반응 변수(예측 성능)

    • β i , β i j , β i j l : 1차, 2차 3차 교호작용에 대한 계수

    이를 통해 특정 기저모델의 비율이 변할 때 예측 성능 이 어떻게 달라지는지를 정밀하게 분석할 수 있다.

    본 연구에서는 MD를 적용하여 다양한 기저 모델 (KNN, SVM, Logistic Regression, Naive Bayes, Decision Tree)의 가중치를 최적화하고, 이를 메타모델(XG-Boost)에 반영한 앙상블 모델을 구축하였다. 각 기저모델은 고유한 특성과 예측 성능을 지니기 때문에, MD의 교호작용 항을 통해 모델 간의 상호 보완 효과를 파악하고, 최적의 가중치를 설정하여 전체 예측 성능을 극대화할 수 있었다. 두 모델 간 교호작용 항 β i j x i x j 가 유의미할 경우, 이 모델 조합이 성능을 높이는 경향을 보임으로써 모델 내 에서의 최적화 방향을 제공하였다. 이후 최적화된 가중치는 검증 실험을 통해 재평가되었으며, 이를 앙상블 모델에 적용하여 기존 단일 모델로는 달성하기 어려운 높은 예측 성능 개선을 확인할 수 있었다.

    MD는 특히 실험 비용과 시간을 절감하는 데 큰 장점이 있으며, 이를 통해 효율적인 가중치 최적화와 높은 성능의 예측 모델을 구축할 수 있었다. 기존의 MD는 제조 업, 화학, 식품, 제약 등에서 성분 화합비율 최적화를 위해 사용되었으나, 본 연구에서는 이를 머신러닝 앙상블 모델 가중치 최적화에 성공적으로 적용하여 모델의 성능을 개선하는 데 기여하였다. MD기반 최적화로 구성된 앙상블 모델은 예측 성능 향상을 보여주었다.

    3.2 후진제거법(Backward Elimination)

    회귀 모델에서 변수 선택을 최적화하고, 변수 간 다중 공선성 문제를 줄이는 데 효과적인 기법이다. 후진제거법은 모델에 포함된 모든 변수 중 가장 기여도가 낮은 변수부터 하나씩 제거해 나가면서 최적의 변수 조합을 찾아가는 방법이다. 불필요한 변수를 제거함으로써 모델의 구조가 단순화되고 해석 가능성이 높아지며, 결과적으로 모델이 더욱 안정적이고 신뢰할 수 있는 형태로 개선된다. 또한 성능에 실질적으로 기여하지 않는 변수를 제거하면 중요한 변수들의 영향이 더욱 명확하게 드러나 모델의 일반화 능력이 향상된다.

    본 연구에서는 후진제거법을 활용하여 회귀식의 최적화를 시도하였으며, 이로 인해 모델의 예측 성능을 최대화하였다. 이를 통해 핵심 변수들의 중요도를 반영하면서도 모델의 복잡도를 낮춰 다양한 데이터에서 높은 성능을 유지할 수 있는 회귀 모델을 구축하였다.

    3.3 제안하는 해법

    본 연구는 앙상블 학습의 성능을 극대화하기 위해 기저 모델과 메타 모델을 결합하고 가중치 최적화 과정을 제안하였다. 메타 모델은 기저 모델의 예측값을 기반으로 최종 예측을 수행하며, 혼합물 실험계획법(Mixture Design, MD)과 셰피(Scheffe) 회귀 분석을 통해 최적의 가중치를 산출하여 각 모델의 기여도를 반영하도록 하였다.

    가중치 최적화 과정에서는 SciPy의 다양한 최적화 알고리즘(BFGS, L-BFGS-B, TNC, SLSQP 등)을 적용하여, 가중치의 합이 1이 되도록 제한한 상태에서 최적의 조합을 찾았다. 이러한 최적화는 앙상블 학습 모델에서 각 모델이 기여하는 비중을 정확히 조정함으로써 예측 성능을 극대화하는 데 기여한다. 또한, 후진 제거법(Backward Elimination)을 통해 유의하지 않은 변수들을 제거하여 모델의 복잡성을 줄여 신뢰성을 높였다.

    최종 예측 단계에서는 교차 검증과 테스트 데이터를 통해 모델의 일반화 성능을 평가하고, 혼합물 실험계획 법을 통해 가중치 최적화를 수행하여 다양한 기저 모델의 강점을 결합함으로써 성능을 극대화하는 방식으로 평가를 진행하였다.

    <Figure 2>에 본 연구에서 제안하는 기법의 흐름도가 주어져 있다.

    본 연구에서 제안하는 혼합물 실험계획법 기반 가중치 최적화 기법의 알고리즘은 아래와 같다.

    • Step 1. 학습데이터를 이용하여 기저모델들 각각에 대하여 학습시키고 예측값을 구한다. 본 연구에서는 5개의 모델(KNN, SVC, Logistic Regression, Naive Bayes, Decision Tree)을 사용하였다.

    • Step 2. 고려하는 일반화 성능지표(Generalization Performance Measure)인 Accuracy나 F1-Score를 예측하는 함수를 구한다.

    • Step 2-1. 혼합물 실험설계를 이용하여 각 기저모델 가중치의 수준별 일반화 성능지수를 구한다.

    • Step 2-2. Step 2-1의 결과를 이용하여 모든 변수를 포함한(Full Model) Scheffe’ 다항회귀 모델인 식 (2)에 적합한 해를 구한다.

    f ( β 0 , β 1 , β 2 , , β n , β 12 , , β n 1 n ) = β 0 + i = 1 n β i w i + i = 1 n j = i + 1 n β i j w i w j
    (2)

    여기서 f ( β 0 , β 1 , β 2 , , β n , β 12 , , β n 1 n ) 은 일반화 성 능 지수인 Accuracy나 F1-Score의 값이다.

    • Step 3. 후진제거법으로 유의하지 않는 βij를 하나씩 제 거한다. 이때 유의수준 α = 0.05로 한다. 유의하지 않는 βij가 없을 때까지 반복한다.

      f r e d u c e d = β 0 + i S β i w i + i j , i , j S β i j w i w j

    • freduced : 완전모형(Full Model)에서 후진제거법을 통해 변수를 제거한 축소모형(Reduced Model)

    • S : 유의미한 변수 집합

    • Step 4. Step 3에서 구한 일반화 성능 지수 예측함수인 freduced를 최대화하는 가중치 wi를 구한다. 식 (3)을 목적식으로 하고, 식(4), (5)를 제약식으 로 하는 수학모형의 해를 구한다. (단, 이때 구 한 해인 가중치는 유일해가 아닐 수 있다.)

      max f r e d u c e d ( w 1 , w 2 , , w n )
      (3)

      subject to

      i = 1 n w i = 1
      (4)
      JKSIE-47-4-161_EQ-5.gif
      (5)

    • Step 5. Step 4에서 구한 가중치 wi를 이용하여 메타모 델인 식 (6)을 완성한다.

    y = i S w i x i + i , j S w i w j x i x j
    (6)

    • y : 종속변수(ex: Accuracy 또는 F1-Score

    • wi : 기저모델 i의 가중치

    • xixj : 교호작용 항

    4. 실험 결과

    기존 스태킹 앙상블이 단순히 기저 모델의 예측값을 메타 모델에 결합하는 방식에 그쳤다면, 본 연구는 혼합물 실험계획법(MD)을 통해 각 기저 모델의 가중치를 효율적으로 최적화하는 차별화된 방법론을 적용하였다.

    본 연구에서는 모델 성능의 평가 지표로 정확도(Accuracy)와 F1-Score를 채택하였다. 정확도는 전체 데이터 중 올바르게 분류된 데이터의 비율을 나타내며, 모델의 전반적인 분류 능력을 측정하는 데 유용하다. 반면, F1-Score는 정밀도(Precision)와 재현율(Recall)의 조화 평균을 나타내는 지표로, 특히 데이터의 클래스 간 분포가 불균형할 경우에도 모델의 성능을 신뢰성 있게 평가할 수 있다[16].

    특히, 본 연구에서는 혼합물 실험계획법을 활용하여 기저 모델의 가중치 수준별 성능 지수를 구하고, Scheffé 다항회귀 모델을 통해 이를 최적화하였다. 이후 후진제거법을 적용하여 유의하지 않은 변수를 제거함으로써 모델의 단순화와 성능 개선을 동시에 달성하고자 하였다.

    <Table 2>와 <Table 3>에는 기저모델, 메타모델, 제안하는 모델인 혼합물실험계획법(MD)을 적용하여 최적 가중치를 구한 경우에 테스트 데이터의 정확도(Accuracy) 와 F1-Score가 주어져 있다. 훈련데이터와 테스트데이터의 결과를 비교해 보니 결과 차이가 크지 않아 과적합은 보이지 않았으며, 테스트데이터의 결과만 나타내었다. 개별 기저 모델의 결과보다 XG-Boost나 Random Forest를 메타모델로 적용한 경우의 결과가 대체로 좋으며, 혼합물 실험계획법을 적용하여 기저모델들의 가중치를 구한 제안하는 모형의 결과가 가장 좋은 것으로 나타났다.

    <Table 3>에 나타난 F1-Score 비교 결과에서는 Credit Card Fraud Detection 및 German Credit Data와 같은 금융 데이터셋에서도 MD를 적용한 모델의 성능이 개선된 것이 확인되었다. 특히, MD 기반 가중치 최적화 모델은 비선형 패턴이 포함된 제조업 데이터와 클래스 불균형이 두드러진 금융 데이터셋에서도 안정적인 성능을 발휘하였다.

    본 연구에서 사용된 데이터셋들은 완전모형과 축소모형의 결과의 차이가 적으므로 축소모형을 사용하는 것이 나을 수 있다. 다만, 완전모형과 축소모형의 성능의 차이가 크다면 완전모형을 사용하는 것이 나을 수 있다.

    <Table 4>에는 후진제거법을 통해 제거된 교호작용 변수들이 주어져 있다.

    본 연구는 모델의 교호작용을 최적화하고 각 데이터셋 특성에 맞는 가중치를 조정함으로써 기존의 단일 모델이 놓칠 수 있는 데이터 패턴을 효과적으로 학습하고 있다. 결론적으로, 혼합물 실험계획법을 적용한 가중치 최적화는 앙상블 모델의 예측 정확도를 크게 높이는 데 기여하며, 데이터의 다양성과 복잡성에 따라 유연하게 대응할 수 있는 방법임을 입증하였다.

    5. 결 론

    본 연구는 다양한 산업 데이터셋에 대해 혼합물 실험 계획법(MD)을 활용한 가중치 최적화 기반 앙상블 학습 모델을 적용하여 예측 성능을 개선하는 방법을 제안하였다. 제조업, 금융, 의료, 정밀 가공 등 다양한 산업 데이터의 특성을 반영하여 MD 기반 가중치 최적화 기법이 기존 단순 앙상블 모델보다 성능 향상에 기여함을 확인하였다. 이를 통해 데이터의 비선형성, 고차원성, 클래스 불균형 문제를 효과적으로 해결하면서 산업별 맞춤형 모델 링의 가능성을 실험적으로 입증하였다.

    제조업 데이터의 경우, 비선형적이고 복잡한 상호작용이 포함된 특성을 반영해, 기저 모델과 메타 모델의 조합 을 통해 최적화된 예측 성능을 달성하였다. MD 기반 가중치 최적화를 통해 F1-Score가 0.99 이상의 성능을 기록하여 제조업 공정의 품질 관리 및 결함 탐지 시스템의 신뢰도를 크게 향상시킬 수 있음을 보여준다.

    의료 데이터에서는 변수 간 선형적 상호작용이 강한 특성을 반영해, SVM과 Logistic Regression과 같은 선형 모델의 기여를 극대화하였다. MD 기반 가중치 최적화는 데이터 특성에 적합한 모델 조합을 도출해 모델의 예측력을 높였으며, 이러한 선형 모델들의 기여도는 최적화 과정에서 극대화되어 의료 데이터 분석과 개인 맞춤형 진단에 기여할 수 있는 가능성을 보였다. 금융 데이터는 클래스 불균형 문제로 인해 성능 저하의 위험이 있었으나, 가중치 최적화를 통해 금융 사기 탐지 등 고난도의 분류 작업에서도 높은 성능을 달성하였다. 특히, SVM과 Logistic Regression 모델의 기여도를 세밀하게 조정함으로써, 모델 간 상호작용을 최적화하여 보다 신뢰성 있는 예측 결과를 얻을 수 있었다.

    MD 기반 최적화는 각 모델의 성능뿐 아니라 데이터 특성에 따라 최적의 가중치를 부여하여 예측의 정밀도를 높이며, 단순 다수결 앙상블 방식 대비 우수한 결과를 제공하였다.

    향후 연구과제로는 Accuracy와 F1-Score를 좀 더 정확히 예측하는 함수에 대한 연구와 예측된 함수의 값을 최적화하는 기저모델들의 다양한 가중치 조합을 찾는 연구들이 필요하다. 또한, 본 연구의 MD 기반 가중치 최적화 기법을 온라인 학습(Online Learning)과 결합하여 실시간 데이터 분석을 위한 시스템 구축 가능성을 모색할 필요가 있다. 특히, 제조업과 같은 실시간 품질 관리가 중요한 환경에서는 온라인 학습과 가중치 최적화의 결합이 실시간 예측 성능을 유지하고 데이터의 지속적 변화를 반영할 수 있는 유연성을 제공할 것이다. 이러한 실시간 학습 시스템이 개발된다면, 다양한 산업에서의 실무 적용 가능성이 더욱 확대될 것이다.

    Figure

    JKSIE-47-4-161_F1.gif

    The Basic Structure of Stacking Ensemble Learning

    JKSIE-47-4-161_F2.gif

    Flow Chart of Weight Optimization Algorithm Based on Mixture Design of Experiments

    Table

    Description of Dataset

    Comparison of Accuracy by Method

    Comparison of F1-Score by Method

    Removed Interaction Variables by Backward Elimination

    Reference

    1. Allgaier, J. and Pryss, R., Cross-validation Visualized: A Narrative Guide to Advanced Methods, Machine Learning and Knowledge Extraction, 2024, Vol. 6, No. 2, pp. 1378-1388.
    2. Chen, T. and Guestrin, C., XGBoost: A Scalable Tree Boosting System, Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp. 785-794.
    3. Dal Pozzolo, A., Boracchi, G., Caelen, O., Alippi, C., and Bontempi, G., Credit card fraud detection: a realistic modeling and a novel learning strategy, IEEE Transactions on Neural Networks and Learning Systems, 2015, Vol. 29, No. 8, pp. 3784-3794.
    4. Dogan, A. and Birant D., A Weighted Majority Voting Ensemble Approach for Classification, Journal of Computer Engineering, 2024, Vol. 28, No. 4, pp. 123-135.
    5. Filias, F., Mylona E., Blekos K., Supiot, S., Crevoisier R., and Acosta, O. , Ensemble Learning for Prediction of Toxicity in Prostate Cancer Radiotherapy: Comparison Between Stacking and Genetic Algorithm Weighted Voting, IEEE 20th International Conference on BioInformatics and BioEngineering (BIBE), 2020, pp. 884-890.
    6. Huang, S., Cai, N., Pacheco, P. P., Narandes, S., Wang, Y., and Xu, W., Applications of support vector machine (SVM) learni.ng in cancer genomics, Cancer Genomics & Proteomics, 2017, Vol. 14, No. 5, pp. 305-318.
    7. Jeong U.S. and Lim J.I., A Study on Intelligent (AI) Detection Models for Anomaly Signs in Telecommunication Financial Fraud Incidents, Journal of the Korea Institute of Information Security and Cryptology, 2019, Vol. 29, No. 1, pp. 149-164.
    8. Kwak, Y.J., Ko, C.Y., Kwak, S.Y., and Lim, S.H., Development of a High-performance Concrete Compressive Strength Prediction Model Using Bagging and Stacking-based Ensemble Machine Learning Methods, Journal of the Korea Computer Structural Engineering Society, 2023, Vol. 36, No. 1, pp. 9-18.
    9. Kim, D.Y., Kim, N.Y., and Kim, H.H., Prediction of Bestseller Overseas Sales of Domestic Books and Analysis of Bestseller Review Keywords Based on Ensemble Learning, Journal of the Korean Society for Information Processing, 2023, Vol. 12, No. 4, pp. 173-178.
    10. Kim, G.W., Multi-layer Stacking Ensemble-based Clinical Severity Prediction Model for Early Triage of COVID-19 Patients, Journal of Korea Institute of Information Technology, 2022, Vol. 20, No. 12, pp. 37-47.
    11. Lee, B.R., “A Study on Real-time Monitoring of Cutting Quality Using Machine Learning Algorithms,” [Master's Thesis], [Mokpo, Korea] : Mokpo National University, 2020.
    12. Lee, S.E. and Kim H.J., A New Ensemble Machine learning curve Technique with Multiple Stacking, The Journal of Society for e-Business Studies, 2020, Vol. 25, No. 3, pp. 1-13.
    13. Lee, S.H. Machine Learning for Detecting Malicious Comments on YouTube: Focusing on the Application of Stacking Ensemble Model, Journal of the Korean Data Analysis Society, 2022, Vol. 24, No. 4, pp. 1583-1598.
    14. Lundberg, S.M. and Lee, S.I., A Unified Approach to Interpreting Model Predictions, Advances in Neural Information Processing Systems (NIPS), 2017, pp. 4765-4774.
    15. Riberio, M.T., Singh, S., and Guestrin, C., Why Should I Trust You? Explaining the Predictions of Any Classifier, Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp. 1135-1144.
    16. Shi, N., Lai, F., Kontar, R.A., and Chowdhury, M,, Fed-ensemble: Improving Generalization through Model Ensembling in Federated Learning, arXiv preprint, arXiv:2107.10663, 2021.
    17. Tan, J., Zhao, Y., and Li, S., Applications of machine learning in manufacturing: A review, Journal of Manufacturing Processes, 2020, Vol. 56, pp. 526-542.
    18. Wardoyo, R., Musdholifah, A., Pradipta, G. A., and Sanjaya, I. N. H., Weighted Majority Voting by Statistical Performance Analysis on Ensemble Multiclassifier, Proceedings of the 3rd International Conference on Information and Communication Technology for Intelligent Systems (ICTIS), IEEE, 2020.
    19. Yun S.H., Seong, A.Y., and Kim, G.W., Detection of Injection Molding Defects Using Stacking Ensemble Model, Proceedings of Korean Institute of Information Scientists and Engineers, 2022, pp. 1483-1485.