Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.42 No.2 pp.18-27
DOI : https://doi.org/10.11627/jkise.2019.42.2.018

Analysis of Multivariate Process Capability Using Box-Cox Transformation

Hye-Jin Moon

, Young-Bae Chung†

Department of Industrial and Management Engineering, Incheon National University

Corresponding Author : ybchung@inu.ac.kr

Received 22/03/2019 Finally Revised 13/06/2019 Accepted 14/06/2019

Abstract

The process control methods based on the statistical analysis apply the analysis method or mathematical model under the assumption that the process characteristic is normally distributed. However, the distribution of data collected by the automatic measurement system in real time is often not followed by normal distribution. As the statistical analysis tools, the process capability index (PCI) has been used a lot as a measure of process capability analysis in the production site. However, PCI has been usually used without checking the normality test for the process data. Even though the normality assumption is violated, if the analysis method under the assumption of the normal distribution is performed, this will be an incorrect result and take a wrong action. When the normality assumption is violated, we can transform the non-normal data into the normal data by using an appropriate normal transformation method. There are various methods of the normal transformation. In this paper, we consider the Box-Cox transformation among them. Hence, the purpose of the study is to expand the analysis method for the multivariate process capability index using Box-Cox transformation. This study proposes the multivariate process capability index to be able to use according to both methodologies whether data is normally distributed or not. Through the computational examples, we compare and discuss the multivariate process capability index between before and after Box-Cox transformation when the process data is not normally distributed.

Key Words : Box-Cox Transformation , Non-Normal Distribution , Multivariate Process Capability Index

Box-Cox변환을 이용한 다변량 공정능력 분석

문 혜진, 정 영배†

인천대학교 산업경영공학과

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

생산 현장에서 사용되는 통계적 공정관리 분석은 대 부분 공정 데이터들이 정규분포를 따른다는 가정하에 개 발된 수리적 척도를 사용한다. 하지만 자동화된 측정시 스템을 통해 실시간으로 집계되는 실측 데이터들의 분포 를 확인해 보면 정규분포를 따르지 않는 경우도 빈번하 다. 표본의 수가 충분히 많으면 중심극한정리에 따라 정 규분포에 근사한다는 사실을 기반으로 통계적 분석을 수 행할 수는 있겠으나 정확하고 신뢰성 있는 공정분석 결 과라고 판단할 수는 없을 것이다. 따라서 다양한 통계적 분석을 적용함에 있어 공정으로부터 수집된 데이터들에 대한 정규성을 우선적으로 확인할 필요성이 있으며 그 결과 정규분포를 따르지 않는다면 이에 대한 적합한 공 정분석 방법의 적용이 요구될 것이다.

특히 생산 현장에서는 통계 패키지를 이용하여 공정능 력지수를 산출한다. 그러나 공정 데이터들에 대한 정규 성 여부를 확인하지 않은 채 분석된 공정능력지수 결과를 토대로 공정상태를 판단하고 있다. 데이터에 대한 정규 성을 만족하지 않음에도 불구하고 정규분포를 가정한 분 석법에 의해 얻어진 그릇된 평가 결과는 결국 왜곡된 해 석과 그로 인한 잘못된 조치를 유발할 것이다.

본 연구는 최근 연구되었던 역정규 손실함수를 이용한 다변량 공정능력지수인 MC_pI모형을 대상으로 연구의 적 용범위를 확장하고자 한다. 즉, 분석대상의 모든 변수들이 다변량 정규분포를 따른다는 가정을 전제로 제안된 기존 연구모형 MC_pI의 한계를 극복할 수 있는 공정능력의 분석 을 제안하고자 한다. 따라서 본 연구에서는 다변량의 공정 데이터들이 정규분포뿐 만 아니라 비정규분포에서도 적용 가능한 MC_pI의 공정능력 분석 프로세스를 수립할 것이다.

정규성 검정을 위한 방법은 히스토그램, Q-Q(Quantile- Quantile) plot, P-P(Probability–Probability) plot과 같은 그래프를 이용한 시각적 분석방법과 통계량을 이용한 적 합도 검정이 있다. 통계량에 의한 일변량 정규성(UVN : Univariate Normality) 검정법은 왜도, 첨도, 카이제곱 검 정, Kolmogorov-Smirnov 검정, Shapiro-Wilk 검정, Anderson- Darling 검정, Lilliefors 검정, Jarque-Bera 검정 등 다양한 방법들이 제안되었다. 그리고 이러한 UVN 검 정법들은 다변량으로의 확장이 가능하다[5]. 대다수의 통 계 소프트웨어 패키지들은 다양한 UVN 검정법의 기능 들을 포함하고 있다. 따라서 본 연구에서는 사용자들이 용이하게 다변량 공정능력지수 MC_pI 분석을 실시할 수 있도록 통계 패키지의 UVN 검정을 이용하여 다변량으 로 확장한 정규성(MVN : Multivariate Normality) 검정을 수행하는 프로세스를 제안하고자 한다.

많은 연구자들이 추천하고 있는 MVN 검정을 위한 첫 번째 단계는 모든 변수들에 대하여 개별적으로 UVN 검 정을 수행하는 것이다. 이는 MVN의 필요 충분 조건으로 써 각각의 변수들의 주변분포(Marginal Distribution)가 정 규분포를 만족해야 한다는 것을 의미한다. 그리고 UVN 검정 결과 변수들 중 하나라도 비정규성을 나타내면 MVN을 만족할 수 없다. 또한 모든 변수들이 주변정규분 포를 따른다고 해도 이것이 반드시 다변량 정규분포를 의 미하지는 않기 때문에 MVN에 대한 검증 절차가 추가적 으로 필요하다. 따라서 본 연구에서 MVN 검정을 수행하 기 위한 프로세스의 첫번째 단계로 모든 변수들에 대하여 정규성 그래프와 UVN를 수행한다. 그 다음 단계로 왜도 와 첨도를 확인한다. 그런 후에 Shapiro-Wilk검정을 다변 량으로 확장한 Royston 검정과 다변량의 왜도와 첨도 접 근법인 Small의 Q1, Q2를 실시한다[5].

비정규분포에서의 공정능력지수에 관한 기존 연구에 는 정규변환(Normalizing Transformation)을 이용하여 비 대칭분포를 정규분포로 변환한 후 전통적인 공정능력지 수를 이용하는 방법, 경험분포(Empirical Distribution) 혹은 다양한 상황을 묘사할 수 있는 3 또는 4-모수 분포를 활 용하여 분포의 0.135백분위수와 99.865백분위수를 추정 한 후 분포의 산포를 구하는 방법, 공정능력지수가 분포 의 형태에 강건(Robust)하도록 공정능력지수의 모수를 변 화시키는 방법, 공정의 불량률을 추정한 후 추정된 불량 률을 공정능력지수로 역산하는 방법, 분포의 산포를 분 할하여 분포의 위쪽 부분과 아래쪽 부분에 서로 다른 산 포를 활용하는 휴리스틱(Heuristic) 방법 등 다양한 방법 들이 제안되었다[3]. 따라서 본 연구에서는 공정의 변수 들이 비정규분포를 따른다면 정규변환을 이용하여 정규 분포에 근사하도록 변환시킨 후 MVN을 만족하는 조건 하에서 다변량 공정능력지수 MC_pI를 이용하여 공정능력 을 평가하고자 한다. 그리고 MVN을 만족시키기 위해 정 규변환을 수행한 경우와 그렇지 않은 경우에서의 MC_pI 결과값을 비교하여 공정상태에 관한 평가에 미치는 영향 을 비교하고자 한다.

2. 이론적 배경

2.1 기호

X : 원본 데이터 벡터(x′ = [x_i] = [x₁x₂ ⋯ x_n])
Y : 변환 데이터 벡터(y′ = [y_i] = [y₁y₂ ⋯ y_n])
μ : 공정 평균 벡터(μ′ = [μ_i] = [μ₁μ₂ ⋯ μ_n])
T : 목표치 벡터(T′ = [T_i] = [T₁T₂ ⋯ T_n])
n : 품질특성치(변수)의 수
m : 변수 i에 대한 측정 데이터 수
i : 품질특성치(i = 1, 2, …, n)
λ_i : MLE 방법에 의한 Box-Cox 변환 파라미터
A_j : 목표치 T_i 중심으로 특성치 x_i의 비대칭 구간에서 최대손실(j = 1, 2, …, 2ⁿ)
Σ : 분산-공분산 매트릭스
Σ^-1 : 분산-공분산 매트릭스 역행렬
Σ_T : 평균제곱오차(MES) 매트릭스
Λ : 척도모수(scaling parameter) 매트릭스
K(n) : χ²(n, 0.9973)의 값
Γ(α) : 감마함수
L_I(X,T) : 목표치 T에 대한 표본벡터 X_i의 역정규 손 실함수
E[L_I(X,T)] : L_I(X,T)의 기대손실

2.2 정규성 검정 및 Box-Cox 변환

UVN 검정 가운데 모든 분포에 대하여 검정력이 가장 우수한 검정법은 Shapiro-Wilk 검정이지만 표본의 수가 50 이상일 경우에는 검정력이 떨어지는 한계점을 가지고 있다. 따라서 본 연구에서는 표본의 수에 대한 제약을 받 지 않으면서 검정력이 우수한 Anderson-Darling(AD) 검 정을 채택하고자 한다. Anderson, Darling에 의해 제안된 AD 검정은 적합도 검정을 기반으로 분석하며, AD 검정 통계량 A²는 다음과 같다[1].

\begin{matrix} A^{2} = - n - \frac{1}{n} \sum_{i = 1}^{n} {(2 i - 1) log (F (x_{i}) \\ + log (1 - F (x_{n + 1 - i})} \end{matrix}

(1)

여기서 F(x_i)는 순서통계량 x_i의 누적분포함수를 의미한다. MVN 검정을 위해 본 연구에서 채택하고자 하는 검정법 은 UVN의 Shapiro-Wilk 검정을 n ≤ 2000인 표본에서 사용 가능하도록 다변량으로 확장한 Royston검정이며 검 정 통계량 H는 다음과 같다[8].

H = e G

(2)

여기서 $G = \sum_{j = p}^{p} K_{j}$ 이고 $e = p / [1 + (p - 1) \bar{c}]$ 이다.

그리고 $K_{j} = {(F^{- 1} [F (- Z_{j}) / 2])}^{2}, \bar{c} = \sum_{i, j} c_{i j} / (p^{2} - p), c_{i j} = c o r r (K_{i}, K_{j})$ 이다.

Royston 검정과 더불어 MVN 검정을 위해 다변량의 왜 도와 첨도도 함께 확인하고자 한다. Small은 변환된 개별 변수의 왜도와 첨도의 이차 조합을 기반으로 다변량에 대 한 왜도(Q₁)와 첨도(Q₂)를 다음과 같이 제안하였다[9].

Q_{1} = y_{1}^{'} U_{1}^{- 1} y_{1}, Q_{2} = y_{2}^{'} U_{2}^{- 1} y_{2},

(3)

여기서 y₁과 y₂는 각각 표본의 왜도와 첨도 벡터를 Johnson 변환에 의해 변환된 벡터이고, U₁과 U₂는 벡터 y₁과 y₂의 상관행렬을 의미한다. 그리고 Q₃ = Q₁ + Q₂를 이용하여 다변량 정규성의 옴니버스 검정(Omnibus Test) 을 실시할 수 있다.

UVN 결과 비정규분포를 따르는 데이터들은 Box-Cox 의 정규변환을 이용하여 분석하고자 한다. Box, Cox에 의해 소개된 ‘Box-Cox 변환(Box-Cox Transformation)’은 멱변환(Power Transformation) 방법의 일종으로 랜덤 변 수가 정규분포에 근사하도록 변환하는 방법이다.

Box-Cox 변환 함수의 식은 다음의 식과 같다[2, 4].

Y = X^{(λ)} = {\begin{array}{l} \frac{X^{λ} - 1}{λ}, & (λ \neq 0) \\ log (X), & (λ \neq 0) \end{array}

(4)

여기서 변환 전의 원본 데이터 집합은 X이고, 변환 후 의 데이터 집합은 Y이다. 그리고 상기 Box-Cox 변환 식(4) 는 X가 양수(X > 0)일 때 대해서만 성립한다. 하지만 X가 음수(X < 0)일 경우에는 일정 상수 값을 추가적으로 더하 여 양수로 변환한 후에 분석할 수 있다. Box-Cox 변환 과 정에서 중요한 파라미터는 λ(Lambda) 값의 결정이다. 원 본 데이터를 최대한 정규성에 근사한 데이터로 변환하기 위해서는 λ의 가장 적절한 값을 선택하는 것이 중요하다. 따라서 Box-Cox 변환 방법에서는 최대 우도 추정(MLE : Maximum Likelihood Estimation) 방법에 의하여 최적의 λ (Optimal Lambda)값을 결정한다. 최적의 λ를 구하기 위해 서는 우선 초기값으로 λ의 범위를 설정한다. 일반적인 통 계프로그램에서는 [-5, 5] 또는 [-2, 2]의 범위에서 설정할 수 있다. 그런 다음 최대 우도 측정법(MLE)에 의한 L_max 값을 다음의 식 (5)와 같이 구한다[2, 4].

L_{max} (λ) = - \frac{n}{2} log {\hat{σ}}_{λ}^{2} + (λ - 1) \sum_{i = 1}^{m} log (y_{i})

(5)

여기서 ${\hat{σ}}_{λ}^{2}$ 값은 다음의 식 (6)과 식 (7)와 같이 구한다.

{\hat{σ}}_{λ}^{2} = \frac{S (λ)}{n}

(6)

S (λ) = I - X {(X^{'} X)}^{- 1} X^{'}

(7)

2.3 다변량 공정능력 지수 MC_pI

Moon, Chung에 의해 제안된 다변량 공정능력지수 MC_pI 는 Tamm, Subbaiah, Liddy에 의해 제안된 MC_pm모형을 응 용한 다변량 공정능력지수이다[3, 4]. 즉, 공정영역의 산포 (Σ_T) 대신에 목표치로부터 공정평균이 멀어짐에 따른 손 실함수의 기대손실을 적용하였다. 그리고 MC_pI 모형에 적 용된 손실함수는 역정규 손실함수(Inverted Normal Loss Function)로써 Spiring에 의해 제안되었다. 이 손실함수는 품질변동에 따른 손실을 정규분포의 p.d.f의 역함수를 이용 함으로써 손실에 대하여 보다 합리적으로 설명한다는 장점 과 목표치 T_i 를 중심으로 최대손실 A_j에 대하여 손실함수 의 형태가 대칭과 비대칭 모두일 때 제약없이 적용이 가능 하다는 장점을 가진 모형이다[6].

\begin{matrix} M C_{p I} = \frac{수정규격허용오차영역 (R 1) 의면적또는부피}{공정영역의면적또는부피} \\ = \frac{수정규격허용오차영역 (R 1) 의면적또는부피}{{| E [L_{I} (X,T)] |}^{\frac{1}{2}} (π K) \frac{n}{2} {[Γ (\frac{n}{2} + 1)]}^{- 1}} \end{matrix}

(8)

3. Box-Cox를 이용한 다변량 공정능력분석

기존 연구에서 제안되었던 다변량 공정능력지수 MC_pI 는 모든 변수들이 다변량 정규분포를 따를 때 적합한 척 도 모형이다. 그러기에 본 연구에서는 이러한 한계점을 벗어나 비정규분포일 경우에도 MC_pI를 이용하여 공정능 력을 분석할 수 있도록 확장하는 방법을 제안한다. 즉, 공정으로부터 수집된 원본 데이터에 대하여 정규성을 검 정하고 그 결과가 정규분포를 따르지 않는다고 판정될 때 이에 대한 적절한 조치를 취함으로써 올바른 공정능 력 평가를 수행하고자 한다.

<Figure 1>의 Flow Chart에서 보듯이 다변량 공정능력 분석과정에서 가장 먼저 선행하고자 하는 분석이 정규성 검정(Normality Test)이다. 우선적으로 개별 변수들에 대 하여 그래프(히스토그램, Q-Q plot, P-P plot)와 UVN 검정 들(AD 검정, 왜도, 첨도)을 실시한다. 매트랩(MATLAB) 프로그램을 이용하여 Anderson-Darling 검정을 수행하게 되면 h값과 p-value의 결과에 따라 정규분포에 대한 가설 검정을 판정한다. h값(Hypothesis Test Result)의 판정기준 은 h = 1이면 H0(귀무가설 : 정규분포를 따른다)를 기각 하고 h = 0이면 H0를 채택한다. 또한 p-value ≤ 0.05이면 H0를 기각하고 p-value > 0.05이면 H0를 채택한다. 또한 각각의 변수들에 대한 왜도와 첨도를 분석하여 AD 검정 결과와 함께 검토한다. 이들 중 하나라도 정규성을 벗어 난다면 Box-Cox변환 방법에 의해 원본 데이터를 정규분 포에 근사하도록 변환시킨다. 만약 UVN 검정이 모두 만 족되더라도 Royston 검정과 다변량 왜도와 첨도를 분석 하여 다변량 정규분포에 대한 검증을 실시한다.

UVN 검정 결과 비정규분포를 따르는 변수들은 Box- Cox 변환을 수행한다. 이때 MLE 방법에 의해 각각의 변 수들에 대한 최적의 λ_i을 구한다. 이때 λ_i의 값에 대한 95% 신뢰구간과 최적의 λ_i값을 나타내는 그래프로 같이 도출하여 확인한다. 그리고 선택된 최적의 λ_i값을 가지고 Box-Cox 변환 함수에 의해 변환된 데이터 집합을 구한다. 이때 원본 데이터에 대한 규격의 상한과 하한, 목표치에 대한 수치들도 최적의 λ_i에 의해 동일하게 변환시킨다. 정규 변환된 데이터에 대해서는 변환 전과 같은 UVN의 AD 검정법에 의해 정규성 검정을 실시하고 히스토그램, Q-Q plot, P-P plot 을 통해 변환된 데이터들이 정규분포 에 근사하도록 바뀌었는지 확인한다. 그리고 MVN 검증 을 위해 Royston 검정과 다변량 왜도와 첨도를 분석한다.

변환된 데이터가 다변량 정규분포를 만족하면 해당 통 계량을 산출하여 다변량 공정능력지수 MC_pI에 대입하기 위한 입력값들을 구한다.

식 (8)에서 분자식의 ‘수정 규격허용오차영역의 면적 또 는 부피 [Vol.(R1)]’를 구한다. 품질특성치(변수)의 수(n)에 대한 면적 또는 부피를 구하는 일반적인 식은 다음과 같다.

Vol . (R 1) = \frac{2 Π_{i = 1}^{n} a_{i}}{n} \times \frac{π^{n / 2}}{Γ (\frac{n}{2})}

(9)

여기서 a_i는 각 품질특성(변수)별 ‘규격범위(USL_i-LSL_i)의 1/2’이다.

그리고 식 (8)에서 분모식의 최대손실 A_j 전개방식에 따른 역정규 손실함수 L_I(X,T)와 기대손실 E[L_I(X,T)]는 다 음과 같다.

L_{I} (X,T) = {\begin{cases} \begin{array}{l} \begin{array}{l} A_{1} [1 - exp {- \frac{1}{2} {(X-T)}^{T} Λ^{- 1} (X-T)}], \\ x_{1} < T_{1}, x_{2} < T_{2}, \dots, x_{n} < T_{n} \end{array} \\ \begin{array}{l} A_{2} [1 - exp {- \frac{1}{2} {(X-T)}^{T} Λ^{- 1} (X-T)}], \\ x_{1} < T_{1}, x_{2} < T_{2}, \dots, x_{n} \geq T_{n} \end{array} \\ ⋮ \\ \begin{array}{l} A_{2^{n - 1}} [1 - exp {- \frac{1}{2} {(X-T)}^{T} Λ^{- 1} (X-T)}], \\ x_{1} \geq T_{1}, x_{2} \geq T_{2}, \dots, x_{n} < T_{n} \end{array} \\ A_{2^{n}} [1 - exp {- \frac{1}{2} {(X-T)}^{T} Λ^{- 1} (X-T)}], \end{array} \\ x_{1} \geq T_{1}, x_{2} \geq T_{2}, \dots, x_{n} \geq T_{n} \end{cases}

(10)

\begin{array}{l} E [L_{I} (X, T)] = \\ \int_{- \infty}^{T_{1}} \dots \int_{- \infty}^{T_{n}} L_{I} (X, T) f (X) d X + \int_{- \infty}^{T_{1}} \dots \int_{n}^{T_{\infty}} L_{I} (X, T) f (X) d X \\ \dots + \int_{T_{1}}^{\infty} \dots \int_{- \infty}^{T_{n}} L_{I} (X, T) f (X) d X + \int_{T_{1}}^{\infty} \dots \int_{T_{n}}^{\infty} L_{I} (X, T) f (X) d X \end{array}

(11)

따라서 분자의 입력값인 규격영역에 대한 면적 또는 부피인 Vol.(R1) 값과 분모의 역정규 손실함수의 기대손 실 E[L_I(X,T)]값을 구하고 나면 다음의 식에 대입하여 MC_pI를 구한다. Table 1

M C_{p I} = \frac{Vol . (R 1)}{{| E [L_{I} (X, T)] |}^{\frac{1}{2}} {(π K)}^{\frac{n}{2}} {[Γ (\frac{n}{2} + 1)]}^{- 1}}

4. 수치 예

본 연구에 이용된 시뮬레이션은 다음의 공통적 가정 과 범위를 전제로 한다.

(1) 품질특성치는 망목특성이며, 연속적인 값을 가진다.
(2) 척도 매트릭스(Scaling matrix)에서 Λ는 공정 파라미 터가 규격한계선에 있을 때 손실이 90%일 때를 기준 으로 한다(γ_i = 0.233 × 규격공차 _i).
(3) 구간별 최대손실비용 A_j은 기업으로부터 정해진 상수 값이다.
(4) 시뮬레이션 분석에 사용한 프로그램은 매트랩 (MATLAB) 이다.

수치 예는 3변량일 때 다음의 규격 조건을 만족해야 하는 경우로 가정한다.

\begin{array}{l} U S L_{1} = 4.0, L S L_{1} = 2.0, T_{1} = 3.0 \\ U S L_{2} = 3.5, L S L_{2} = 1.5, T_{2} = 2.5 \\ U S L_{3} = 3.0, L S L_{3} = 1.0, T_{3} = 2.0 \end{array}

3변량에 대한 다변량 공정능력 분석 프로세스는 <Figure 1>의 Flow Chart에 따라 실시하였다. 그리고 다변량 정규 분포를 만족시키기 위해 정규변환을 수행한 경우와 그렇 지 않은 경우의 MC_pI 결과값을 비교하고자 한다.

4.1 원본 데이터와 통계량(Original Data and Statistics)

3변량에 대한 원본 데이터들(Original Data Set)은 비정 규분포 하에서 각각 60개의 난수(Random Number)를 생 성하였으며 각 변수에 대한 통계량은 다음과 같다.

4.2 원본 데이터에 대한 정규성 검정(Normality Test for the Original Data)

모든 변수에 대하여 원본 데이터의 UVN의 Anderson- Darling(AD) 검정, 왜도, 첨도 분석을 실시한 결과는 다 음의 <Table 2>와 같다. 또한 동시에 원본 데이터에 대 한 히스토그램을 통해 분포의 형태를 확인하고 Q-Q plot, P-P plot을 통해 UVN 검정을 실시한 결과는 <Figure 2>, <Figure 3>, <Figure 4>와 같다. 왜도와 첨도는 비정규성 이 약해 보이긴 하지만 AD 검정 결과는 X₁에 대한 pvalue = 0.0096로 H0를 기각, X₂의 p-value = 0.0366로 역 시 H0를 기각, 그리고 X₃ 역시 p-value = 0.0064로 H0를 기각한다. 또한 MVN 검정을 실시한 결과 <Table 3>에 서와 같이 Q₁과 Royston 검정에서 p-value < 0.05로 일변 량과 다변량 모두에 대하여 정규분포를 따른다고 할 수 없다.

4.3 Box-Cox 변환 및 변환된 데이터(Box-Cox Transformation and Transformed Data)

정규분포를 따르지 않는 원본 데이터들에 대하여 Box- Cox 변환에 의한 데이터를 얻기 위해서는 가장 먼저 MLE (Maximum Likelihood Estimation) 방법에 의한 최적의 λ (Optimal Lambda) 값을 구하는 것이 필요하다. λ값의 범 위는 [-5, 5]으로 설정하였고, 초기값 -5에서부터 0.01씩 증 가시키며 구해진 L(λ_i)의 값에 대한 95% 신뢰구간의 λ 를 나타내는 그래프와 MLE 방법에 의한 최대값 [L_max (λ)]을 가지는 최적의 λ_i결과값은 다음과 같다. 최적 의 λ 값이 결정되면 3변량에 대한 변환된 데이터들 (Transformed Data Set)을 <Table 4>와 같이 얻을 수 있다. 그리고 변환된 데이터들의 통계량을 구하면 다음과 같다.

4.3.1 X₁의 최적의 λ₁과 95% 신뢰구간

∙Optimal Lambda (λ₁ ) = 2.14 <Figure 5>

4.3.2 X₂의 최적의 λ₂과 95% 신뢰구간

∙Optimal Lambda (λ₂ ) = 1.72<Figure 6>

4.3.3 X₂의 최적의 λ₃과 95% 신뢰구간

∙Optimal Lambda (λ₃ ) = -0.91 <Figure 7>

그리고 각각의 변수에 대한 최적의 λ_i을 공정의 규격 치에도 대입하여 Box-Cox 변환을 실시한 결과 다음과 같다.

\begin{array}{l} U S {L^{'}}_{1} = 8.6108, L S {L^{'}}_{1} = 1.5923, {T^{'}}_{1} = 4.4376 \\ U S {L^{'}}_{2} = 4.4336, L S {L^{'}}_{2} = 0.5864, {T^{'}}_{2} = 2.2300 \\ U S {L^{'}}_{3} = 0.6945, L S {L^{'}}_{3} = 0.0000, {T^{'}}_{3} = 0.5141 \end{array}

4.4 변환된 데이터에 대한 정규성 검정(Normality Test for the Transformed Data)

Box-Cox 변환에 의해 변환된 데이터들의 UVN 검정을 위해 AD검정, 왜도, 첨도 분석을 실시하고 히스토그램, Q-Q plot, P-P plot을 실시한 결과 <Table 5>, <Figure 8>, <Figure 9>, <Figure 10>과 같다.

변환 후의 3변량에 대한 AD 검정 결과를 보면, Y₁ 에 대한 p-value = 0.0727로 H0를 채택, Y₂에 대한 pvalue = 0.1465로 H0를 채택, 그리고 Y₃ 역시 p-value = 0.3794로 H0를 채택한다. 따라서 3변량 모두에 대한 AD 검정, 왜도, 첨도 모두 UVN을 만족하고 있다. 그 리고 MVN 검정의 추가 분석 결과 <Table 6>과 같이 모두 p-value > 0.05로 다변량 정규분포를 따른다고 할 수 있다.

4.5 다변량 공정능력지수 MC_pI 의 비교(Comparison MC_pI between Before and After Box-Cox)

4.5.1 상관계수 변화에 따른 공정능력 비교

3변량(X′ = [x₁, x₂, x₃])에 대하여 상관계수 ρ가 0, 0.2, 0.4, 0.6, 0.8과 같이 변화할 때 Box-Cox 변환 전과 변환 후의 다변량 공정능력지수 MC_pI 결과를 비교하면 다음 과 같다. 여기서 상관계수 ρ는 두 쌍의 변수간 상관계수 를 의미하며 모든 쌍간의 상관계수들이 모두 동일하다는 조건을 전제로 한다. 그리고 각 변수의 λ_i는 각 변수별 최적의 λ값일 때 변환된 데이터를 기준으로 하며 최대 손실 A′ = [0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01]이다.

상관계수 ρ의 변화에 따라 분산-공분산 행렬(Σ)값이 변하게 되고 이는 정규확률밀도함수 f(X)에 영향을 준다. 그로 인하여 역정규 손실함수의 기대값이 변하기 때문에 결국 다변량 공정능력지수 MC_pI의 결과에 대한 변화를 확인하고자 한다.

4.5.2 손실비용 변화에 따른 공정능력 비교

상관계수 ρ = 0.8이고 각각 변수에 대한 λ_i가 최적의 λ(Optimal Lambda) 값일 때를 기준으로 3변량의 최대손 실($) A′ = [A₁A₂A₃A₄A₅A₆A₇A₈ 값이 동일한 대칭 일 때를 고려하였다. 최대손실 A($) = 1, 0.5, 0.1, 0.05, 0.01 일 각각의 경우에 따른 Box-Cox 변환 전과 변환 후 의 다변량 공정능력지수 MC_pI 결과를 비교하면 다음과 같다.

<Table 7>과 <Table 8>의 결과를 비교해 보면 Box- Cox 변환한 후의 공정능력 결과값이 Box-Cox 변환 전과 비교하여 약 2배 정도의 차이를 보이며 높게 평가되었 다. 다변량 공정능력지수 MC_pI는 다변량 정규분포를 가 정하여 개발된 모형이다. 정규분포를 따르지 않는 원본 데이터를 정규분포에 근사하도록 변환 후 MC_pI의 평가 모형에 적합한 공정능력을 구할 수 있다. 따라서 공정 분 석에 사용되는 평가척도의 적합성을 만족하지 않은 채 평가된 결과는 공정상태에 대한 왜곡된 해석과 그로 인 한 잘못된 시정조치를 초래할 수 있을 것이다.

5. 결 론

기존 연구의 다변량 공정능력지수 MC_pI 모형은 품질 특성치들이 다변량 정규분포를 따른다는 가정하에서 제 안된 척도이다. 하지만 본 연구에서는 공정 데이터들이 비정규분포를 따를 경우도 포함하여 평가할 수 있는 MC_pI의 분석 방법을 확장하여 제안하였다. 그리고 MC_pI 공정능력 분석을 위한 가장 선행하는 분석은 개별 변수 들의 UVN 검정과 MVN 검정을 실시하여 그 결과에 따 라 분석 방법을 이원화하여 수행하도록 제안하였다. 정 규성 검정 결과 정규분포를 따르지 않는다면 다양한 정 규변환 방법 가운데 Box-Cox 변환에 의해 비정규분포의 데이터를 정규분포에 근사하도록 변환 방법을 공정능력 분석 프로세스에 추가하여 확장하였다.

수치 예에서 3변량의 원본 공정 데이터가 일변량과 다 변량 모두 정규분포를 따르지 않음을 확인할 수 있었다. 사용자가 MC_pI를 이용하여 다변량 공정능력 분석을 수 행할 때 정규성 여부를 무시한 채 그대로 공정능력을 분 석한 결과와 Box-Cox 변환을 수행하여 정규분포에 근사 하도록 데이터를 변환한 후 공정능력을 분석한 결과를 비교해 보았다. 그리고 상관계수와 손실비용의 변화에 따른 MC_pI의 결과값 추이도 Box-Cox 변환 전과 후를 비 교하였다. 우선 상관계수와 손실비용의 변화에 따른 양 쪽 모두의 MC_pI 결과값은 Box-Cox 변환 전보다는 변환 후의 MC_pI 값이 높게 나타났다. 그리고 상관계수의 변화 에 따른 Box-Cox 변환 전과 변환 후의 MC_pI 결과값을 비교해 본 결과 전반적으로 변환 전과 변환 후의 MC_pI 값이 약 2배정도 차이를 보이고 있다. 또한 손실비용의 변화에 따른 Box-Cox 변환 전과 변환 후의 MC_pI 결과값 역시 전반적으로 변환 전과 변환 후의 차이가 약 2배정 도 나타났다. 이는 다변량 정규분포를 따르지 않음에도 불구하고 그대로 MC_pI를 이용하여 평가한다면 공정능력 지수의 결과값에 대한 정확도가 떨어질 수 있음을 의미 한다.

따라서 본 연구는 목표치에 대한 치우침, 경제적 손실, 변수들간의 상관관계, 대칭성, 비대칭성 등 다양한 정보 력과 유용성의 장점을 가진 다변량 공정능력 지수 MC_pI 에 대하여 정규분포를 따를 경우나 따르지 않을 경우 모 두를 분석할 수 있는 MC_pI의 적용범위를 보다 넓게 확 장시키는 제안이 될 것이다.

Figure

<Figure 1>.

Flow Chart for Evaluating Multivariate Process Capability Using Box-Cox Transformation Under Non-Normal Distribution

<Figure 2>.

Graphs for UVN of Original Data X₁

<Figure 3>.

Graphs for UVN of Original Data X₂

<Figure 4>.

Graphs for UVN of Original Data X₃

<Figure 5>.

Optimal Lambda (λ₁) and Lambda in 95% Confidence Interval

<Figure 6>.

Optimal Lambda (λ₂) and Lambda in 95% Confidence Interval

<Figure 7>.

Optimal Lambda (λ₃) and Lambda in 95% Confidence Interval

<Figure 8>.

Graphs for UVN of Box-Cox Transformation Data Y₁

<Figure 9>.

Graphs for UVN of Box-Cox Transformation Data Y₂

<Figure 10>.

Graphs for UVN of Box-Cox Transformation Data Y₃

Table

<Table 1>.

Original Data and Statistics

<Table 2>.

UVN Tests for Original Data(α = 5%)

<Table 3>.

MVN Tests for Original Data(α = 5%)

<Table 4>.

Transformed Data Via Box-Cox

<Table 5>.

UVN Tests for Transformed Data(α = 5%)

<Table 6>.

MVN Tests for Transformed Data(α = 5%)

<Table 7>.

Comparison MC_pl between Before and After Box- Cox Transformation According to Correlation (λ = Optimal Lambda)

<Table 8>.

Comparison MC_pI between Before and After Box- Cox Transformation According to Maximum Loss (ρ = 0.8, λ = Optimal Lambda)

Reference

Anderson, T.W. and Darling, D.A., A test of goodness of fit, Journal of the American Statistical Association, 1954, Vol. 49, No. 268, pp. 765-769.
Box, G.E.P. and Cox, D.R., An Analysis of Transformations, Journal of the Royal Statistical Society, 1964, Series B, Vol. 26, No. 2, pp. 211-252.
Chang, Y.S., Heuristic Process Capability Indices Using Distribution-decomposition Methods, Journal of the Korean Society for Quality Management, 2013, Vol. 41, No. 2, pp. 233-248
Hosseinifard, S.Z., Abbasi, B., Ahmad, S., and Abdollahian, M., A transformation technique to estimate the process capability index for non-normal processes, International Journal of Advanced Manufacturing Technology, 2009, Vol. 40, pp. 512-517
Looney, S.W., How to Use Tests for Univariate Normality to Assess Multivariate Normality, The American Statistician, 1995, Vol. 49, No. 1, pp. 64-70.
Moon, H.J. and Chung, Y.B., Multivariate Process Capability Index Using Inverted Normal Loss Function, Journal of Society of Korea Industrial and Systems Engineering, 2018, Vol. 41, No. 2, pp. 174-183.
Razali, N.M. and Wah, Y.B., Power comparisons of shapiro-wilk, kolmogorov-smirnov, lilliefors and anderson- darling tests, Journal of Statistical Modeling and Analytics, 2011, Vol. 2, No. 1, pp. 21-33.
Royston, J.P., Some Techniques for Assessing Multivarate Normality Based on the Shapiro-Wilk W, Journal of the Royal Statistical Society. Series C, 1983, Vol. 32, No. 2, pp. 121-133.
Small, N.J.H., Marginal Skewness and Kurtosis in Testing Multivariate Normality, Journal of the Royal Statistical Society. Series C, 1980, Vol. 29, No. 1, pp. 85-87.
Taam, W., Subbaiah, P., and Liddy, J.W., A Note on Multivariate Capability Indices, Journal of Applied Statistics, 1993, Vol. 20, pp. 339-351.
Wu, C.H., Lin, S.J., Yang, D.L. and Pearn, W.L., Box-Cox Transformation Approach for Evaluating Non- Normal Processes Capability Based on the Cpk Index, Journal of Testing and Evaluation, 2014, Vol. 42, No. 4, pp. 949-961
Yap, B. W. and Sim, C. H., Comparisons of various types of normality tests, Journal of Statistical Computation and Simulation, 2011, Vol. 81, No. 12, pp. 2141-2155.
Zhang, T. and Yang, B., Box-Cox Transformation in Big Data, Technometrics, 2017, Vol. 59, No. 2, pp. 189-201