Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.35 No.3 pp.118-128
DOI :

이원 이항 계수치 자료의 로지스틱 회귀 분석

안해일^†

서경대학교 산업공학과

A Logistic Regression Analysis of Two-Way Binary Attribute Data

Haeil Ahn^†

Seokyeong University

^† Corresponding Author hiahn@skuniv.ac.kr

논문접수일：2012년 07월 05일 게재확정일：2012년 09월 03일

Abstract

An attempt is given to the problem of analyzing the two-way binary attribute data using the logistic regression model in order to find a sound statistical methodology. It is demonstrated that the analysis of variance (ANOVA) may not be good enough, especially for the case that the proportion is very low or high. The logistic transformation of proportion data could be a help, but not sound in the statistical sense. Meanwhile, the adoption of generalized least squares (GLS) method entails much to estimatethe variance-covariance matrix. On the other hand, the logistic regression methodology provides sound statistical means in estimating related confidence intervals and testing the significance of model parameters. Based on simulated data, the efficiencies of estimates are ensured with a view to demonstrate the usefulness of the methodology.

Key Words : Logistic,Binary Attribute Data,Logit Function,Odds Ratio,Dichotomous Response

: SOGOBO_2012_v35n3_118.pdf779.9KB

1. 서 론

생산현장에서 공정의 성능을 분석하는 데 있어서는 조업조건에 따른 제조공정의 수율, 적합품의 비율, 부적합품의 비율 등 백분비 자료를 분석해야 하는 경우가 자주 발생되고 있다. 부적합률이 매우 낮아 0에 가깝거나 수율(yield rate)이 매우 높아 1에 근접하는 경우도 비교 분석해야 하는 경우가 많다. 예를 들어 국내의 어느 한 제조업체에서는 태블렛 PC 또는 스마트폰에 장착되는 디스플레이 장치 TSP(touch screen panel)를 생산하는데 매출이 연간 약 3,000~4,000억에 달하고 있다. 현재 수율이 약 93% 정도인데 앞으로 이 수율이 1%만 증가되어도 연간 수익이 수십억 원이 증대되는 효과를 거둘 수 있다고 한다.

수율의 증대를 위해서는 수율에 영향을 주는 영향 인자들의 수준 즉 조업조건에 대한 반응으로서의 수율 또는 부적합률의 변화를 검토 분석해야 한다. 조업조건에서의 반응 자료는 흔히 계수치 자료(attribute data, count data) 또는 이분법 반응자료(dichotomous response data)라 불리며 대학 교재 등 많은 문헌[2, 3]에 분산분석법(ANOVA)이 주로 사용되고 있다. 그런데 실제로 분산분석법을 적용해 보면 사리에 맞지 않는 경우가 자주 발생된다. 예를 들자면 최적 조업조건에서 수율의 점 추정치가 100%를 초과하여 초과달성이 가능하다는 해석을 해야 하는 경우가 있으며 구간추정에서는 부적합품의 비율의 하한이 음수가 되기도 한다. 이러한 비합리적인 추정결과로 인해 많은 분석자들로 하여금 분산분석 방법론을 신뢰하지 않게 하는 결과를 가져오게 된다.

이러한 문제는 오래 전부터 문헌에서 지적된 바 있는 것으로 보여 진다. 예를 들어 다구치[9]는 비율이 20%보다 낮거나 80%를 넘는 경우 가법성(additivity)이 성립되지 않는 다고 언급하고 오메(Ω)가 변환방법을 사용하였다. 하지만 이 또한 바람직한 해결책이라고 보기 어렵다.

이항 계수치 반응 자료를 수집한 후에 개선된 조업조건은 쉽게 찾을 수 있다고 생각한다. 하지만 실제로 적용하여 보면 최적 조업조건이라고 생각하였던 조업조건이 다음 실험에서는 다른 결과가 나오기도 하며 최악의 경우 정반대의 결과가 나오기도 한다. 그 이유는 현재의 조업조건과 비교하였을 때 어느 정도 자신할 수 있는지에 대한 신뢰구간 정보를 무시한 상태에서 평균 추정치만을 비교하는 경우가 많기 때문이다.

계수치 자료의 비교분석에 있어서는 변별력(discriminatory power)이 우수한 분석도구를 사용하여 검정과 신뢰구간 추정을 해보아야 모수 추정치의 신뢰수준과 자료의 추가 수집의 필요성 여부도 판단하기가 용이해 진다.

본 연구에서는 사리에 맞지 않는 계수치 자료 분석의 사례와 그 원인에 대하여 살펴보고 로지스틱 회귀(logistic regression)분석 방법론이 대안으로서 채택이 될 수 있는가를 고찰하고자 한다. 사례를 들어 자료를 분석하였을 때의 결과를 함께 제시하고 다원배치 계수치 자료의 분석 시 로지스틱 회귀 분석방법론의 적용법과 유용성에 대하여 논하고자 한다.

2. 백분비 자료의 분석

2.1 수율자료

백분비 자료로서 다음과 같은 이원 수율(yield rate)자료인데 여기서 인자는 제조설비, 인자는 제조방법으로 이산적인 질적 변수이다.

<표1>이원 수율자료(%)

전형적인 반복이 없는 2원배치의 문제로 간주하면 다음과 같은 자료구조 모형을 가정한다.

여기서 인자의 각 수준에서의 주 효과는 확정적이며 오차는 독립성과 등분산성을 갖는 것으로 가정한다. 교호작용을 고려할 수 없기 때문에 최적 수준조합은 최대치의 결과를 나타내는 A₂B₄가 아니라 A인자의 최대 수준과 B인자의 최대 수준에서 결정 된다. 즉, A₃B₄가 최적 수준이 되며 점 추정치는 다음과 같이 구해진다.

<표2>수율자료 Minitab 실행결과

문제는 점 추정치가 100%를 초과하는 것으로 나타난다. <표 2>와 같이 신뢰구간(CI)이나 예측구간(PI)의 상한도 물론 100%를 초과한다.

2.2 로지스틱 변환

로지스틱 변환(logistic transformation)이란 로짓(logit)이라고도 하며 <그림 1>과 같이 승산(odds)에 대수를 취한 값으로 계산한다.

<그림1>로짓(logit) 변환함수

다구치[9]에서는 여기에 10을 더 곱한 값을 사용하고 오메가(Ω) 변환이라고 하였다. 여기서는 로짓(logit) 변환만을 고려한다.

<표3>로짓 변환된 수율 자료

변환된 자료의 구조는 다음과 같이 가정한다.

교호작용이 없는 경우이므로 변환치가 최대가 되는 각 인자의 최적 수준조합은 역시 A₂B₄가 아니라 A₃B₄가 되며 추정치는 다음과 같이 구해진다.

이 수치를 역변환하면

와 같이 계산된다. <표 4>의 결과를 이용하면 신뢰구간과 예측구간도 계산이 가능하다.

신뢰구간(CI) (0.918909, 0.977902)
예측구간(PI) (0.866930, 0.987175)

<표4>변환자료 Minitab 실행결과

구간 추정치의 상한이 1을 초과하지 않는다. 이와 같이 좀 더 수긍할 수 있는 결과를 얻게 된다. 문제는 시행횟수와 발생횟수에 대한 정보가 없으며 그러한 정보가 있더라도 이러한 모형을 적용할 때에는 무시될 수밖에 없다. 만약 시행횟수에 대한 정보가 있으면 반복횟수로 간주되어 교호작용을 구할 수도 있다. 따라서 이론적으로 좀 더 바람직한 분석방법론이 요구된다.

3. 계수치 자료의 분석

3.1 부적합률 자료

두 가지 질적 인자 기계(A)와 열처리방법(B)에 대한 계수치 자료가 <표 5>와 같이 주어져 있다. 여기서 수준수는 A인자 l = 4, B인자 m = 2, 반복수 r = 120, 총 실험 횟수 N = 960인 반복 있는 이원 배치로 간주할 수 있다.

<표5>이항 계수치 자료

현재의 조업조건은 A₁B₁로서 대조군(control group)이며 여타의 조업조건인 실험군(experiment group)들에 대해 유의성을 검정하고 최적 조업조건에서 부적합률을 추정하여 개선된 조업조건을 찾는 문제이다.

3.2 분산분석

처리 수준조합은 완전 확률화에 의해 결정되었으나 수준조합 내에서의 관측치는 확률화가 되어 있지 않으므로 자료의 구조는 다음과 같이 상정하는 것이 일반적이다.

ε_(1)ij 는 1차 단위의 오차로서 교호작용효과(A x B)와 교락되어 있는 분산성분이고 ε_(2)ij 는 오차이다.

3.2.1 분산분석표

반복이 있는 이원 배치와 같이 계산될 수 있으며 특히 y_ijk 는 0 또는 1를 나타내는 변수이고 y²_ijk = y_ijk 이므로 분산분석방업을 적용 계산할 수 있다. 정리된 분산분석표는 다음 <표 6>과 같다.

<표1>분산분석표

우선 1차단위의 오차E₁ (A x B) 의 유의성 검정에서F₀ = 0.28 < 1 이므로 유의하지 않은 것으로 판단하여 풀링하기로 결정하였다면 분산분석표는 <표 7>과 같이 다시 작성된다.

<표7>풀링된 분산분석표

분석결과 A ,B 인자 모두 유의하다고 판단된다.

3.2.2 부적합률 추정

개선된 조업조건은 유일하게 A₃B₁ 이다. 교호작용이 무시되는 경우이므로 비율의 추정은

유효반복수는 다음과 같이 계산된다.

따라서 p(A₃B₁)에 대한 95% 신뢰구간은
p(A₃B₁) : 2.49 ± 4.25(%) = (-1.76%, 6.74%)

신뢰구간의 하한이 음수로 계산된다. 통계적으로는 신뢰구간이 0을 포함하므로 부적합률을 0으로 보아도 된다는 귀무가설이 받아들여 질 수 있다. 통계적인 유의성을 판별하기가 매우 어려운 상황이다.

이러한 결과가 나오는 주된 이유는 (1) 우선 발생 도수가 너무 작고(<5). (2) 수준조합에서의 사건 발생비율이 0에 가깝거나 1에 매우 가까울 경우에는 시행횟수가 많아야만 하고 정규근사 조건 n_ijp_ij≥ 5 와 n_ij( 1 - p_ij ) ≥ 5을 만족해야만 정규분포 근사가 가능한데 이 경우 그렇지 못하며 (3) 비율이 0.5가 아닐 때 이항분포는 비대칭적인 분포를 하는데 대칭적인 정규근사를 하였기 때문인 것으로 생각된다. 또한 (4) 분산분석 모형에서는 각 수준조합에서의 오차변동은 등분산을 갖는 대칭적인 정규분포를 가정하고 있는데 실제로 표본분포의 경우 등분산성 조건이 만족되지 않는다.
엄밀한 의미에서 계수치 자료의 분석에 분산분석법이 사용될 수 없을 것으로 생각된다.

3.3 로짓 변환분석

로짓 변환을 통해 자료를 r_ij = ln[ p_ij /(1 - p_ij )]로 계산한 결과는 <표 8>과 같다.

<표8>로짓(오메가) 변환치

이 자료구조는 반복 없는 2원 배치 자료로 간주할 수 있다. 다음과 같은 모형을 적용한다.

<표9>로짓 변환치에 대한 이원 분산분석

분석결과 , A, B인자 모두 유의하다고 판단할 수 있다. 부적합률은 망소특성 자료이며 교호작용을 구할 수 없는 경우로서 A인자의 최저수준 B인자의 최저수준에서 최적이므로 최적 수준조합은 A₃B₁ 으로 평균에 대한 구간추정은

r(A₃B₁)에 대한 95% 신뢰구간은 다음과 같다.

변환치에 대한 최적 수준조합 A₃B₁에서의 점 추정과 구간 추정은 다음과 같다.

하한에 음의 수가 나타나지 않는다는 점에서 자료변환의 1차적인 목표는 달성되었지만 하지만 자료의 시행횟수에 대한 정보를 무시하고 있기 때문에 관측치가 가지고 있는 정보 중 많은 부분의 손실이 발생된다.

3.4 이항 로지스틱 회귀

이항 로지스틱 회귀 이론은 많은 문헌에 존재하며 Kleinbaum and Klein[6]과 Montgomery[8] 등에 비교적 상세히 소개되어 있다. 로지스틱 회귀분석 방법론은 그간 이분법적(dichotomous) 반응 자료[5, 10]에 대한 분할표(contingency table) 검정이나 다분법적(polychotomous) 반응으로서의 범주형(categorical) 자료[5, 11]의 분석에 사용되고 있다고 생각된다.

3.4.1 자료 구조 모형

일반적으로 분산분석 모형을 회귀분석 모형으로 변환하는 방법은 다음과 같다. 편의상 반복이 있는 이원배치 모수모형을 다음과 같이 정의한다.

제약식 이 필요하다. 이에 대응하는 회귀모형은

로 정의되며 여기에 제약식이 추가되어야 한다.

3.4.2 로지스틱 회귀모형

<표 5>의 예제에 대한 자료구조는 다음과 같다.

여기에 일반적으로 다음 제약식을 추가한다. 즉,

와 같은 식을 추가한다. 이 제약식 들을 모형에 직접 반영하는 몇 가지 방법 중 한 가지는 각 제약식의 첫 번째 계수를 0으로 설정하고 즉,

으로 간주하고 그에 따라 α의 값이 결정되도록 하면 α는 대조군의 평균을 의미하는 것이 된다.

로지스틱 회귀모형에서는 로짓(logit) 연결함수(link func-tion) g(.)을 도입하여 오메가 변환과 유사하게 다음과 같이 정의한다.

이러한 모형은 일반화 선형모형(GLM)에 해당하며 설명변수는 가변수(dummy variable)이다.

설계행렬(design matrix) X와 모수 벡터 β는 식 (12)와 같다. X행렬의 특정한 행을 나타내는 x_ij 는 수준조합 A_iB_j에 해당하는 행벡터이다.

3.4.3 모형의 적합

로지스틱 회귀에서는 모형의 적합과정에서 최우 추정법을 직접 사용하고 또한 반복적인 알고리즘을 사용한다. 로지스틱 회귀의 추론 과정에서는 다음과 같은 이항 확률변수 Z를 고려한다.

확률은P_r (Z=1)=p , P_r (Z=0)=1 - p로 각각 정의한다. 2차원 배열로 주어진 l x m개의 수준조합이 있다면 P_r (Z_ij =1)=p_ij라고 할 때 결합 확률함수는 다음과 같다.

Y_ij~ BIN(n_ij,p_ij)로 정의하면 로그우도함수는

이것은 Newton-Raphson과 유사한 수치해석적인 탐색방법으로 일반화 추정식(generalized estimating equation; GEE) 으로도 부른다.

여기서 정보행렬은 I = X'VX에 해당하는 것으로서 β를 이 알고리즘의 최종 추정치라고 하면

V는 계수들 간의 분산-공분산 행렬이며 번째 대각원소 V_ii 는

로 분산의 추정치가 된다. GLS의 결과와 일치한다. 를 구한 후 적합된 추정치는

각 수준조합에서 발생확률의 구간추정을 위해서는 수준조합을 예측변수들의 벡터로 표시하여야 한다. x'₀ = [1, x_2⁰,x_3⁰,x_4⁰,x_6⁰]을 회귀변수의 특정 값에서의 벡터라고 하면

이므로 x₀ 에서의 발생확률 p₀ 의 신뢰구간의 하한과 상한은 다음과 같이 계산된다.

여기서의 하한과 상한은 역 변환하면 발생률 p₀ 의 하한과 상한으로 계산될 수 있다. 즉,

이 과정에서 시행횟수가 반영된 추정결과를 얻게 되기 때문에 시행횟수가 많을수록 정밀도가 높은 즉, 신뢰구간이 더 좁은 추정치를 얻을 수 있다.

<표10>로지스틱 회귀 분석 표

자료의 처리 시 SAS PROC LOGISTIC[4]나 Minitab[7]과 같은 패키지를 사용할 수 있다. <표 10>은 미니탭을 사용하여 식 (11)에 주어진 모형의 모수를 추정한 결과이다. 여기서 유의하지 않은 모수에 대한 정보도 얻을 수 있다.

3.4.4 유의하지 않은 모수 제거

교호작용에 해당하는 계수들 δ₂₂,δ₃₂,δ₄₂ 과 β₃ 가 유의하지 않은 것으로 판단하여 모형에서 제거하기로 결정하
였다고 가정하면 적합된 모형은

여기서 특기할 것은 현재의 조업조건( A₁ B₁)에서

개선된 조업조건(A₃ B₁)에서

와 같이 A₁수준과 A₃수준에서의 추정치가 동일하게 나타나고 있다. 이는 계수 B₁ 과 B₃를 0으로 설정하였기 때문인 것으로 생각된다.

<표11> 수준조합에서의 발생비율 추정

3.4.5 유의하지 않은 모수 일부 포함

추정결과 계수 β₃ 가 유의하지 않은 것으로 나타나고는 있지만 적어도 하나의 β_i , i = 2, 3, 4 계수가 유의하므로 인자 A가 유의하며 앞의 분산분석 결과와 비교를 위하여 모형에 β₃ 를 포함시켰다.

이것은 교호작용만을 제외시킨 가법모형에 해당한다. 로지스틱 회귀로 추정한 결과가 <표 12>와 같다. 여러 번 반복실행 결과 로그우도가 최대가 되는 해를 구하였다는 사실을 확인할 수 있다.

<표12> 가법모형 추정 결과

카이자승 검정이나 이탈도의 p-value가 유의수준 α = 0.05에 비해 매우 큰 것으로 보아 가정된 모형이 적합한 것으로 판단된다. 추정된 모형은 다음과 같이 정리된다.

발생확률은 역변환을 하여 추정이 가능하다. 즉,

와 같은 방식으로 계산이 가능하다. 그런데 다음 조건이 만족되어야 하므로

현재의 조업조건(A₁B₁)에서의 추정치는

개선된 조업조건(A₃B₁)에서의 추정치는

한 가지 예를 더 든다면 A₃B₂에서는

모든 수준조합에서의 발생확률은 <표 13>과 같다

<표13> 수준조합에서의 발생비율 추정

다음 <표 14>는 미니탭을 이용한 발생률의 추정치와 95% 신뢰구간이다.

<표14> 발생률 추정치와 신뢰구간

이 경우 발생비율이 낮음에도 불구하고 신뢰구간이 비대칭적이며 하한이 음수로 추정되는 현상이 없을 뿐만 아니라 오차 분산의 동일성이나 독립성의 가정이 없이도 적합(fitting)된 추정치를 구할 수 있다.

3.4.6 조업조건의 유의성 검정

현재의 조업조건(A₁B₁) 대비 개선된 조업조건(A₃B₁)의 OR(odds ratio)는 다음과 같이 계산된다.

이것은 부적합률이 현재의 72% 수준으로 저감될 수 있다는 의미로 해석되지만 이 승산비의 신뢰구간은 (0.32, 1.60)으로 나타나고 있기 때문에 즉, 신뢰구간이 1을 포함하고 있기 때문에 통계적으로 유의하다고 할 수는 없다.

이와 같이 현재의 조업조건에서의 결과를 기준으로 다른 조업조건 들에서의 OR(odds ratio)을 구할 수 있으며 OR의 점 추정치와 구간 추정치로 비율의 차이의 추정과 신뢰구간으로 별도의 검정과정 없이 손쉽게 유의성을 검정할 수 있다.

3.5 모의실험

앞에서 유의하지 않다는 결과가 나온 주된 이유는 시행횟수가 적기 때문이라고 생각된다. 따라서 시행횟수가 많을 때의 효과를 확인하기 위하여 발생비율은 동일하지만 시행횟수와 발생횟수가 4배로 큰 경우의 일종의 모의자료를 만들었다.

<표15> 이항 계수치 모의자료

3.5.1 분산분석법의 적용

자료구조모형은 모형은 식 (6)에서와 동일하게 가정하였다. 반복이 있는 이원 배치와 같이 계산될 수 있으며 특히 y_ijk 는 0 또는 1를 나타내는 변수이고 y²_ijk=y_ijk이므로 다음과 같이 계산할 수 있다.

CT = T² /lmr = 400² /(4x2x480) = 41.667

정리된 분산분석표는 다음 <표 16>과 같다

<표16> 모의자료 분산분석표

우선 1차단위의 오차 E₁ (A x B)의 유의성 검정에서 F₀ =1.11이므로 유의하지 않은 것으로 판단하여 풀링하기로 결정하였다면 분산분석표는 <표 17>과 같이 다시 작성된다.

<표17> 풀링된 분산분석표

검정결과 , 인자 모두 유의하다고 판단된다. 따라서 교호작용은 무시되며 모형은

와 같이 축소된다.

3.5.2 부적합률 추정

개선된 조업조건은 유일하게 A₃B₁이다. 교호작용이 무시되는 경우이므로 비율의 추정은

유효반복수는 다음과 같이 계산된다.

90% 신뢰구간 폭은 다음과 같다.

분산분석에서는 각 수준조합에서의 분산이 동일하다는 가정 하에서 모형을 수립하고 분석하기 때문에 신뢰구간의 폭은 동일하게 적용되어야 한다. 따라서A₃B₁ 에 대한 90% 신뢰구간은

p(A₃B₁) : 2.50± 1,786(%) = (0.714%, 4.286%)

시행횟수를 4배로 증가시켰기 때문에 신뢰구간의 폭이 절반으로 줄어드는 것은 당연한 결과이다. 마찬가지 계산방식으로 현재의 조업조건 A₁B₁에서의 p(A₁B₁)에 대한 90% 신뢰구간은

p(A₁B₁) : 4.167± 1,786(%) = (2.381%, 5.953%)

신뢰구간이 상당부분 겹쳐서 나타나고 있어 변별력이 있다고 할 수 없는 것으로 보인다.

이를 좀 더 극명하게 나타내기 위해서는 차이에 대한 신뢰구간을 구해 볼 수 있다. 분산분석에서는 표본분포를 대칭적인 정규분포로 가정하고 있기 때문에 이 두개의 신뢰구간을 합성하여 쉽게 차이에 대한 신뢰구간을 구할 수 있다.

신뢰구간에 0이 포함되어 있어 두 모 비율이 서로 다르다는 근거로 채택하기 어렵다.

3.5.3 로지스틱 회귀의 적용

한편 로지스틱 회귀를 적용하여 볼 경우 적합된 로짓 연결함수는

와 같고 계수의 추정치는 다음과 같다.

<표 15>의 모의자료에 앞에서와 동일한 모형을 사용하여 동일한 방식으로 적합하여 본 결과 추가로 2개의 회귀계수 β₃ 와 δ₄₂ 가 신뢰수준 90%에서 거의 유의한 것으로 검출되었다. 유의한 것으로 판정된 계수가 더 많아졌을 뿐 만 아니라 계수의 추정치가 다소 변하였으며 신뢰구간이 더 좁아진다는 사실을 확인 할 수 있다.

<표18> 모의자료 로지스틱 회귀 분석 표

이와 같이 이항 로지스틱 회귀모형에서는 시행횟수가 많으면 많을수록 신뢰구간이 점차 좁아져 유효성 있는 추정치(efficient estimate)를 구할 수 있으며 모형의 모수가 유의한 것으로 판명될 개연성이 높아진다는 사실을 확인할 수 있다. 각 수준조합에서의 추정치와 신뢰구간을 모두 구한 결과는 <표 19>와 같다

<표19>발생률 추정치와 신뢰구간

이와 같이 p(A₃B₁)에 대한 90% 신뢰구간은
p(A₃B₁) : (2.3071%, 4.1155%)

로서 분산분석에 의한 신뢰구간(0.714%, 4.286%)보다 더 좁게 나타나고 있다. 마찬가지 계산방식으로 현재의 조업조건 에A₁B₁서의 p(A₁B₁)에 대한 90% 신뢰구간은
p(A₁B₁) : (3.2716%,5.4780%)

로서 분산분석에 의한 신뢰구간(2.381%,5.953%)보다 더 개선되어 나타나고 있다. 따라서 분산분석법에 비하여 변별력이 더 우수하다. 하지만 이러한 해석은 분산분석의 관점에서의 해석이라고 할 수 있다.

로지스틱 회귀의 관점에서의 해석은 다소 다르게 진행되어야 한다. <표 18>에서 OR(odds ratio)과 90% 신뢰구간을 검토해 보면 OR추정치가 0.72이고 90% 신뢰구간이 (0.51, 1.01)인 것을 감안할 때 개선된 조업조건에서의 모비율 p(A₃B₁) = P₃₁ 이 더 작다는 사실을 거의 95% 신뢰할 수 있다. 그 이유는

와 같이 OR(odds ratio)이 1보다 작거나 같다면

와 같이 개선된 조업조건에서의 모비율(p₃₁ )이 현재의 경우의 모비율(p₁₁ )보다 작거나 같다는 의미로 해석이 가능하며 90% 양측 신뢰구간의 상한은 95% 좌측 신뢰구간의 상한에 해당한다.

이와 같이 로지스틱 회귀에 의한 해석은 분산분석방법론과 다소 다르기도 하거니와 변별력 면에서 더욱 우수하다고 할 수 있다.

4. 결론 및 제언

본 연구에서는 로지스틱 회귀 방식을 사용하여 백분비 또는 발생비율의 추정 시 발생되는 여러 가지 문제점 들을 해결하려고 시도하였다.

정리된 계수치 자료만 있다면 최적 조업조건을 알아내는 것은 일견 쉬운 일로 보인다. 하지만 현재의 조업조건에 비해 통계적으로 유의한지(significant)를 알아야만 진정한 의미의 최적 조업조건을 찾았다고 말할 수 있다.

분산분석법은 모형의 기본 가정이 정규성, 독립성, 등분산성의 가정 하에서만 성립되는 모형이다. 더욱이 비율의 구간추정은 비대칭적으로 이루어져야 하는데[1] 정규 근사 한다는 것은 대칭적인 분포를 가정하고 구간추정을 하기 때문에 여러 가지 문제가 발생될 수 있다. 또한 분산분석이나 회귀분석의 선형모형에서는 가법성이라는 특성이 만족되어야 하는데 사건 발생비율이 0에 가깝거나 1에 매우 가까울 경우 성립되기가 어렵다.

이항 로지스틱 회귀 방식을 사용하는 경우 몇 가지 장점이 있는데 (1) 시행횟수가 반영된 추정결과가 구해지므로 시행횟수가 많을수록 정밀도가 높고 통계적으로 변별력 있는 바람직한 추정치를 얻을 수 있다. 또한 (2) 모수의 유의성을 별도의 검정과정 없이 OR의 구간추정만으로 검정할 수 있다. 단점이 있다면 (1) 로지스틱 회귀모형분석과정이 관례적인 방식과 다르기 때문에 분석 시 더 많은 주의력을 요한다. (2) 모수의 추정과정이 일반화 추정식(GEE)을 사용하여야 하므로 수작업계산은 불가능하다. 하지만 이러한 단점은 상업화된 통계패키지 예를 들어 SAS PROC LOGISTIC[4]이나 미니탭의 로지스틱 회귀 분석절차[7]를 이용한다면 쉽게 극복해 낼 수 있다.

앞으로 이러한 방법론을 확대 적용하여 계수치 자료 또는 여러 가지 범주형(categorical)자료 에도 실험계획법 또는 회귀분석에서와 같이 다양한 자료구조 모형에 적용하고 분석할 수 있을 것으로 기대된다.

Reference

1. 류제복, 이승주; 낮은 이항 비율에 대한 신뢰구간, 응용통계연구, 19(2) : 217-230, 2006.
2. 박성현; 현대실험계획법, 민영사, 2007.
3. 박성현; 회귀분석, 제3판, 민영사, 1999.
4. Allison, P. D.; Logistic Regression Using the SAS System-Theory and App, SAS, 1999.
5. Dobson, A. J.; An Introduction to eneralized Linear Models, Chapman and Hall/CNC, 2001.
6. Kleinbaum, D. G. and Klein, M.; Logistic Regression : A Self Learming Text, 3rd Edition Springer, 2010.
7. Minitab; Minitab Manual, 2011.
8. Montgomery, D. C., Peck, E. A., and Vining, G. G.; Introduction to Linear Regression Analysis, 4th Edition, 2006.
9. Ross, P. J.; Taguchi Techniques for Quality Engineering, McGraw Hill, 1989.
10. Sloan, D. and Morgan, S. P.; "An Introduction to Categorical Data Analysis," Annual Review of Sociology, 22 : 351-375, 1996.

11. Strokes, M. E. Davis, C. S., and Koch, G. G., Categorical Data analysis Using The SAS System, 2nd Ed., 2000.