1. 서 론
우울증은 가장 일반적 형태의 정신 병리학적 질병이다 [40]. 지속적인 슬픔, 짜증, 공허함의 경험이나 흥미나 즐거 움의 상실이 우울증의 특징으로 나타난다. 우울증은 전 세 계적으로 증가하는 추세로 2015년 기준 전 세계 인구의 4.4%에 해당하는 3억 명 이상의 인구가 우울증을 앓고 있 으며, 최악의 경우 우울증이 자살로 이어질 수 있다는 점에 서 예방 측면이 강조되고 있다[60]. 앞선 다수의 연구들에 의하면 우울증은 성별에 따라 유병률이 다르게 나타나는 데, 우울증은 남성에 비해 여성에게서 더욱 흔하게 발생한 다[22, 32, 44, 59]. 또한 우울증은 다양한 연령대의 사람들 에게 영향을 미치지만 그 중에서도 노년기에 가장 높은 유병률을 지닌다[56]. 이렇듯 우울증은 성별과 연령에 따라 각기 다른 양상을 보인다[10]. 따라서 성별, 연령별로 우울 증의 예방 및 관리 방안을 도출해야 할 필요성이 있다.
이를 위해, 우울증의 위험인자 및 위험인자 간의 연관 성을 파악하려는 연구들이 수행되어 왔다. 분석방법으로 통계 검정[24, 35, 57]과 회귀분석[20, 29, 46]이 사용되었 으며, 주로 개별 인자의 영향력을 파악하는 데 중점을 두 었다. 그러나 우울증은 여러 인자들이 유기적으로 연계 해서 여러 증상으로 발현되는 양상의 패턴을 갖고 있기 때문에, 실효성 있는 우울증 예방 및 관리를 위해서는 위 험인자 발굴뿐만 아니라 위험인자 간의 복합적 관계 파 악이 필수적이다.
최근 들어, 데이터마이닝이나 머신러닝 기법을 활용하 여 우울증 인자의 복합적 관계를 모형화하는 시도들이 점차 늘어나고 있다[16, 54, 55]. 우울증 예측 연구의 예 로, Baek and Chung[5]의 연구에서는 컨텍스트 심층 신 경망 모델을 사용해서 우울증 위험을 예측하였다. Bhaka and Sau[7]의 연구에서는 순차적 최소 최적화를 사용해 서 노인 우울증을 예측하였다. 또한, 우울증 주요 위험 인자 도출 연구의 예로, Byeon[13]의 연구에서는 랜덤 포레스트를 이용하여 치매 간병인 우울증의 주요 예측 변수를 식별하였으며, Hirata et al.[28]의 연구에서는 뇌 졸중 성인을 대상으로 수행한 연구로서 랜덤 포레스트를 이용하여 우울증 주요 예측 인자를 식별했다.
이와 같이, 우울증 인자 간의 복합적 관계 해석보다 예측이나 개별 주요 인자 선별에 대한 연구 비중이 여전 히 높다. 그 원인 중 하나는 분석 기법들이 갖는 블랙박 스 속성으로 인해 모형을 직관적으로 해석할 수 없기 때 문이다. 여기서 블랙박스는 사람이 이해 가능한 방식으 로 모델의 예측을 설명할 수 없는 특성을 의미한다[19, 53]. 직관적으로 해석이 가능한 의사결정나무가 있으나 의사결정나무 수립 알고리즘은 데이터셋의 작은 변화에 민감하게 반응하는 불안정성과 과적합의 위험이 존재해 서 결과 해석에 주의가 필요하다[26]. 이를 해결하기 위 해 배깅을 사용한 랜덤 포레스트가 제안되었다[12]. 안정 적인 성능으로 인해 랜덤 포레스트는 우울증 예측에 많이 활용되었다[18, 43, 61]. 그러나 설명변수의 상호작용과 비선형성을 고려할 수 있는 구조적 장점에도 불구하고 블랙박스의 속성에 따라, 우울증에 대한 해석적 연구는 여전히 변수 중요도 산출에 의한 주요 인자 도출 수준에 머물러 있다[8, 50].
이에 본 연구에서는 랜덤 포레스트의 ‘블랙박스’를 들 여다 볼 수 있는 방법으로 제안된 ‘랜덤 포레스트 규칙’ 도출[21]을 활용하여 우울증 발현 양상의 패턴을 도출하 고 해석하는 방법론을 제안하고자 한다. 본 연구에서 도 출된 랜덤 포레스트 규칙은 우울증 발현에 관여하고 있 는 변수들과 해당 값의 분류 조건들로 구성되어 있어, 우 울증 발현 양상을 설명하기에 적합하다. 이로써 예측과 주요 인자 도출에 집중했던 기존 연구를 넘어 우울증 인 자들의 유기적 관계 해석을 가능케 했다는 점에서 본 연 구의 의의를 찾을 수 있다. 분석은 성별과 연령에 따라 달라지는 우울증 양상을 감안하여 총 4개의 그룹으로 세 분화해서 실시하였다. 도출된 그룹별 랜덤 포레스트 규 칙들에서 우울증 발현 양상의 특이점을 파악하고 해석하 여 그룹별 우울증 관리 및 예방법을 제언함으로써 현실 적이고 종합적인 우울증 예방 및 관리 대책을 수립하는 데 기여하고자 한다.
2. 방법
2.1 연구 대상
본 연구는 국민건강영양조사 자료의 대한민국 만 19 세 이상 성인을 대상으로 분석을 실시한다. 국민건강영 양조사(KHANES)는 대한민국 국민을 대상으로 우울증 선별도구인 PHQ-9의 9가지 항목을 포함하여 질환 유병 현황, 국민 건강 형태 등을 조사한 자료이다[30]. PHQ-9 조사 횟수가 가장 많은 제7기 자료를 분석에 사용하며, 그 중 PHQ-9 조사 항목이 포함된 2016, 2018년도 2개년 자료를 이용한다. 설문 항목 중 PHQ-9은 한글판 PHQ-9 으로, 만 19세 이상 성인을 대상으로 우울증 판별에 사 용되는 총 9개의 항목에 대한 설문이 진행되었다. 원시 자료의 구성은 2016년 8,150개, 2018년 7,992개로 총 16,142개의 인스턴스로 구성되어 있다. 그 중 PHQ-9 9개 의 항목과 우울증 현재 유병 여부, 성별 및 나이 변수를 제외한 그 외의 변수와 결측치를 제거한 11,679개의 인 스턴스를 최종 연구 대상으로 사용한다. 전처리 과정에 서는 성별과 나이 65세를 기준으로 전체 인스턴스를 총 4개의 그룹으로 구분한다.
2.2 PHQ-9
PHQ-9은 9가지 항목으로 구성된 우울증 진단 도구로, 정신 장애에 대한 자가 진단 도구 관리 버전인 PHQ(Patient Health Questionnaire)에서 비롯되었다. 설문 대상자는 총 9개의 설문 항목에 대해 0(전혀 아님)에서 3(거의 매일)점 사이의 점수를 매기게 되며, 총 점수의 합계 범위는 0점에서 27점까지이다. 우울증 판별은 총점을 기준으로 이루어지며, 일반적으로 10점 이상일 경우 우울증, 미만일 경우 정상으 로 구분한다[33]. 본 연구에서는 PHQ-9을 우울증과 정상의 판별을 위한 cut-off value의 용도로 사용한다. PHQ-9을 최 초로 설명한 Kroenke et al.[33]의 연구에 의하면, PHQ-9은 우울증 진단뿐만 아니라 우울증의 중증도 평가에도 활용되 고 있으며, 다양한 치료 환경의 외래 환자에게도 일반화될 수 있는 도구이다. PHQ-9의 일반화에 대한 검증은 Martin et al.[39]의 연구에서 진행된 바 있으며, 의료 환경뿐만 아니 라 일반 인구를 대상으로 한 경우에도 선별 도구로서 타당 성을 가짐이 입증되었다. 따라서 본 연구에서는 일반성이 검증된 우울증 판별 변수인 PHQ-9 9가지 항목만을 우울증 을 판별하기 위한 도구로 사용한다.
본 연구에서는 도출된 우울증 규칙 설명을 위해 한글 판 PHQ-9을 사용하며, An et al.[3]의 연구에서 제안한 PHQ-9의 한국어판을 인용한다. 9가지 설문 항목은 다음 과 같다. ‘1. 매사에 흥미나 즐거움이 거의 없다’, ‘2. 기 분이 가라앉거나 우울하거나 희망이 없다고 느낀다’, ‘3. 잠들기 어렵거나 자주 깬다/혹은 잠을 너무 많이 잔다’, ‘4. 피곤하다고 느끼거나 기운이 거의 없다’, ‘5. 식욕이 줄었다/혹은 너무 많이 먹는다’, ‘6. 내 자신이 실패자로 여겨지거나 자신과 가족을 실망시켰다고 느낀다’, ‘7. 신 문을 읽거나 TV를 보는 것과 같은 일상적인 일에 집중 하기 어렵다’, ‘8. 다른 사람들이 눈치 챌 정도로 평소보 다 말과 행동이 느리다/혹은 너무 안절부절 못해서 가만 히 앉아 있을 수 없다’, ‘9. 차라리 죽는 것이 낫겠다고 생각하거나 어떻게든 자해를 하려 생각한다’.
우리는 나이를 기준으로 우울증 판별의 cut-off value 에 차등을 두었다. PHQ-9 9가지 항목의 총점을 기준으 로 65세 이상 노인의 경우는 5점, 65세 미만 성인은 10 점을 기준으로 우울증을 판별한다. 이때 나이별로 cut-off value의 차등을 둔 것은 한국 노인을 대상으로 우울증을 판별할 때 5점이 최적의 cut-off value라는 Han et al.[25] 의 연구 결과를 근거로 한다.
2.3 랜덤 포레스트 규칙
우울증 발현 양상의 패턴 도출을 위해 랜덤 포레스트 (random forest)를 사용한다[2, 9]. 랜덤 포레스트는 Breiman[12]이 제안한 앙상블 기법의 모델로 무작위로 선택 된 여러 개의 의사결정나무들로 구성된다[9, 12]. 이때 각 의사결정나무는 학습 시 무작위 복원 추출로 선택된 데이터 셋을 사용한다[12]. 따라서 각 나무를 구성하는 설명 변수들 과 예측값은 달라지게 된다. 일반적으로 랜덤 포레스트 모 델의 최종 클래스 예측은 각 의사결정나무로부터 얻어진 예측 결과의 평균화 또는 다수결 투표를 통해 이루어진다 [12, 13]. <Figure 1>은 랜덤 포레스트 모델의 구조를 설명하 는 그림이다. 모델의 이해를 돕기 위해 랜덤 포레스트를 이용하여 우울증을 판별하는 사례를 예로 들었다. 첫 번째 나무부터 총 n 번째 나무까지 n개의 의사결정나무가 구축된 다. 첫 번째 의사결정나무에서 좌측 하단으로 내려가는 노 드를 통해 볼 수 있듯이, 의사결정나무에서는 루트 노드부 터 리프 노드까지 각 노드마다 변수와 그에 따른 조건을 묻는 질문들이 존재한다. 질문의 충족 여부에 따라 아래로 이동할 노드가 결정된다. 최종적으로 리프 노드에 달하여 의사결정나무로부터 하나의 클래스가 예측된다. 이렇게 n 개의 각 의사결정나무로부터 예측된 클래스는 다수결 투표 를 통해 가장 득표수가 많은 클래스가 최종 모델의 예측값 으로 결정된다.
예를 들어, <Figure 1>의 첫 번째 나무에서 루트 노드 에서 시작하여 각 노드에 놓인 질문의 충족 여부에 따라 좌측 하단 방향으로 가지를 따라 내려가게 된다. 우울증 판별이 PHQ-9 항목 중 1번, 3번, 6번과 그에 따른 점수 에 의해 결정된다고 가정하자. 루트 노드에서 시작하여 1번 항목이 1.5점 초과이면 좌측 하단 노드로 분류된다. 그다음 해당 노드에서 3번 항목이 0.5점 초과이면 다시 좌측 하단 노드로 분류된다. 여기서 6번 항목의 점수가 1.5점 초과일 경우 첫 번째 의사결정 나무의 예측값은 우울증으로 결정된다. 이렇게 1부터 n번까지의 의사결정 나무들로부터 예측된 클래스 중 우울증(depression)이 정 상(none)보다 득표수가 많다면, 최다 득표에 의해 랜덤 포레스트는 최종 예측값을 우울증으로 결정하게 되는 것 이다.
랜덤 포레스트는 무작위성과 여러 개의 의사결정나무 들로 구성되었다는 특징을 바탕으로 대규모 데이터셋의 예측에도 적합한 모델일 뿐만 아니라 매개변수의 조정의 필요성이 매우 적어 편리하다는 장점이 있다[2, 9]. 또한 의사결정나무와 같은 단일 나무 분류기에 비해 상당히 높은 성능을 보이며, 노이즈에도 영향을 적게 받는 특징 이 있다[2]. Byeon[13]의 연구에 의하면 랜덤 포레스트는 의사결정나무에 비해 더 높은 정확도(accuracy)를 보여주 었으며, SVM, K-NN 모델과 같은 다른 데이터마이닝 기 법들과 비교했을 때에도 더 높은 예측력을 보였다.
랜덤 포레스트 ‘규칙(rule)’은 조건과 예측값으로 구성 된다. 여기서 조건은 랜덤 포레스트를 구성하는 의사결 정 나무들에서 루트 노드(root node)에서부터 리프 노드 (leaf node)까지의 변수와 값의 반복된 결합이다. 랜덤 포 레스트의 모델링 과정에서 각 의사결정나무는 랜덤하게 생성되기 때문에[12], 단일 랜덤 포레스트 모델일지라도 내부의 여러 나무들로부터 도출된 중복된 규칙이 발생할 수 있다. 우리는 이러한 중복 규칙은 제거하여 중첩되는 규칙이 없도록 하였다. 또한 랜덤 포레스트 규칙을 평가 하기 위해 몇 가지 정량적 측정이 가능한 척도를 사용한 다. 측정 척도는 frequency, error, length이며 각각의 의미 는 다음과 같다. frequency는 규칙을 충족하는 인스턴스 의 비율을 의미하며, error는 규칙에 의해 잘못 분류된 인스턴스의 비율을 뜻한다. length는 랜덤 포레스트 규칙 에 포함된 '변수-값'쌍들의 개수를 의미한다[21].
우리는 우울증 발현 양상 패턴 도출을 위한 실제 코딩 과정에서 랜덤 포레스트보다 한 단계 개선된 Regularized Random Forest(RRF)를 사용한다. RRF는 의사결정 나무 의 노드를 분할하는 과정에서 정규화된 information gain 을 분할 척도로 사용하는 랜덤 포레스트이다. 이러한 특 징을 바탕으로 RRF는 나무를 구성하는 변수 선택에 있 어 해당 변수가 새로운 예측 정보를 추가하는 경우에만 신규 변수로 선택한다. 이를 통해 불필요한 변수가 노드 에 포함되는 것을 방지한다[21]. 앞선 과정들을 요약하여 설명하면 다음과 같다. 첫 번째로 RRF 모델을 수립한다. 수립된 RRF 모델에서 중복된 규칙들을 제거하여 중첩이 없는 규칙들만을 남긴다. 두 번째로 모델의 과적합을 방 지하기 위해 가지치기(pruning) 과정을 거친다. 그 다음 으로 도출된 다수의 규칙 중에서 분석 대상 그룹을 대표 할 수 있는 규칙을 선별한다. 선별 조건으로는 error을 사용하여 error가 10%이상인 것들은 분석 대상에서 제외 한다. RRF의 파라미터에서 구성 나무 개수를 제외한 나 머지 값들은 모두 디폴트 값을 사용하였다. ntree의 디폴 트 값은 500이며, RRF의 응용법을 다룬 Deng[21]의 연 구에서의 ntree 지정값은 100이다. 우리는 ntree를 1000으 로 지정하였는데, 이는 Breiman[12]의 연구에서 랜덤 포 레스트를 구성하는 나무의 개수가 많을수록 정확도 향상 에 기여하는 바가 크다는 결과를 근거로 하여 앞선 값들 보다 더 큰 수를 지정하였다. 이러한 일련의 과정들은 R 의 inTrees 패키지를 이용해 수행 가능하다.
2.4 연구 절차
본 연구의 절차를 요약하자면 다음과 같다. 첫 번째 단계로 국민건강영양조사 2016년, 2018년도 자료를 통합 하여 결측치 및 불필요한 변수를 제거하여 11,679개의 인스턴스만을 남긴다. 두 번째로 11,679개의 인스턴스를 성별과 나이 65세를 기준으로 총 4개 그룹으로 구분한 다. 해당 단계를 통해 전체 인스턴스는 65세 이상 여성, 65세 이상 남성, 65세 미만 여성, 65세 미만 남성 총 4가 지 그룹으로 구분된다. 세 번째로 설명변수로 PHQ-9의 9가지 항목만을 사용하고 타겟 변수로 우울증 여부를 판 별하는 이진 클래스(binary class) 변수를 생성한다. 이때 우울증 여부를 판별하는 cut-off value는 65세 이상 노인 의 경우 5점, 65세 미만 성인은 10점으로 지정하여 해당 점수 이상일 경우는 우울증, 미만일 경우는 비우울증으 로 판정한다. 네 번째 단계에서 RRF를 기반으로 우울증 또는 비우울증으로 귀결되는 규칙을 도출한다. 도출된 규칙들은 가지치기(pruning) 및 선별 과정을 거쳐 4개의 그룹별로 length, frequency, error와 함께 출력한다. 다섯 번째로 4가지 그룹별로 우울증과 비우울증으로 귀결되 는 규칙들을 비교 분석한다. 해당 단계에서는 그룹별로 도출된 규칙에서 빈번하게 등장하는 변수와 값들의 특 징, 각각의 그룹 간의 규칙의 차이점에 대해 파악한다. 마지막 단계에서는 연구 방법의 타당성을 검증하기 위해 ROC curve의 비교 분석을 실시한다. 여기서 비교 대상 은 PHQ-9 9가지 점수의 합계를 이용하는 통상적인 우울 증 진단 방식과 RRF에 의한 우울증 진단 방식이다.
3. 결과
3.1 연구 대상의 일반적 통계
전체 11,679개 인스턴스를 성별과 나이 65세를 기준으 로 총 4가지 그룹으로 구분한 결과, 65세 이상 여성 1,659명(14.2%), 65세 이상 남성 1,279명(11%), 65세 미 만 여성 4,964명(42.5%), 65세 미만 남성 3,777명(32.3%) 로 구성되었다. 각 그룹별 실제 우울증 유병률을 확인하 였을 때 65세 이상 여성이 6.4%로 가장 높은 비율을 차 지했으며, 그 다음으로 65세 미만 여성 3.1%, 65세 이상 남성 2.1%, 65세 미만 남성 1.1%순으로 비율을 차지하였 다. 연구 대상들의 그 외의 일반적 통계를 <Table 1>에 서 정리하였다.
3.2 65세 이상 여성 그룹의 우울증 규칙 도출 결과
65세 이상 여성 그룹에서 도출된 규칙은 총 8개이며, 8개 모두 비우울증으로 귀결되었다. 해당 규칙들은 규칙 은 <Table 2>에서 확인할 수 있다. 여기서 Item_k는 PHQ-9의 k번째 문항을 의미한다. 예를 들어, 65세 이상 여성 그룹에 대한 첫 번째 규칙은 다음과 같다. 규칙의 조건은 “Item_2≤1.5 & Item_4≤1.5 & Item_8≤0.5”이고, 예측값은 “0”이다. 이 규칙이 의미하는 바는, PHQ-9 항 목의 2번째, 4번째 점수가 1.5점 이하이고 동시에 8번째 항목 점수가 0.5점 이하일 경우 비우울증으로 판별된다 는 의미이다.
상기 첫 번째 규칙은 65세 이상 여성 그룹의 74.3%를 설명할 수 있으며 error는 6.8%이다. 2번, 4번, 8번 항목 으로 구성된 해당 규칙은 최근 2주간 ‘2. 기분이 가라앉 거나 우울하거나 희망이 없다고 느낀다’와 ‘4. 피곤하다 고 느끼거나 기운이 거의 없다’에 의해 며칠(several days) 이하로 방해받았으며, ‘8. 움직임의 과도한 느림 또 는 빠름을 보이며 안절부절 못함’에 의해 전혀 방해받지 않은 경우 비우울증으로 귀결되는 규칙이다. 그 다음으 로 도출된 규칙은 그룹의 72.6%를 설명하며 error 7.1% 를 보였다. 규칙을 구성하는 변수는 1번, 5번, 7번 항목 이며 규칙은 최근 2주간, ‘1. 매사에 흥미나 즐거움이 거 의 없다’와 ‘7. 일상에 대한 집중 불가’로 인해 전혀 방해 받지 않음과 동시에 ‘5. 식욕이 줄었다/혹은 너무 많이 먹는다’로 인해 며칠 이하로 방해받은 경우 비우울증으 로 귀결되는 결과를 보였다.
3.3 65세 이상 남성 그룹의 우울증 규칙 도출 결과
65세 이상 남성 그룹에서는 7개의 규칙이 도출되었으 며, 그 중 6개는 비우울증, 나머지 하나는 우울증으로 귀 결되었다. 가장 상위에 위치한 규칙은 65세 이상 남성 그룹의 82.3%를 설명하며 error는 2.1%이다. 1번, 2번, 4 번 항목들의 조합이 규칙을 구성한다. 규칙은 최근 2주 간 ‘1. 매사에 흥미나 즐거움이 거의 없다’로 7일 이하로 방해받았고, ‘2. 기분이 가라앉거나 우울하거나 희망이 없다고 느낀다’로 인해 전혀 방해받지 않았으며, ‘4. 피 곤하다고 느끼거나 기운이 거의 없다’에 의해 7일 미만 으로 방해받았다면 비우울증으로 귀결되었다. 그 뒤를 이은 규칙 역시 비우울증으로 귀결되었는데, 그룹의 76.9%가 해당 규칙으로 설명 가능하며 error는 1%가량이 다. 규칙을 구성하는 항목은 총 5가지이며 2번, 3번, 5번, 6번, 7번의 항목들이 출현하였다. 해당 규칙은 최근 2주 간 ‘5. 식욕이 줄었다/혹은 너무 많이 먹는다’와 ‘7. 신문 을 읽거나 TV를 보는 것과 같은 일상적인 일에 집중하 기 어렵다’로 인해 전혀 방해받지 않았고, ‘2. 기분이 가 라앉거나 우울하거나 희망이 없다고 느낀다’와 ‘6. 내 자 신이 실패자로 여겨지거나 자신과 가족을 실망시켰다고 느낀다’에 의해 며칠 이하로 방해받았으며 ‘3. 잠들기 어 렵거나 자주 깬다/혹은 잠을 너무 많이 잔다’로 인해 7일 이하로 방해받은 경우 비우울증으로 귀결되었다. 한편, 그룹 내에서 우울증으로 귀결된 유일한 규칙에서는 1번, 3번, 4번 항목이 등장하였으며, 해당 규칙으로 그룹의 4.5%가량이 설명된다. 규칙은 최근 2주간 ‘1. 매사에 흥 미나 즐거움이 거의 없다’와 ‘3. 잠들기 어렵거나 자주 깬다/혹은 잠을 너무 많이 잔다’, ‘4. 피곤하다고 느끼거 나 기운이 거의 없다’에 의해 동시에 며칠 이상 방해받 았다면 우울증으로 판별되었다.
3.4 65세 미만 여성 그룹의 우울증 규칙 도출 결과
65세 미만 여성 그룹에서는 총 12개의 규칙이 도출 되었다. 그 중 9개(75%) 규칙은 비우울증, 나머지 3개 (25%)의 규칙은 우울증으로 귀결되었다. 가장 상위에 위치한 규칙은 error 2%, frequency 0.937로 그룹 전체 의 94%가량을 설명할 수 있다. 해당 규칙은 최근 2주 간 ‘2. 기분이 가라앉거나 우울하거나 희망이 없다고 느낀다’ 와 ‘6. 내 자신이 실패자로 여겨지거나 자신과 가족을 실망시켰다고 느낀다’로 인해 며칠 이하로 방해 받은 경우 비우울증으로 귀결되었다. 뒤를 이어 도출된 규칙은 우울증으로 귀결되었다. 그룹의 2.4%를 설명할 수 있으며, error는 4.2%로 3, 4, 5, 6번 항목 총 4가지 가 규칙을 구성했다. 해당 규칙은 최근 2주간 ‘5. 식욕 이 줄었다/혹은 너무 많이 먹는다’와 ‘6. 내 자신이 실 패자로 여겨지거나 자신과 가족을 실망시켰다고 느낀 다’으로 인해 며칠 이상 방해받음과 동시에 해당하는 ‘3. 잠들기 어렵거나 자주 깬다/혹은 잠을 너무 많이 잔 다’와 ‘4. 피곤하다고 느끼거나 기운이 거의 없다’에 의 해 7일 이상 방해받은 경우 우울증으로 판별되는 규칙 이다. 그 외의 나머지 2개의 우울증으로 귀결되는 규칙 에서 공통적으로 등장한 변수는 ‘5. 식욕이 줄었다/혹은 너무 많이 먹는다’이다.
3.5 65세 미만 남성 그룹의 우울증 규칙 도출 결과
65세 미만 남성 그룹에서 도출된 규칙은 총 20개로, 18개(90%)는 비우울증, 2개(10%)는 우울증으로 귀결되 는 규칙이다. 가장 상위에 위치한 규칙은 65세 미만 남 성 그룹의 95.2%를 설명하며 error는 0.8%이다. 규칙은 최근 2주간 ‘2. 기분이 가라앉거나 우울하거나 희망이 없 다고 느낀다’와 ‘7. 신문을 읽거나 TV를 보는 것과 같은 일상적인 일에 집중하기 어렵다’로 인해 며칠 이하로 방 해받음과 동시에 ‘5. 식욕이 줄었다/혹은 너무 많이 먹는 다’로 인해 7일 이하로 방해받은 경우 비우울증으로 귀 결되었다. 뒤를 이은 규칙 역시 비우울증으로 귀결되었 다. 해당 규칙은 그룹의 93.8%를 설명하며, 최근 2주간 ‘3. 잠들기 어렵거나 자주 깬다/혹은 잠을 너무 많이 잔 다’에 의해 7일 하로 방해받았으며 ‘6. 내 자신이 실패자 로 여겨지거나 자신과 가족을 실망시켰다고 느낀다’에 의해 며칠 이하로 방해받은 경우 비우울증으로 판별되는 규칙이다. 우울증으로 귀결된 두 가지 규칙에서는 공통 적으로 1번 항목과 3번 항목이 등장하였는데 이는 각각 ‘1. 매사에 흥미나 즐거움이 거의 없다’, ‘3. 잠들기 어렵 거나 자주 깬다/혹은 잠을 너무 많이 잔다’이다.
3.6 AUC 비교 검정
4가지 그룹별로 도출된 규칙들의 타당성을 검증하고 자, 4가지 그룹 중 ‘우울증 현재 유병 여부’ 변수를 포함 한 인스턴스 수 267개로가장 충분히 확보된 65세 미만 여성 그룹에 대해 ROC curve 비교 분석을 실시하였다. 비교 대상은 전통적 방식으로, PHQ-9의 9가지 항목들의 점수 총합을 사용한다. 점수 합을 10점 기준으로 우울증 또는 비우울증을 분류하는 기존의 방식과 우리가 사용한 랜덤 포레스트 규칙에 의한 분류 결과의 ROC curve를 비교하였다. 전통적 방식의 전자의 경우 ROC curve 아 래 면적을 뜻하는 AUC(Area Under the Curve)가 0.782(95% CI 0.728-0.837), RRF를 사용한 경우 그 값이 0.740(95% CI 0.681-0.804)로 근소한 차이만을 보였다. 두 가지 방식이 동일한 성능을 내는지 비교하고자 ROC curve 동일 비교 분석을 실시한 결과에서, p-value 0.2235 로 두 가지 방식의 ROC curve가 상이하지 않다는 대립 가설이 기각되었다. 두 가지 방식의 ROC curve는 <Figure 2>에서 자세히 확인 가능하다.
4. 토 론
<Table 2>에서 제시된 그룹별 규칙들의 타당성은 선 행 연구 결과와의 일치 여부로 확인하였다. 예를 들어, 65세 이상 여성 그룹에 대한 규칙 중 <Table 2>의 최상 위 규칙 2가지에서 나타난 항목들은 다른 연구들에 의해 서도 우울증과의 연관성을 확인할 수 있다. 첫 번째 규칙 에 등장한 행동이상 및 초조와 관련된 8번 항목과 우울 증과의 연관성은 Avery and Silverman[4]의 연구 결과에 서도 드러났다. 연구 결과에 의하면 우울증을 경험하는 노년층의 여성에서 행동 이상 및 초조가 빈번하게 발생 하였다. 또한 두 가지 규칙 각각에서 등장한 4번과 7번 항목인 피로와 일상적 일에 대한 집중 어려움의 문제는 폐경기 여성에서 피로와 집중 어려움이 우울증과 밀접한 관련이 있다는 맥락과 유사하다[6].
65세 이상 남성 그룹에 대한 규칙 중 <Table 2>의 3번 째와 4번째 규칙에 공통적으로 PHQ-9의 3번과 4번 항목 이 등장한다. ‘3. 잠들기 어렵거나 자주 깬다/혹은 잠을 너무 많이 잔다’, ‘4. 피곤하다고 느끼거나 기운이 거의 없다’에 의해 동시에 며칠 이상 방해받았다면 우울증으 로 판별되었다. 해당 규칙에서 3번과 4번 항목에 해당하 는 ‘3. 잠들기 어렵거나 자주 깬다/혹은 잠을 너무 많이 잔다’와 ‘4. 피곤하다고 느끼거나 기운이 거의 없다’관련 항목과 우울증간의 연관성은 Sukegawa et al.[58]의 연구 결과와 일관성을 가진다. 해당 연구 역시 우울한 노인들 의 특징으로 수면 장애와 활동 의욕의 부족을 꼽았다. 65세 미만 성인의 상위 규칙에서 공통적으로 나타난 항목은 3번과 6번 항목이다. 각각 수면 장애와 자기 비 판과 관련된 두 가지 항목과 우울증 간의 연관성은 Høstmælingen et al.[27]의 연구 결과에 의해 뒷받침된다. 우울증의 요인 구조를 파악하고자한 해당 연구에 의하 면, 우울증의 요인 구조에서 자기 비판과 수면 장애가 동 반되어 나타난다. 이러한 맥락에서 볼 때 3번과 6번 항 목은 65세 미만 성인에게서 우울증과 연관된 주효한 변 수임을 알 수 있다.
그 외, ‘5. 식욕이 줄었다/혹은 너무 많이 먹는다’의 5 번째 항목은 65세 미만 여성 집단에서 다른 집단과 구분 되는 차별적 변수로 나타났다. 5번째 항목은 해당 그룹 내에서 도출된 규칙들 전체에서 출현 빈도수가 가장 높 은 변수이다. 특히 우울증으로 귀결되는 총 3개의 규칙 들 모두에서 공통적으로 나타난 유일한 변수이다. 이러 한 그룹내 우울증과 5번 항목 간의 연관성을 검증하고자 비율 검정을 실시하였다. 65세 미만 여성을 우울증군과 비우울증군으로 구분하였을 때, 우울증군에서 식이 장애 의 유병률이 높게 나타났다. 여성의 주요 우울증과 식이 장애의 징후 및 연관성에 대해 논의한 Fernandaz-Aranda et al.[23]의 연구에 의하면, 여성 연구 대상자의 3분의 2 에 해당하는 67%가 동일 3년 내에 주요 우울증과 식이 장애를 함께 경험하였다. 또한 식이 장애가 있는 대상자 의 72.9%에서 높은 주요 우울증 유병률을 나타냈다고 보 고한 점에서, 연구 결과에 따른 식이 장애와 우울증 간의 연관성이 뒷받침된다. Peat and Muehlenkamp[49]에 따르 면, 우울증과 식이 장애는 자기 객관화, 사회적 불안감, 감수성 인지와 같은 여러 요인과 유기적으로 연관되어 있다 따라서 5번 항목에 해당하는 식이 장애와 관련 징 후들의 관계를 복합적으로 고려하여 우울증 관리 및 예 방에 활용할 필요성이 있다.
‘6. 내 자신이 실패자로 여겨지거나 자신과 가족을 실 망시켰다고 느낀다’의 6번 항목은 65세 미만 남자 성인 의 우울증 예방 관점에서 볼 때 중요하게 고려해야할 인 자이다. 6번 항목과 관련된 자기 비판(self-criticism)은 앞 선 여러 연구들에 의해 밝혀진 우울증과 연관성이 높은 인자이다[11, 15, 41, 42, 45]. Mongrain and Leather[42]의 연구에 따르면, 자기 비판이 높은 사람들은 우울증에 취 약하다고 밝혀졌으며, Rector et al.[43]의 연구에서 자기 비판의 감소 정도가 우울 증상 감소 치료 결과의 가장 좋은 예측 인자라고 밝힌 바 있다. Blatt et al.[11]은 성인 대학생을 대상으로 한 연구에서 자기 비판이 우울증의 주요 차원 중 하나라고 설명하였으며, McIntyre et al.[41] 에 의하면 자기 비판과 우울증은 매우 강한 연관성을 가 지며, 자기 비판 수준과 우울증의 증가도 사이에 관련성 역시 연구를 통해 입증되었다. 65세 미만 남자 성인의 경우, 자기 비판은 도출된 규칙에서 최빈 출현 값을 가지 며 불면증, 자살 충동, 피로 등의 여러 인자와 결합하여 규칙을 형성한다. 따라서 자기 비판을 중심으로한 주변 요인들에 대한 추가적 고려가 이루어질 때 더욱 효과적 인 성인 남성의 우울증 예방 및 치료가 가능할 것으로 보인다.
여성 노년층의 경우 불면증과 함께 다른 인자들을 동 시에 고려하여 우울증을 예방할 필요가 있다. 우울증이 남성에 비해 여성에게서 더욱 만연하며, 그 중에서도 노 년층이 우울증에 취약하다는 것은 이미 여러 연구들에 의해 널리 알려져 있다[1, 22, 58]. 그 중에서 불면증은 노년층 여성에게서 우울증과 연관성이 깊은 인자로 선행 연구에 의해 밝혀진 바 있다[14, 38, 48]. 연구의 결과에 서도 불면증은 도출된 규칙들에서 가장 많이 등장한 변 수 중 하나로서, 우리는 65세 여성 그룹을 둘로 나누어 불면증과 우울증 간의 연관성을 검증하고자 했다. 그 결 과 우울군이 비우울군에 비해 높은 불면증 유병률을 나 타냄으로써 불면증이 여성 노인 우울증 발현의 주효한 변수임을 확인할 수 있었다.
한편 우울증과 연관성이 있는 주요 변수를 찾는 것뿐만 아니라 변수들이 어떤 조건에 따라 조합되는지를 면밀히 검토해야할 필요성이 있다. 예를 들어 65세 미만 남성 그 룹에서 도출된 규칙을 보면, 2번째와 10번째 규칙에서 3 번, 6번의 동일한 항목들이 등장한다. 그러나 두 규칙의 frequency와 error가 모두 상이하다는 점에서, 동일 변수가 등장하더라도 변수와 결합하는 값의 조건에 따라 규칙의 분류 성능이 달라짐을 알 수 있다. 또 다른 예시는 65세 이상 여성 그룹에서 확인할 수 있는데, 그룹 내의 2번째와 4번째 규칙에서 확인할 수 있는 유일한 차이점은 4번째 규칙에 6번 항목에 관한 조건이 추가되었다는 점이다. 나 머지 조건은 동일한 상황에서 ‘variable-value’쌍이 하나 추 가됨으로써, error는 7.1%에서 6.3%로 감소함을 확인할 수 있다. 이는 보다 정확한 우울증의 판별이 가능함을 의미한 다. 따라서 보다 정확하게 우울증을 예측하고 우울증의 발 현 양상을 파악하기 위해서는 변수의 도출에서 그치는 것 이 아니라, 변수가 가지는 값의 조건을 동시에 파악하는 과정이 필요하다는 것을 알 수 있다.
본 연구에서 도출한 규칙에 등장한 유의한 몇 가지 PHQ-9 항목만으로도 기존의 9가지 항목들의 점수 합을 사용해 우울증을 판별하는 방식과 동일한 분류 성능을 기대할 수 있다. ‘우울증 현재 유병 여부’ 변수를 포함한 65세 미만 여성 267명을 대상으로 실시한 기존 방식과의 AUC 비교 분석에서 RRF을 이용한 본 연구 방식의 성능 이 PHQ-9 9가지 항목의 단순 점수합을 사용하는 기존 방식에 준하는 것으로 나타났다. 전자의 경우 AUC 값이 0.7402(95% CI 0.6813-0.8035), 후자의 경우 그 값이 0.7824(95% CI 0.7275-0.8372)이며, 두 ROC curve가 완 벽히 중첩되는지를 식별하는 비교 실험에서 동일하다는 결과가 나왔다. 즉, 우울증 및 비우울증으로 귀결되는 규 칙에 등장하는 최소 하나에서 최대 5가지 항목만으로도 기존의 방식에 준하는 우울증의 판별(screening)이 가능 함을 보인 것이다. 이러한 결과는 최근 들어 활발히 연구 되고 있는 건강서비스 관련 분야인 라이프로그 측면에서 바라볼 때 더욱 의미를 가진다. 라이프로그는 다양한 센 서를 이용한 데이터의 실시간 수집을 통해 이루어지지 만, 수집되는 데이터의 양이 많고 종류 역시 다양하기 때 문에 복잡한 라이프로그에 대한 효율적 검색과 규칙 도 출에 대한 이슈가 존재한다[17]. 이러한 측면에서 9개의 항목을 모두 사용하는 기존의 우울증 판별 방식에 비해 더 적은 몇 가지 항목만으로도 동일한 성능을 기대해볼 수 있다는 장점을 통해 연구의 의의를 찾을 수 있다.
5. 결 론
본 연구에서는 국민건강영양조사 자료의 11,679개 인 스턴스에 대해 랜덤 포레스트 모델을 수립하여 성별, 나 이별로 구분된 그룹별 우울증 설명 변수와 우울증 발현 양상을 밝히고 그룹 간 차이를 파악하고자 하였다.
4개 집단에서 각기 다른 PHQ-9 항목들의 조합과 우울 증 유무가 규칙으로 드러났다. 일반 성인의 경우는 우울 증 유발 변수들보다 비우울증으로 귀결되는 규칙들이 뚜 렷하게 나타났기 때문에 비우울증, 즉 정상 상태를 계속 해서 유지하여 우울증을 예방하는 관리 방법이 더욱 효 율적이라고 말할 수 있다. 이렇듯 우울증과 비우울증으 로 귀결된 규칙의 수와 구성 항목들이 그룹별로 상이하 기 때문에, 그룹의 우울증 발현 양상에 따라 우울증으로 귀결되는 규칙들이 많으면 치료적 관점에서, 비우울증으 로 귀결되는 규칙들이 많으면 예방적 관점에서 접근해야 효율적이다.
본 연구는 의학과 공학의 융합연구로서, 우울증주요 인자 도출에 집중했던 기존 사회과학적 연구의 한계를 넘어서서 예측에 집중했던 데이터마이닝 및 머신러닝 기 법의 적용 범위를 확장했다는 점에서 의의를 가진다. 이 러한 융합적 연구는 딥러닝 분야의 발전에 따라 가속화 될 것이며, 모형의 예측력 및 설명력 향상을 통해 질병의 메커니즘 규명에 크게 기여할 것으로 기대된다.