1. 서 론
1.1 연구의 배경 및 목적
한국의 출산율은 전 세계에서 가장 낮은 수준으로, 홍콩을 제외하면 세계 주권국가 중 출산율이 가장 낮다. 2018년 합계출산율이 세계 최초 1명 이하로 하락했으며 2021년 기준 OECD 내에서 출산율이 1 이하인 국가로서 유일하다. 특히 2022년 한국 역사상 최저 수준의 합계출산율 0.78명이 발표되며 가속화되는 저출산 속도에 대한 우려가 높아지고 있다[19].
출산율의 급격한 감소는 노동 인구 감소로 인한 생산성 저하 및 고령화로 인한 사회적 지출을 증가시킬 수 있다는 점에서 국가 재정에 치명적이다. 2023년 이후 징병 가능 청년 남성이 20만 명대로 급감하는 등 국가 안보에 위협을 초래할 위험도 존재한다[14]. 저출산이 지속되어 인구가 통계청의 중위인구추계대로 실현될 경우, 예상보다 GDP는 2.2~5.5% 하락할 것이며 GDP 대비 국가채무비율은 출산율 1.1명인 경우 5.4%p, 1.05명인 경우 7.8%p 높아질 것이라는 예측이 존재한다[15]. 고령화로 인해 인구의 자연감소가 진행되고 있고, 학령인구 및 노동인구가 감소하는 상황은 국가경쟁력 및 국가 존립에 심각한 위협이 될 수 있다.
합계출산율은 각 지역별로 편차가 존재한다. 2022년 기준 세종특별자치시는 1.12명으로 전국 합계출산율을 50% 가까이 상회하는 출산율을 기록한 반면, 서울은 0.59명, 부산과 인천은 각각 0.72명과 0.75명을 기록해 전국 합계출산율보다 상당히 낮은 수치를 보였다[19]. 지역별 최고치와 최저치의 차이가 2배에 가까우며, 이는 각 지역별 경제, 문화, 교육수준 등과 밀접하게 연관될 수 있을 것이다.
한국은 1998년 이후 저출산 고령화 대책을 수립하며 출산비 지원, 출산장려금 지원, 자녀 양육비 지원 등 정부 차원에서 지속적인 지원을 하고 있다. 각 지방자치단체 내 에서도 결혼 전 단계, 결혼 단계, 임신 전 단계, 임신 단계, 출산, 육아, 가족 등의 출산 관련 각 생애 단계에 걸쳐 보육시설 확충, 보건시스템 확충 및 지원금 제공 등 출산지 원정책을 실시하고 있다. 이 과정에서 지역자치단체별로 상이한 정책을 시행하고 있다는 점에서도 지역별 출산율의 요인 분석이 필요하다.
따라서 본 연구에서는 지역별 출산율 차이 개선을 위한 정책적 대응 방안 모색의 필요성이 대두됨에 따라 지역별 출산율 차이에 기인하는 주요 요인을 분석하고 정책적 시사점을 도출하고자 한다.
2. 선행연구
2.1 선행연구 고찰
출산율에 영향을 미치는 요인을 분석하고자 하는 논의는 출산율을 사회적, 경제적, 정책적인 요인으로 분해하는 관점에서 지속되어 왔다. 경제적인 관점에서는 교육비로 나타나는 소득불평등이 심화될수록 저출산이 심화되는 것으로 알려져 있다[8]. 출산장려정책은 유배우 출산율에는 유의하게 긍정적인 영향을 미쳤다는 연구 결과도 존재한다[13]. 사회·경제적 요인과 정책적 요인을 종합적으로 고려하여 저출산의 요인을 분석하고자 하는 연구 또한 지속되어 왔는데, 일반적으로 패널데이터의 다중회귀분석을 통해 분석이 수행되었다. 남성고용률은 출산율과 정(+)의 상관관계가 있으나 여성고용률은 출산율에 부(-)의 영향 이 있고[6], 연령과 학력은 99% 신뢰 구간에서 출산율에 영향을 미치는 것으로 나타났다[11]. 기초자치단체 단위에서는 사회문화적 요인은 출산율에 큰 영향을 미치나 경제적 요인의 영향은 크지 않음도 확인되었다[16].
지역 단위의 패널데이터를 기준으로 저출산의 요인을 분석하고자 하는 여러 선행연구가 존재하나 대다수가 변수 들이 선형결합 되어 있는 다중회귀 모형을 사용하여 모수 추정치를 통해 변수 별 중요 요인을 분석하는 접근을 시도 한다. 그러나 현실 세계의 복잡성은 선형 모형으로 파악이 어려우며 따라서 선행 연구들의 단순 다중회귀 모형 기반의 요인 분석에는 한계점이 존재한다. 기계 학습 기반의 알고 리즘은 입력과 출력 사이의 비선형적 특성을 반영한다는 점에서 다중회귀의 한계를 극복할 수 있다[12]. 따라서 본 연구에서는 선행 연구에서 주로 사용했던 변수들에 대하여, 다중회귀모형 이외에도 기계 학습 알고리즘을 활용해 출산율의 요인을 분석하고자 한다.
2.2 연구 방향성 탐색
기계 학습에 기반한 방법론에도 한계가 존재한다. 먼저 기계 학습을 통해 문제 상황에 대한 결론을 인간과 유사하게 혹은 목적을 달성할 수 있도록 도출할 수는 있으나 무엇을 근거로 해당 결과가 나왔는지 알 수 없는 블랙박스 문제가 있다. 또한 인공지능이 고도로 발전하며 복잡·정교 해지며 그 성능은 훨씬 우수해졌으나 결론에 대한 설명가 능성이 낮아진다는 대립 문제가 있다.
본 연구에서는 설명 가능한 인공지능을 활용해 저출산의 요인을 분석하고자 한다. 설명 가능한 인공지능이란 인공지능의 행위와 판단을 사람이 이해할 수 있는 형태로 설명할 수 있는 인공지능 기술이다. 선행 연구에서 사용한 선형회귀 모형에 비해 기계 학습 알고리즘의 예측 성능을 높게 유지하는 동시에, 기계 학습 알고리즘의 한계인 블랙박스와 대립 문제를 해소할 수 있다.
따라서 본 연구에서는 선형 회귀 기반으로 진행된 선행 연구의 한계를 극복하고 비선형적 관계의 예측율을 높이기 위해 기계 학습 알고리즘을 활용할 것이다. 이를 통해 연도 별 전국 합계 출산율 대비 지역(광역자치단체)의 합계 출산율 영향 요인을 분석하고 정책적 제언을 진행할 것이다.
3. 연구 설계
3.1 데이터 설정
본 연구에서 수립하고자 하는 기계학습 모형은 지역별 출산율 차이에 기인하는 요인을 분석하기 위함이다. 따라서, 예측하고자 하는 종속변수를 해당연도의 지역출산율/ 전국합계출산율로 설정하였다. 저출산 관련 영향 요인분석은 기존 사회과학 분야에서 이미 다루어지던 주제이다. 이에 사회과학 분야의 선행 연구들을 참고하여 사교육비, 여성 첫 출산 평균연령, 주택매매가격변동률, 고령인구비율, 주택전세가격변동률, 범죄발생건수, 실업률, 평균초혼 연령, 비정규직근로자비율, 여성 경제활동참가율, 국공립 보육시설이용률, 1인당 지역내총생산, 사립 보육시설 이용률, 지가변동률, 유아 천 명당 보육시설수의 총 15개의 데이터를 출산율을 설명하기 위한 독립변수로 선정하였다 [5, 6, 20].
데이터는 모두 수치형 변수로 국가통계포털(KOSIS) 및 광역자치단체에서 연도별로 제공하고 있는 정형데이터이다. 본 연구팀은 시차를 고려하여 서울특별시와 6 광역시 (광주, 대구, 대전, 부산, 울산, 인천), 6도(경기도, 충청북 도, 충청남도, 전라남도, 경상북도, 경상남도), 3특별자치 도(강원, 전북, 제주), 세종특별자치시 별로 출산율(2010년 ~ 2022년)과 독립변수(2009년~ 2021년)의 공개된 데이터를 수집하여 연구에 활용하였다.
또한 해당 연도의 출산율을 예측하고 분석하는데 있어 자녀계획, 임신, 출산 기간의 고려 또한 필요하다[9]. 따라 서 출산에 영향을 미치는 지표들의 시차적 영향을 고려할 때 종속변수와 독립변수 간 시차를 1년을 두고 분석을 수행하였다.
3.2 텍스트 마이닝을 통한 파생변수 생성
사회과학 논문에서 다룬 변수 뿐만 아니라, 지역/연도 별에 정부의 저출산 정책과 그에 대한 대중인식을 비교하여 근본적인 차이점을 밝힌 선행연구[1]를 기반으로 간단한 텍스트 마이닝을 진행하여 문자형 데이터에 기반한 파생변수 2종을 다음과 같이 생성하였다. 먼저 뉴스 및 커뮤니티 내 출산 단어를 Selenium을 이용해 크롤링하였다, 뉴스의 경우에는 ‘광역자치단체 이름’ + ‘출산’의 어구가 포함된 기사를 크롤링하였다. 커뮤니티의 경우에는 ‘맘스홀 릭베이비’ 에서 ‘출산’을 포함하는 글을 크롤링하였다. 대상 년도는 독립 변수의 수집 기간을 고려하여 2009년부터 2021년까지로서 기간을 선정하였다. 이때 뉴스의 경우에는 상대적으로 많았기에 숫자를 1,000개로서 한정하였다. 이후 HTML 태그 및 특수문자들, 불용어 등을 제거하였으며, okt 형태소 분석기[17]를 통해 제목과 본문의 명사형태소만 추출하였다.
명사형태소를 바탕으로 한국어 범용 감성사전[18]에 의거하여 감성분석을 수행하였다. 즉 기사 및 커뮤니티 글 별로 전체 명사 수 대비 부정 명사 수 비율을 계산하여 이를 각각 뉴스 감성 인덱스, 커뮤니티 감성 인덱스라는 명칭의 파생변수를 생성하였다. 따라서 모형 학습에 사용되는 독립변수는 15개의 수치형 데이터와 2개의 파생변수들을 더해 총 17개이다.
이를, 당해연도 지역 출산율을 전국 합계출산율로 나눈 값을 종속변수로 설정하여, 지역별 출산율 차이에 어떤 요인이 중요하게 개입하는지에 대한 논의를 설명가능한 인공지능을 통해 수행하였다.
4. 모형 및 학습 성능 비교
4.1 기계 학습 방법론
본 연구에서는 다중선형회귀, Random Forest, XGBoost, Support Vector Regression (SVR)을 사용하여 분석을 수행 하였다.
다중선형회귀 모형은 독립변수의 변화에 따른 종속변수의 변화를 독립변수의 선형 조합으로서 관계를 모형화 한다. 기본 형태는 다음과 같이 표현된다.
이 때 Y 는 종속 변수, 는 독립변수, β0 는 절편, 는 각 독립 변수의 회귀계수이며, ∈ 는 오차항으로, 모형이 데이터를 완벽하게 설명하지 못하는 부분을 나타낸다. 회귀 계수는 주로 최소제곱법을 활용하여 추정되며, 실제 관측값과 모형 예측값 사이의 차이 (잔차)의 제곱합, 즉 SSE를 최소화하는 계수값을 찾아나 간다. 수학적으로는, SSE를 각 β에 대해 미분하고, 그 결과를 0으로 설정하여 해를 구함으로써 이루어진다.
Random Forest[3]는 앙상블 학습 방법으로, 다수의 결정 트리로부터 분류 혹은 평균 예측치를 출력함으로써 동작 한다. 각각의 결정 트리가 서로 독립적으로 학습되기 때문에 과적합(Overfitting)을 줄이고 높은 일반화 성능을 달성 할 수 있다는 것이 특징이다. 또한, 원본 데이터셋에서 중복을 허용하여 랜덤하게 샘플을 추출하는 부트스트랩 샘플링을 통해 각 결정 트리는 서로 다른 데이터를 기반으로 학습하게 되어 다양성을 증가시킨다. 훈련 단계에서 개별 결정 트리의 각 노드는 입력되는 데이터를 최적으로 분리하기 위해 정보 획득량(Information gain)을 기준으로 사용 한다. 정보 획득량은 다음과 같이 정의된다.
여기서, S 는 한 노드에 입력되는 데이터 집합을, Si 는 이 노드의 i∈{L, R} 즉 왼쪽 혹은 오른쪽 방향 자식 노드로 들어가는 데이터 집합을, 그리고 |∙|와 H (S) 는 각각 데이터 집합에 속한 데이터 개수와 섀넌 엔트로피를 계산한다. Random Forest의 각 결정 트리에서는 위 수식을 바탕으로 각 노드에서의 정보 이득을 계산하고, 이를 최대화하는 분할 기준을 선택하는 방식으로 학습을 진행한다.
XGBoost[4]는 여러 약한 분류/회귀나무(Classification and Regression Tree, CART)를 조합하여 오차를 최소화하는 부스팅 기반의 결정나무 앙상블 알고리즘이다. XGBooost는 Training loss를 최소화함과 동시에 과적합을 방지하기 위해 나무의 복잡도를 통제하는 방식으로 최적화를 진행하며 목적함수는 다음과 같다.
이 때 는 데이터 xi 의 예측값, K는 사용된 CART 의 개수, Ω(fk)는 CART 모형 과적합을 규제하는 정규화 함수, f는 CART 모형, l은 training loss를 의미한다. 각 나무의 가지를 추가적으로 생성할 때, 새롭게 획득하는 정보의 양의 많아지면 계속해서 나무는 자라나게 된다. XGBoost 알고리즘은, 최적화 과정에서 각 변수의 정보 기여도, 전체 나무에서 해당 변수가 각 CART 모형을 추가적으로 분기하기 위해 등장한 빈도, 분기 기준, 그리고 분기로 인해 얻은 정보량 등에 대한 값 또한 확인할 수 있다.
Support Vector Machine(SVM)[2]은 기계 학습에서 널리 사용되는 분류 및 회귀 알고리즘 중 하나이다. 서포트 벡터(Support Vector)는 두 클래스를 구분하는 결정 경계에 가장 가까이 있는 데이터 포인트들을 의미하며, 마진 (Margin)은 결정 경계와 서포트 벡터의 거리를 의미한다. SVM의 기본 아이디어는 고차원 공간에서 데이터 포인트 간의 최적 경계를 찾는 것이다. 이 때, 서로 다른 클래스의 데이터 포인트 사이에서 최대한 많은 마진을 갖도록 결정 경계를 설정하는 것이 목표이다. SVM은 선형 분류와 비선형 분류를 모두 수행할 수 있으며, 비선형 문제에 대해 서는 커널 기법(kernel trick)을 사용하여 고차원 특성 공간에서 선형 분리 가능한 문제로 변환하여 해결한다.
SVR은 SVM을 회귀 문제에 적용한 방법이다. SVR의 목표는 주어진 데이터 포인트와 해당 타겟 값 사이에 설정한 마진 내에 최대한 많은 데이터 포인트를 포함시키는 것이다. SVR은 다음과 같은 수식으로 표현될 수 있다.
여기서, yi와 xi는 각각 i번째 데이터 포인트의 실제 타겟 값과 입력 특성 벡터이며, w와 b는 각각 가중치벡터와 편향 값, 그리고 ∈i는 마진 오차이다. SVR은 주어진 데이터 셋에서 마진 오차를 최소화 하는 것을 목표로 한다. 이를 위해 다음과 같은 목적함수를 최소화 한다.
여기서 ||w||2는 가중치 벡터의 제곱합으로 모형의 복잡도를 제어하며, C 는 마진 오차에 대한 페널티를 조절하는 파라미터이며 ϵi와 는 각각 양의 마진 오차와 음의 마진 오차를 나타낸다. 이 목적 함수를 최소화하는 과정에서, SVR는 마진 오차를 최소화하면서 결정 경계 주변에 있는 데이터 포인트들과의 거리를 최대화하도록 학습된다. 따라서 SVR은 회귀 문제를 해결하기 위해 데이터 포인트들 과의 거리를 고려하여 결정 경계를 학습하고, 새로운 입력에 대해 타겟 값을 예측한다.
4.2 모형 학습 성능
모형 학습 과정에서는 Cross-validation 진행을 통해 평균 Mean Absolute Percentage Error(MAPE) 값을 산출했다. Cross-validation 과정에서는 Training set과 Test set의 비율을 8:2로 하였고 fold는 5로 설정했다. 이후 fold들의 평균 MAPE 값을 기준으로 최적 parameter를 탐색하였다. 각 모형 별 성능과 최적 parameter는 <Table 1>에서 확인할 수 있다. 먼저 지역별 출산율 차이를 분석하는 모형 중 Radial Basis Function(RBF) Kernel을 사용한 SVR 이 3.537%의 오차를 보여 가장 좋은 성능을 보였으나 3.555%의 오차를 보인 XGBoost와의 차이는 상대적으로 미미했다. 반면 상기 두 모형 대비 Random Forest는 3.806%의 오차를 보여 상대적으로 성능이 떨어짐을 확인할 수 있었다. 마지막으로 다중선형회귀 모형은 35.648%의 오차를 보여 기계학습 모형 대비 성능이 크게 떨어짐을 확인할 수 있다.
5. 설명 가능한 인공지능 기반 요인 분석
5.1 Shapley Additive exPlanations
설명 가능한 인공지능(eXplainable AI, XAI)이란 인공지능의 행위와 판단을 사람이 이해 할 수 있는 형태로 설명 할 수 있는 인공지능 기술을 의미한다[10]. 이는 기계 학습 모형의 예측 결과에 미치는 주요 요인들을 찾아내며, 예측 결과에 대해 직관적인 설명을 가능하게 한다[7].
설명 가능한 인공지능 기법 중 하나인 Shapley Additive exPlanations(SHAP)은 게임 이론에서 파생된 개념인 SHAP 값(Shapley Value)을 활용하여 기계학습 모형의 예측 결과를 설명하는 방법을 제공한다. SHAP 값은 하나의 변수에 대한 중요도를 알기 위해 여러 변수들의 조합을 구성한 후 해당 변수의 유무에 따른 평균적인 변화를 통해 얻어낸 값이다. 이를 통해 SHAP은 각 특성이 예측에 얼마나 중요한지를 계산하여 모형의 결과를 설명하는 데 도움을 주며, 특정 변수의 SHAP 값 ϕi는 다음과 같이 구해진다[4].
여기서 F 는 전체 변수의 집합이며, 변수 i를 제외한 S ⊆ F \{i}의 모든 부분집합에 대해서, i를 추가했을 때와 제외했을 때의 결과값의 변화량을 가중평균 한다. SHAP은 변수 중요도를 추정하는 다른 방법들과 달리 특성 간의 상호작용을 고려할 수 있어 보다 정확하고 해석 가능한 결과를 제공한다. 또한, SHAP은 다양한 기계 학습 모형에 독립적으로 적용될 수 있다.
5.2 종합 요인 분석
<Figure 1>은 전체 기간 및 지역에 대한 각 독립 변수 별 모형 영향도를 종합적으로 요약하여 보여주는 SHAP의 Summary Plot이다. SHAP Summary Plot은 기계학습 모델에서 각 변수 중요도를 시각화 할 수 있으며, 특정 변수가 모델 예측 값에 양의 영향을 미치는지 음의 영향을 미치는지를 직관적으로 파악할 수 있다. 상단을 가장 영향력이 큰 요인으로 하여 하단으로 내려갈수록 영향력이 상대적 으로 작은 요인이 나열된다. 상세하게는 붉은색 점은 해당하는 변수의 값이 크다는 것을 의미하며, 반대로 파란색 점은 해당하는 변수의 값이 작다는 것을 의미한다. 또한, SHAP 값이 양수(우측)이면 해당 독립변수는 모형의 예측 값을 증가시키는 방향으로 영향을 미쳤다는 것을 의미하며, 음수(좌측)이면 해당 독립변수는 모형의 예측 값을 감 소시키는 방향으로 영향을 미쳤음을 의미한다. 예를 들어, 다중선형회귀와 SVR에서 가장 큰 영향력을 보이는 평균 초혼연령(Average Age of First Marriage)의 붉은색 점의 분포를 살펴보면 평균 초혼연령이 높을수록 지역별 출산율 (전체 평균과의) 차이의 예측 값을 감소시키는 방향으로 영향을 미친 것으로 해석할 수 있다. 또한, Random Forest와 XGBoost에서 모두 두 번째로 큰 영향력을 보이는 1인당 지역 국내 총생산(Regional Gross Domestic Product per Capita)의 파란색 점의 분포를 살펴보면 변수의 값이 작을수록 지역별 출산율 차이의 예측 값을 감소시키는 방향으로 영향을 미쳤음을 알 수 있다.
<Figure 1>의 모형 별 결과를 주요 요인 별로 상세히 살펴보자. 먼저 실업률(Unemployment Rate)은 모든 모형에서 가장 높은 수준의 영향력을 보인다. 특히 Tree 계열인 Random Forest와 XGBoost에서는 타 요인 대비 매우 넓은 스펙트럼의 SHAP value를 보여 압도적인영향력이 관측된다. 반면 평균 초혼연령(Average Age of First Marriage)의 경우, 다중선형회귀와 SVR에서는 가장 큰 영 향력을 가지나 Tree 계열 모형에서는 중위권 정도의 영향력을 보인다. 흥미로운 점은 출산에 대한 대중인식을 대변하는 뉴스(News Index) 및 커뮤니티 여론(Community Index)의 경우, 다중선형회귀에서 커뮤니티 지수가 4번째 영향력을 보임을 제외하면 영향력이 모두 중하위권으로 나타났다. 이를 통해 실제 삶과 직접적으로 연관된 요인 이 뉴스나 커뮤니티의 여론보다 출산율에 영향을 크게 미침을 유추해볼 수 있다. 또한 동일한 Tree 계열인 XGBoost 와 Random Forest의 영향도 순위는 매우 유사하나, 다중선 형회귀와는 큰 차이가 존재하며 SVR은 Tree 계열과 다중 선형 회귀의 중간 지점에서 상호 보완적으로 영향도 순위가 도출됨을 알 수 있다.
각 요인 별 종합 영향도 순위를 알아보기 위해 각 모형 별 영향도 순위를 가중 평균하여 <Table 2>에 정리하였다. 가중 평균은 모형 성능에 비례할 수 있도록 MAPE를 기준으로 하는 소프트 보팅(Soft-voting) 방식을 채택하였다. 가장 성능이 나쁜 다중선형회귀의 35.648를 기준으로 각 모형 i의 정규화 된 가중치()는 가중치(wi )를 바탕으로 다 음과 같이 계산되었다.
식 (9)를 사용하여 구한 각 요인 별 가중 순위(Weighted Ranking)를 <Table 2>에서 확인할 수 있다. 먼저 영향력 상위 6개를 <Figure 1>과 함께 살펴보자. 먼저 출산율 격차에 가장 큰 영향력을 보인 요인은 실업률이다. 2위인 1인당 지역 국내 총생산은 가계경제 차원에서 실업률과 유사한 의미를 지니며 총생산이 높을수록(낮을수록) 출산율은 높게(낮게) 나타났다. 3위와 4위는 각각 여성 경제 활동 참가율과 범죄 발생 건수이다. 여성의 경제 활동 수준이 낮은(높은) 지역은 출산율이 낮은(높은) 반면 범죄 발생 건 수가 낮은(높은) 지역은 출산율이 높게(낮게) 나타났다. 5 위의 평균 초혼 연령은 낮을수록 출산율이 높게 나타났으나 Tree 계열 모형에서는 유의미한 차이를 확인하기 어려웠다. 6위의 사교육비(Private Education Expenses)는 비용이 높은 지역의 출산율이 낮은 사실이 <Figure 1>에서 확인되나 비용이 낮은 지역에서 유의미하게 높은 출산율이 관측되지는 않았다. 다음으로 영향력 하위 3개를 살펴보자. 가장 영향력이 적은 요인은 주택 매매가 변동률 (Changes in House Sales Price)로 확인됐다. 모든 모형에서 붉은색과 파란색 점이 나뉘어지지 않고 혼재되어 출산율 차이에 대한 설명력이 매우 부족한 것을 확인할 수 있다. 두 번째로 영향력이 작은 요인은 주택전세 가격변동률 (Changes in the Price of Housing Lease on a Deposit Basis)으로 주택 매매가 변동률과 동일한 결과를 보였다. 마지막으로 세 번째로 영향력이 작은 요인은 커뮤니티 지수였다. 다중선형회귀를 제외하면 출산율에 대한 영향력의 방향성을 가늠하는 데 유의한 결과를 확인할 수 없다. 반면 뉴스 인덱스는 영향력 순위는 상대적으로 낮으나 모든 모형에서 붉은색과 푸른색 점이 구분이 가능할 정도로 나뉘는 모습을 확인할 수 있다. 이는 크기 자체는 작으나 출산율의 방향성에는 영향을 미치고 있음을 의미한다. 텍스트 마이닝 기반 지수가 모두 공포 지수임을 감안할 때, 뉴스 지수의 경우 수치가 높은 지역의 출산율이 낮은 것을 확인할 수 있다.
5.3 지역별 요인 분석
가장 높은 성능의 모형적합 결과와 함께 Tree 계열과 다중선형회귀의 영향력 결과가 적절히 배합된 SVR을 기준으로 하여 지역별 요인을 분석한다. 대상 지역은 2022년 출산율이 가장 높은 세종특별자치시와 전라남도 그리고 가장 낮은 서울특별시와 부산광역시로 선정하였다. 지역별 요인 분석은 SHAP Force Plot을 활용하였으며 결과는 <Figure 2>와 같다. 붉은 색 화살표는 해당 지역에서 출산율을 올리는데 기여한 2021년 요인(1년의 시차 존재)이며, 반대로 파란색은 출산율을 저하시키는데 기여한 요인이다.
먼저 세종특별자치시를 살펴보자. 세종시는 2022년 기준 전국에서 가장 높은 출산율(1.436명)을 기록했다. 이는 가장 낮은 지역인 서울(0.756명) 대비 2배의 수치이다. 세종시의 높은 출산율에 가장 크게 기여한 요인 상위 2개는 범죄 발생 건수, 비정규직 근로자 비율이다. 세종시의 범죄 발생 건수는 16건으로 전국 최고를 기록한 부산의 30건 대비 절반의 수치를 보인다. 세종시의 비정규직 근로자 비율 또한 26.7%로 전국에서 가장 높은 47.5%를 기록한 강원도 대비 약 절반의 수준을 기록하고 있다. 특히 범죄 발생 건수와 비정규직 근로자 비율은 가중 순위 기준 각각 4위와 1위에 해당하는 주요 요인으로 세종시의 높은 출산율은 두 요인이 주요했음을 알 수 있다.
다음으로 전라남도를 살펴보자. 전라남도는 2022년 기준 전국에서 두 번째로 높은 출산율(1.244명)을 기록했다. 전라남도의 출산율에 가장 크게 기여한 요인을 살펴보면 세종특별자치시와는 상이한 특징을 보임을 확인할 수 있다. 가장 크게 기여한 요인은 고령인구 비율(Elderly People’s Ratio)이다. 2021년 전라남도의 고령인구 비율은 24.3%로 전국에서 가장 높은 수치이다. 고령화 지역의 출산율이 높은 것은 사회적 통념과 맞지 않으나, 실제 세종 시를 제외하면 고령인구 비율이 높은 지역의 출산율이 낮은 지역 대비 높은 것을 확인할 수 있다. 이는 지역 단위가 광역시도 단위로 이루어져 고령인구 비율이 낮은 곳은 대도시를 의미하고 높은 곳은 지방을 의미하는 데서 기인한다. 두 번째로 크게 기여한 요인은 여성 경제활동 참가율이다. 전라남도의 경제활동 참가율은 57.5%로 제주도 (63.8%)에 이어 전국 2위를 기록하고 있다. 여성 경제활동 참가율은 가중 순위 중 3위에 해당하는 주요 요인인 점이 크게 작용했을 것으로 판단된다.
이제 가장 낮은 출산율을 기록한 두 지역을 저하에 기여한 요인을 중점으로 살펴보자. 먼저 2022년 가장 낮은 출산율 지역은 서울특별시로 0.756명을 기록했는데 이는 두 번째로 낮은 부산의 0.923명과도 큰 괴리가 존재하는 수치이다. 서울특별시의 출산율을 저해하는데 가장 크게 기여한 두 요인은 사교육비와 여성 첫 출산 평균연령 (Average Age of a Woman's First Childbirth)이다. 서울의 사교육비 수치는 52.9로 전국에서 가장 낮으면서 두 번째 로 출생률이 높은 전라남도의 사교육비 수치 23.3 대비 두 배가 넘는 것으로 나타났다. 여성 첫 출산 평균연령 또한 34.2세로 전국에서 가장 낮은 충청남도의 32.6세 대비 1.6 세 이상 높은 것으로 파악됐다. 사교육비는 가중 순위 6위에 해당하는 주요 요인으로 출산율 저하에 크게 기여했음을 이해할 수 있으나, 여성 첫 출산 평균연령은 11위로 상대적으로 낮은 영향도를 가지는 요인임을 감안하면 타 지역 대비 서울특별시에서 더 크게 문제되는 요인으로 해석 할 수 있다.
마지막으로 두 번째로 낮은 출산율을 기록한 부산에서 가장 주요한 요인은 평균 초혼 연령과 사교육비이다. 부산의 평균 초혼 연령은 31.3세로 34.21세로 가장 높은 평균 초혼 연령을 보이는 서울 다음으로 2위를 기록하고 있다. 평균 초혼 연령은 가중 순위 기준 5위에 해당하는 주요 요인이다. 사교육비 수치 또한 36.9로 전국 최고 수준인 서울의 52.9보다는 현저히 낮으나 여전히 두 번째로 높은 수치를 보였다.
6. 결 론
본 연구는 기존 사회과학 문헌에서 제시하는 출산율 저하 요인을 정리하여 이를 바탕으로 기계 학습을 활용하여 최근 심각하게 대두되는 대한민국의 저출산과 관련하여 지역 간 차이를 야기하는 요인을 분석하는데 목적이 있다. 이를 위해 본 연구는 기존 선행 연구와 다르게 "전국 합계 출산율"이 아닌 "전국 평균 합계 출산율 대비 지역별 합계 출산율"을 종속 변수로 설정하였다. 본 연구에 사용된 독립 변수(출산율 영향 요인)는 총 17개로 과거 문헌으로부 터 정리 된 15개와 뉴스 및 출산 커뮤니티의 감정분석을 통해 도출 된 공포 지수 2개를 활용하였다.
전국 평균 합계 출산율 대비 지역 별 합계 출산율과 17 개의 요인 간 관계를 분석하기 위해 다중선형회귀, XGBoost, Random Forest, SVR 총 4개의 기계 학습 모형을 활용하였다. 연구 결과 SVR이 가장 좋은 적합 성능을 보였으며 XGBoost 또한 SVR에 근접하는 성능을 보였다. 반면 다중선형회귀는 타 모형 대비 오차가 매우 큼이 확인되 었다. 이를 통해 변수 간 비선형적 관계를 설명하고 많은 변수 분석에 활용이 용이한 기계 학습 모형 활용의 중요성을 확인할 수 있었다.
이후 모형을 바탕으로 SHAP 기반 XAI 를 활용하여 요인 분석을 수행하였다. 네 개의 모형에서 도출된 SHAP value를 모형 별 MAPE를 활용한 소프트 보팅 방식을 통해 가중 순위를 도출하였으며, 전국에 걸쳐 종합적으로 가장 높은 영향력을 보인 요인은 실업률, 1인당 지역 내 총생산, 여성 경제활동 참가율, 범죄 발생 건수, 평균 초혼 연령, 사교육비 등임을 확인하였다.
다만 종합적으로 높은 요인들이 각 지역의 출산율 결정에 동일하게 기여한 것은 아닌 것을 SHAP Force plot을 통해 확인하였다. 출산율이 가장 높은 세종특별자치시와 전라남도 그리고 출산율이 가장 낮은 서울과 부산 네 지역의 분석 결과를 종합해보면 가중 평균 순위 상의 높은 영향도를 지닌 요인들이 각 지역 별 출산율에 지대한 영향을 미치는 것은 사실임을 확인할 수 있다. 하지만 여기에 더해 각 지역 별로 출산율 제고 혹은 저하시키는 요인이 상이하므로, 모형으로부터 도출된 종합적 요인 순위만을 고려하는 것이 아닌 각 지역 별 강점/약점 분석이 반드시 요구됨을 알 수 있다. 예시로 높은 사교육비는 특별/광역시 등 대도시의 특징으로 부산과 세종시의 사교육비 수준은 거의 대동소이하다. 하지만 타 요인들에 의해 세종시는 가장 높은 출산율을 보이는 반면 부산시는 두 번째로 낮은 출산율을 보이는 점에 주목해야 할 것이다. 이는 국가 차원의 획일화 된 출산율 제고 정책이 아니라 각 지역 맞춤형 정책이 요구됨을 시사한다. 다만 본 연구에 쓰인 설명 가능한 인공지능의 경우 종속 변수와 독립 변수간 인과관계가 아닌 상관 관계를 도출하기에 해석의 유의성이 존재한다. 이는 지방 자치단체의 정책 방향에 있어 간접적인 가이드라인을 제공한다는 한계로 작용할 수 있다.
본 연구에서 쓰인 데이터는 KOSIS 내에서 추출한 것으로 특별/광역시/도 단위의 데이터만이 확보 가능하다. 추후 데이터 확보 가능 시, 시/군/구 범위로 확장하여 연구가 수행된다면 보다 적확하고 면밀한 분석 결과를 얻을 것으로 기대된다.