1. 서 론
현재 기상예측 분야에서 사용되고 있는 대부분의 미 세먼지 및 악취 예측 방법은 오염원, 지형, 풍향, 풍속 등 을 고려한 대기확산모델을 기반으로 하고 있다. 이런 부 류의 모델은 오염원 발생 지점으로부터 대기 변화를 고 려한 예측을 하고 있어, 공간적인 특성에 따른 미세먼지, 악취 등의 예측치 변화를 반영하기에는 근본적인 한계가 존재한다. 반면 최근에 기계학습을 이용한 시계열 모델 이 개발되고 있는데 이 역시 공간정보를 소홀히 다루고 있다는 점에서 비슷한 한계가 있다 할 수 있다.
다음 <Figure 1>과 <Table 1>에서 보듯 도시 지역에서 는 인접 지역이라도 대기질에 차이가 있다는 것을 확인 할 수 있다. 다음 그림은 전북혁신도시내에 설치된 대기 질 측정소를 통해 특정한 날의 오후 대기질 평균치를 표 시하고 있고 그 수치는 다음 표에 정리되어 있다. 여기서 보듯이 불과 1km 차이인 두 측정소(셀 12와 13)의 미세 먼지 PM10의 차이가 거의 두배이며 바로 인접한 셀인 12와 22의 복합악취(OU : H2S, NH3, VOS의 가중 합)의 차이는 약 19배인 것을 볼 수 있다.
이렇듯 도시지역에서는 대기질의 농도는 공간적인 특 성이 많은 영향을 끼치고 있다는 것을 알 수 있다. 따라 서 측정소가 없는 지역의 대기질 예측은 기본적으로 공 간정보를 반영해야 한다고 추측할 수 있다. 이를 기반으 로 한 미래 예측 또한 더 정확해 질 수 있을 것이다. 다 음 <Figure 2>는 그를 설명하고 있다.
본 연구에서는 기계학습 방법을 이용한 대기질의 시 계열 예측 방법과 지리적가중회귀모델(GWR)을 이용한 공간 속성 기반 예측 방법을 혼합한 앙상블 모형을 통해 새로운 대기질 예측 방법을 제시하고자 한다.
본 연구의 대상 지역은 전북 전주시와 완주군에 걸쳐있 는 전북혁신도시로서 주거지역, 산업단지, 농촌지역이 복 합적으로 분포하고 있어 새로운 예측모델을 검증하는데 적합하다고 여겨진다. 전북혁신도시를 500m×500m 단위 로 나눈 91개 셀(cell)이 그 대상이라 할 수 있으며 이 중 8개 셀에는 8개 측정소를 설치하였다. 그 설치 장소는 앞 <Figure 1>과 <Table 1>에서 확인할 수 있다. 각 측정소는 미세먼지 2종(PM2.5, PM10)과 악취의 원인 물질인 황화 수소(H2S), 암모니아(NH3), VOC를 측정할 수 있는 센서 들과 실시간 전송 가능한 통신 모듈로 구성되어 있다.
본 연구에 이용된 미세먼지 및 악취 물질 데이터는 2019년 6월부터 11월 중순까지 이 측정기에서 측정된 데 이터를 이용하였으며 전북혁신도시의 토지피복분류, 인 구수, 도로길이 등의 공간정보를 91개 셀 단위로 수집하 여 데이터화 하였다.
이 데이터를 이용해 새로운 앙상블 기반의 예측모델 을 통해 측정소가 없는 지역 셀의 대기질을 예측하였으 며 또한 미래 예측을 실시하였다. 예측모델의 성능 검증 을 위해 예측치와 실측치를 비교하여 제시하였다.
2. 기존 연구
대기질 예측을 위한 연구는 대기확산모델, 통계 모델, 기계학습 모델 등으로 분류할 수 있는데 본 연구와 유사 한 모델의 기본 연구는 통계 모델 및 기계학습 모델이라 할 수 있다.
통계모델의 장점은 모델의 편향성을 개선할 수 있다는 점과 대기확산모델, 기계학습 모델보다 빠른 연산속도를 통한 결과 도출이 가능하다는 점이다[9]. Vlachogianni et al. [13]은 아테네와 헬싱키의 NOx와 PM10의 농도 예측을 위 해 다중회귀분석모델을 평가 하였으며, Son and Kim[11]은 계량치 예측모형을 상관분석과 다중공선성 진단을 통하여 예측인자를 선택하고 중회귀모형, 문턱치 회귀모형을 통해 PM10 농도를 예측하였다. 미세먼지(PM10)의 발생 및 확산 에 영향을 미치는 요인을 의사결정나무 분석을 이용해 각 모델의 설명 변수를 다르게 하여 평균제곱오차를 감소시키 는 변수의 중요도를 측정한 연구가 있었다[6]. 또한, 인천 PM10 농도와 기상 데이터에 Kruskal-Wallis test와 Mann- Whitney U test를 적용하여 서풍, 공기 정체, 풍속 6m/s 이상, 높은 습도, 해풍이 PM10 농도 상승에 영향을 주고 있다는 것을 밝힌 연구가 있다[10]. 통계 모델의 적절한 구현은 예측 정확도 또한 대기확산모델 등 보다 좋다는 연구도 있다[5].
최근에는 기계학습을 기반으로 대기질을 예측하는 연구 가 활발히 진행되고 있다[2]. Shahraiyni and Sodoudi[9]은 도시지역 미세먼지 예측은 기존 연구에서의 다중회귀모형 에 비해 ANN이 우수한 것으로 보고하였으나, 다만 ANN 구조 중 다층신경망(Multy Layer Perceptron)이 가장 많이 사용되었으나 대기질 예측을 위한 최적의 ANN 구조는 판 정할 수 없었다고 보고했다. 대기질 예측의 기본 축인 시계 열 속성을 고려한 모델은 통계 모델에 비해 기계학습 기반 의 예측 방법이 부족한 부분이다. 이를 극복하기 위한 시계 열적 속성(계절 요인 등)을 반영할 수 있는 양방향 LSTM 모델을 개발하여 극복한 연구도 있다[8]. 일부 공간적 요인 을 반영한 기계학습 모델 기반의 대기질 예측 연구는 대기 질 오염 요인을 교통량, 화석연료 배출, 대기오염물질 등과 기상 요인을 결합한 입력 데이터를 기반으로 학습하여 예 측 모델을 구성하였다[1]. 많은 기계학습 기반의 예측 모델 을 비교하여 PM2.5 예측에는 LSTM 기반 모델이 가장 좋 은 성능을 보였다고 보고한 연구도 있다[7].
기존 연구의 대부분은 시계열 데이터 분석에 치중한 통계 및 기계학습 모델과 일부 오염원과 지형을 고려한 대기확산 모델이라 할 수 있다. 따라서 본 연구는 미세먼 지 및 악취 농도에 영향을 미치는 요인을 정량적으로 분 석하고 시계열 속성은 LSTM에 기반한 예측모델을 구성 하고, 공간적 속성은 지리적가중회귀모델(GWR)에 기반 하여 구성하며, 이 두 예측모델의 예측치를 다시 LSTM 모델의 입력으로 사용하는 Stacking 형태의 앙상블 모델 을 구현하여 최종 대기질 예측을 수행하였다.
3. 대기질 예측 방법론
본 연구의 대기질 예측모델은 <Figure 3>과 같이 시계열 예측모델과 공간속성 기반 예측모델의 두 모델을 기반으로 각각 대기질 예측치를 생성하며 이를 스택킹(Stacking) 앙 상블 모델로 학습하여 최종 대기질 예측치를 생성한다.
3.1 시계열 예측모델(Temporal Predictor)
대기질 예측을 위한 시계열 모델은 순환신경망(RNN)의 LSTM을 기본적으로 이용한다. 그 자세한 구조는 <Figure 4>와 같다.
LSTM 모델의 입력 노드는 PM2.5, PM10, 황화수소 (H2S), 암모니아(NH3), VOC, 풍향, 풍속으로 입력 벡터 x 의 노드 수는 7이다. 그리고 출력 벡터 y’의 노드 수는 풍향, 풍속을 제외한 5이다. 그리고 은닉 노드 수는 8로 구현하였으며, 입력층 및 은닉노드상태, 3가지 게이트, 출력층의 활성함수(activation function)로 하이퍼볼릭탄젠트 (tanh), 로지스틱 시그모이드(logistic sigmoid), 소프트맥스 (softmax)를 각각 사용하였다. 각종 규제 기법에 대한 자 세한 내용은 생략한다. 이를 정리하면 다음 <Table 2>와 같다.
다음 그림은 2019년 11월 18일에 셀 22의 측정기에서 10초 단위로 기록된 미세먼지 및 악취 물질의 의 농도 변화추세를 보여주고 있다. Figure 5
이 LSTM 시계열 모델을 학습하기 위해 전북혁신도시 에 설치한 8개 측정소에서 수집한 약 최근 4개월 동안의 10초 단위의 데이터와 전주시의 최근 3년간의 미세먼지 측정 데이터를 이용해 학습을 실시하였다. 이 때 측정소가 없는 83개 셀의 대기질 값은 없기 때문에 이를 학습하는 것은 준지도 학습(Semi-Supervised Learning)에 속한다. 공 간속성 기반 모델에 의해 측정소가 없는 지역에 대한 예측 치는 보정이 될 것이나 측정소가 없는 셀의 학습을 위해 공간속성을 기반으로 k-means 클러스터링을 실시하였으 며 클러스터 수 결정을 위해 엘보우 기법(Elbow)을 이용해 4개로 정했다. 그 결과는 다음 <Figure 6>과 같다.
이 결과에 따라 같은 클러스터 내 셀의 대기질 측정값 은 측정소의 실측치를 공유하여 학습에 이용하였다.
3.2 공간속성 기반 예측모델(Spatial Predictor)
대기질은 공간 속성에 의해서도 영향을 받을 수 있다 는 본 연구의 의도가 있었기에 공간분석에 적합한 모델 로서 지리적가중회귀모델(GWR)을 선택하였다. 식 (1)과 같이 표현되는 지리적가중회귀모델은 공간적 변이를 분 석하는 회귀모형의 하나로서, 회귀계수를 위치의 함수로 간주한다[3, 14].
이때, i는 지역이며, ui, vi는 i번째 지역의 공간좌표이 다. 독립변수 xi의 회귀계수는 다음과 같이 계산된다.
여기서 W는 가중치 행렬로써 가중치 행렬의 각 요소 는 가중 함수인 커널(kernel)에 따라 계산된다. 커널은 다 양한 형태를 가질 수 있으나 일반적으로 가우스 형태인 식 (3)이 사용된다.
여기서 d는 두 지역의 거리, h는 대역폭이다, 본 연구 에서는 대역폭은 가변방식을 채택하였다. 또한, 적정 대 역폭을 설정하기 위해 관찰값과 추정값의 차이 및 모형 의 복합성을 고려하는 AIC(Akaike Information Criterion) 방식을 채택하였다.
지리적가중회귀모델의 입력 변수는 다음 <Table 3>과 같은 공간 속성과 대기질 측정치이며 대기질 속성 5종에 대해 각각 모델을 생성하였다. 91개 셀별로 수집한 공간 속성은 공장 수, 공사 중 건수, 건물 수, 건물의 평균 면적, 녹지 면적, 공원 면적, 거주지 면적, 상업지구 면적, 도로 길이, 도로 넓이, 교차로 수, 거주 인구수가 있었으나 수 집한 공간속성 데이터와 대기질 측정치를 이용해, 상관 분석기반의 속성선택 방법(Correlation Based Feature Selection)[ 4, 12]을 적용해 최종적으로 5개의 변수를 선택해 사용하였다.
3.3 시공간 예측모델(Spatio-Temporal Predictor)
앞 두 절에서 설명된 시계열 예측모델과 공간속성 기 반 예측모델의 결과를 시간 단위로 데이터를 생성한 후 다시 LSTM 모델의 입력값으로 사용해 최종 대기질 예측 치를 산출한다. 이때 LSTM 모델의 입력 노드 수는 시계 열 모델의 출력 값 5개, 공간속성 기반 예측모델의 출력 값 5개로 구성된 10개가 되며 은닉 노드는 16개로 구성하 였으며 나머지 매개변수 값은 <Table 2>와 같다. 이 모델 은 기본적으로 시간 및 일 단위의 예측 값을 생성한다.
4. 실험 결과
본 실험을 위해 파이썬의 케라스(Keras) 및 텐스플로우 (TensorFlow) 팩키지의 라이브러리를 이용하여 프로그래 밍하였다. 모델의 성능 분석을 위해 7개의 속성을 가진 시계열 데이터 각 8개 측정소 별 2,592,000개의 훈련데이 터셋을 구성하였고 테스트 데이터셋으로는 이 중 30%를 샘플링하여 구성하였다.
4.1 공간속성 기반 예측모델 분석 결과
지리적 가중회귀 분석을 위해 5가지 물질에 대해서 모 두 분석을 수행했지만 여기서는 PM2.5의 결과만을 보여 주었다. 그의 결과는 다음 표와 같다.
<Table 4>를 보면 지리적 가중회귀 모델의 적합도는 86%로 높은 모델 적합도를 보이고 있다. 종속변수 값이 공간적 특성에 의해 영향을 받는지를 알 수 있는 공간적 자기상관은 모란지수(Moran’s I)를 통해 그 정도를 측정 해 볼 수 있는데 모란지수가 0.89 (p < .01) 공간적 의존 성이 있음을 보이고 있다. 또한 두 모델 간의 적합도 평 가에서 더 선호되는 통계치인 수정 AIC(corrected Akaike Information Criterion : AICc) 지수는 일반적으로 두 모형 간 AICc 값의 차이가 4보다 클 때 모형의 개선이 있는 것으로 간주한다. 일반 전역모델의 AICc 지수는 261.24 이고 지리적 가중회귀 모델의 AICc 지수는 250.25로 더 적합한 모델이라고 할 수 있다.
지리적 가중회귀 모델은 모든 셀 별로 생성이 되는데 이의 셀 별 표준화 잔차는 다음 그림과 같이 표현되었다.
잔차의 경우 지역별로 잔차의 분산이 고를수록 모델 의 적합도가 커진다는 점을 고려할 때, <Figure 7>에서는 일부 중심 주변 셀을 제외하고 이러한 차이가 크지 않다.
모델의 각 속성별 회귀계수를 보면 종속 변수에 어떻게 영향을 미치는지 알 수 있는데 모델에 사용된 모든 속성의 회귀계수의 p-value 값은 0.05~0.1 사이에 있어 의미가 있다 고 할 수 있는데 그 중 녹지 면적 속성은 PM2.5 농도에 음의 영향을 미치고 있음을 보여주고 있다. 다른 도로 길이 의 경우 양의 영향을 미치는 결과를 보여주고 있어서 공간 적 특성이 대기질에 영향을 미치고 있음을 보여주고 있다.
위 <Figure 9>은 지리적 가중 회귀 모델의 2019년 11월 11일의 01시 예측 결과를 시각화 한 그림이다. 대체적으 로 인구가 밀집되어 있고 도로가 많은 지역의 PM2.5 농 도가 높음을 알 수 있다. 또한 앞의 클러스터링 결과와 비 슷한 분포로 농도가 서로 비슷하게 분포하고 있음을 보여 주고 있어 공간 속성이 PM2.5에 영향을 주고 있음을 어 느 정도 판단 할 수 있다.
전체 5가지 물질에 대한 지리적 가중 회귀 모델의 결 과는 다음과 같다. 5가지에 대한 각각의 모델의 결과를 평균과 표준편차를 계산하였다. 전반적으로 적합도 지수 평가에서 일반 회귀모델에 비해 우수한 것으로 평가할 수 있겠다. 다만 여기서는 전역 회귀모델 결과에 대해서 는 표현하지 않았다.
4.2 시공간 예측모델 분석 결과
악취 및 미세먼지를 예측하는 최종 모델은 시계열 모델 인 RNN LSTM 모델 결과와 공간속성 모델인 지리적 가중 회귀 모델의 결과를 다시 RNN LSTM 모델로 할습하여 예 측하는 Stacking 구조의 앙상블 모델로서 예측하였음을 앞 서 밝힌 바 있다. 우선 최종 학습모델인 시공간 예측모델 을 이용해 8개 측정소의 2019년 11월 18일의 실측치와 3 가지 예측치(GWR, 시계열 LSTM, 앙상블 LSTM)를 1시간 간격으로 비교해 보았다. 그 중 한 측정소의 PM2.5, PM10, H2S 비교 결과를 다음 <Figure 10>에 표현하였다.
공간속성 기반 예측 모델인 GWR(지리적 가중 회귀 모델)의 예측 성능이 가장 낮았고, 다음이 시계열 모델인 LSTM이었다. 최종 앙상블 LSTM 모델의 예측 성능은 실측치와 비교해 큰 차이를 보이지 않아 우수한 예측력 을 보이고 있다. GWR의 예측력이 낮은 것은 물론 공간 속성만으로 이뤄진 모델이기에 한계가 있기는 하나 공간 속성을 시계열 모델에 반영하기에는 충분하다고 여겨진 다. 그리고 최종 앙상블 LSTM 모델의 예측력이 우수하 지만 특정일을 대상으로 이뤄진 비교여서 봄, 겨울에 북 부 대륙의 영향을 받는 계절 적인 요소를 고려한 비교가 이뤄지지 않아 일반화하기에는 무리가 있다. 다만 LSTM 은 시계열 분석에 적합한 방법이고 계절적 요소도 잘 반 영되리라 예측하고 있다. Table 5
만약 대륙의 영향을 반영하기에 적합한 대기확산모델 의 예측치를 앙상불 모델을 학습자료로 이용한다면 더욱 좋은 예측력을 보일 수 있는 모델이 될 수 있을 것이다. 다음은 8개 측정소 전체의 5가지 물질 별 실측치와 예측 치를 비교한 결과를 평균과 표준편차를 제공하여 <Table 6>에 표현하였다.
5. 결 론
본 연구는 미세먼지 및 악취유발 물질 농도는 시계열 속성과 더불어 공간적인 속성에 의해 영향을 받는다는 것을 보여주었다. 그 정확한 농도 예측을 위한 시계열 모 델과 공간속성 기반 모델을 Stacking 구조로 결합한 앙상 블 모델을 새롭게 제시하였다. 이 앙상블 모델에서 예측 한 값의 정확성은 수치 결과로 제시하였다. 이 결과를 통 해서 최소한 도시지역의 대기질 예측은 공간정보를 포함 하여 예측을 해야 함을 알 수 있었다. 항 후 대기확산모 델의 결과를 같이 포함하여 데이터를 구성할 수 있다면 이는 현 기상청에서 사용하고 있는 예보 보다 더 정확할 수 있음을 예측할 수 있다. 또한 본 연구에서 사용된 LSTM 모델의 경우 최적화를 수행하지 않아 학습시간이 오래 걸리고 과적합이 발생 할 여지가 많다. 향 후 이에 대한 보완 연구가 이뤄진다면 보다 정확하고 빠른 예측 모델 구현이 가능하리라 여겨진다.