1. 서 론
국내 우편물은 크게 통상우편과 소포우편으로 구분된 다. 통상우편의 경우는 국민에 대한 보편적 우편서비스의 안정적 제공을 위해 정부기관인 우정사업본부에게 서신취 급에 관한 서신독점권을 부여하여 우편서비스를 담당하게 하고 있다. 소포우편의 경우는 우정사업본부를 비롯하여 대형 택배회사 및 중소업체들이 경쟁하고 있다.
우편물의 물류 프로세스는 일반적으로 접수, 구분, 운 송, 배송의 단계로 이루어진다. 고객이 접수한 우편물은 관할 우체국에서 집중국 또는 물류센터로 운송된다. 집 중국에서 발송구분을 통해 교환센터를 거쳐 배달지역 집 중국으로 운송할 우편물과 교환센터를 거치지 않고 배달 지역 집중국으로 운송할 우편물이 구분된다. 교환센터에 서는 전국 집중국에서 운송된 우편물을 파렛 단위로 목 적지별 교환작업을 수행한다. 도착집중국에서는 다른 집 중국에서 운송된 우편물을 최종 배달되어야 할 목적지 관할 집배국 단위로 구분하며, 관할 집배국의 집배원은 우편물을 정해진 소통기간 내에 수취인에게 배송한다[4]. 전체 프로세스 상에서 집중국은 다수의 접수국으로부터 수집된 우편물을 전국적으로 나누어진 복수개의 권역별 로 구분하는 발송구분, 도착구분 등을 담당하며, 그 특성상 자동구분설비 및 인력을 적시에 운용해야 한다. 집배국 은 도착 우편물의 집배원별 구분, 배달 구역별 배송 등을 담당하며, 배송거점의 인력 운영 방식은 우편물의 배송 일정과 소통품질에 영향을 미친다는 점에서 매우 중요한 역할을 담당한다.
우정사업본부는 이러한 우편물류 네트워크를 활용하 여 일반통상에 대한 대국민 보편적 서비스와 함께 전자 상거래 발전 등으로 급속히 증가하고 있는 소포우편서비 스의 효율적 제공을 위해 인프라 관리 계획 및 차량·인 력 등의 물류자원 운용 최적화 계획 수립이 요구되며, 이 를 위해서는 미래 시점의 우편물량 변화에 대한 정확한 수요예측이 선행되어야 한다. 특히 소포우편의 경우 접 수일 기준 3일 이내 배송되는 통상우편과 달리 익일 배 송서비스 체계로, 소통품질신뢰도를 위한 수요예측 기반 의 운영최적화는 필수적이라 할 수 있다.
이에 본 논문에서는 최적의 우편물류자원 운영 계획 수립을 위해서, 소포물류에 대한 단기 수요예측이 가능한 모델을 개발하고 우편물류 서비스 현장에 적용한 사례를 소개하고자 한다. 전국 소포 접수물량의 주요 집배국별 배송물량 예측을 위해 제안한 기법은 크게 3단계로 구분 할 수 있다. 먼저, 소포우편 접수일의 물량 예측 시점까지 의 접수물량 패턴과 접수물량의 익일 배송물량 패턴의 주요 속성을 분석하고, 캘린더 및 물량 데이터 기반의 변수를 생성한다. 둘째, 비지도 학습(unsupervised learning)기법을 이용하여 집배국들의 군집화를 수행하여 군집별 예측모 델을 개발한다. 마지막으로, 군집 내 집배국별 물량 예측 정확도가 기준값 이하인 집배국들의 개별 예측 모델을 구 축하고 집배국별 익일 배송물량을 예측한다. 제안 기법의 성능 평가를 위하여 실 배송실적 데이터를 이용하여 실험 을 수행한다.
본 연구의 제 2장에서는 우편물류 운영 최적화 및 수 요예측 관련 기존 연구를 살펴본다. 제 3장에서는 캘린 더 및 물량 데이터를 이용한 변수 변환 기반 집배국별 소포 배송물량 단기 예측모델 구축의 제안 기법을 설명 한다. 제 4장에서는 제안한 예측 모델의 성능 검증 결과 를 기술한다. 마지막으로, 제 5장에서 결론을 맺는다.
2. 관련 연구
우편물류 수요예측 관련하여 다양한 연구가 진행되어 왔다. 일반적으로 우편물류 예측 연구는 미래연도 물량 변화에 대응 가능한 최적 물류 계획 수립을 위한 중장기 수요예측에 대한 연구가 진행되었다.
통상우편 수요예측과 관련하여 Lee et al.[12]는 시계열 분석의 Auto-Regressive Integrated Moving Average(ARIMA) [20] 기법을 이용하여 연도별 국내 통상우편 예측을 실시하 는 연구를 진행하였다. Lee et al.[13]는 경제적사회적 요인 과 우편 물량과의 관계 분석을 통해 수요를 예측하는 방법 을 제시하였다. 미래 시점의 Gross Domestic Product(GDP) 예상값을 기반으로 우편물류에 대한 회귀 분석 결과를 제 시하였고, 성장모형 로지스틱 곡선을 활용하여 중장기 통 상우편에 대한 수요예측을 실시하였다. Lim et al.[14]는 미래 시점의 한국 인구 변동에 대한 통계청의 예측 자료를 기반으로 단일 회귀 분석을 이용하여 인구수에 따른 통상 우편물량 수요예측 연구를 진행하였다. Trinkner et al.[19] 은 스위스 통상 우편물량과 GDP, 우편요금 등과의 관계 를 분석하고 연도별 우편 서비스에 대한 수요예측을 수행 하였다. Ebbesson[3]은 스웨덴 통상우편물량을 회귀분석, Random Forest(RF)[1], Neural Network(NN)[7] 기법을 이 용하여 예측하였다.
소포물류 수요예측 문제에 대한 연구도 꾸준히 진행되 어 왔다. Noh et al.[16]는 연간 소포 우편물량 증가에 따 른 연차별 소포 물류센터의 거점 선정 및 규모를 결정하 는 연구를 진행하였다. 소포 물류센터의 건설시기, 위치, 규모를 추정하기 위한 방법으로 국내 택배시장의 총물량 을 시계열분석으로 추정하고, 예측물량을 기반으로 물류 네트워크 설계방안을 제시하였다. Kim et al.[8]는 중장기 우편물류 인프라 구축 계획 수립을 위하여 시계열 분석 및 회귀 분석을 이용하여 통상 및 소포물량에 대한 중장 기 수요예측에 대한 연구를 진행하였으며, 우편물량에 대 한 정확도 높은 수요예측이 물류 계획 및 운영 최적화를 위한 필수조건임을 강조하였다. Cha et al.[2]은 미래연도 물량변화에 따라 과부하가 발생하는 거점을 사전에 예측 하여 인프라 신설, 관할권역 조정, 처리능력 조정의 대안 을 제공하는 중장기 우편물류 네트워크 설계 시스템 개발 연구를 수행하였다. 미래연도의 통상 및 소포물량은 회귀 분석을 기반으로 예측하였다. Park et al.[17]과 Rhee[18] 는 제조업 분야의 신속한 공급정책 수립을 위해 이동평균 법, 지수평활법, ARIMA 모형을 이용한 수요예측 연구를 진행하였다.
최적의 우편물류 운영을 위해서는 우체국, 집중국, 물 류센터, 교환센터, 집배국 등 주요 우편 인프라의 정확한 부하분석이 필요하며, 이를 위해서는 예측 시점의 우편 물량에 대한 수요예측 기능이 요구된다. 기존 연구는 주 로 우편물류에 대한 중장기 수요예측 기법을 중심으로 진행되었다. 그러나 소포물류의 경우 물량 급증과 물류 가속화 추세 속에서 물량변화의 추세를 신속하게 파악하 고 인프라 운영 측면에서 소통품질 유지를 위한 단기적 계획 조정을 용이하게 할 수 있는 단기 수요예측 연구가 요구되고 있다.
이에 본 논문은 집배국의 물류자원 운영 최적화를 위 해 소포물류에 대한 단기 수요예측 모델을 개발한다. 소 포우편 접수 익일에 각 배송거점인 집배국에서 배송할 소포 물량을 예측하는 모델로, 물량 변화에 따라 물류자 원의 운영 계획 수립을 통한 자원의 적시 운영이 가능하 도록 소포우편 접수일의 물량 예측 시점을 기준으로 배 송일의 집배국별 물량을 예측한다. 기존 연구는 경제사 회적 요인을 기반으로 연도별 중장기 수요예측 기법을 중심으로 진행되었으나, 본 연구는 접수 익일의 단기 수 요예측을 위한 물량 패턴의 유사도 기반 캘린더 및 물량 변환 변수를 이용한 예측 기법을 제안한다.
3. 제안 기법
소포물류에 대한 단기 수요예측을 위해 본 연구에서 제안한 기법은 3단계로 구분할 수 있다.
첫 번째 단계는 소포우편 접수물량과 배송물량 패턴의 속성을 추출하는 단계이다. Dynamic Time Warping(DTW) [5, 15] 기법을 이용하여 물량 패턴의 유사도를 분석하고, 유사도에 따라 구분된 패턴의 설명요인인 캘린더 및 물량 데이터 기반의 변환 변수를 생성한다. 두 번째 단계는 Self- Organizing Map(SOM) 기법[10, 11]을 이용한 집배국 군집 화 및 군집별 예측모델 개발 단계이다. 변환 변수들을 이 용하여 다중 회귀 모델을 개발하고 군집 내 집배국별 예측 정확도를 분석한다. 마지막 단계는 예측정확도 기준 이하 요일 및 집배국의 개별 예측 모델을 구축하고 익일 배송물량 을 예측하며, 평균절대비율오차를 이용하여 구축 모델의 예측 성능을 평가한다. 제안한 기법의 절차는 <Figure 1> 에서 보는 바와 같다.
3.1 Phase 1 : Feature Engineering based on Self-Similarity
시간 단위의 통계 특성치가 반복되는 경우 이 데이터 들은 자기 유사성(self-similarity)의 특징을 가진다[6]. 일 반적으로 접수 또는 배송 우편물량은 캘린더 요소에 의해 변동이 발생하며, 요일, 휴일, 명절 등의 캘린더 요소에 따른 특성을 비교 분석하여 유사성을 파악할 수 있다. 본 논문에서는 집배국 배송물량 발생 패턴의 자기 유사성을 분석하기 위해 DTW 기법을 활용한다. DTW는 두 동적 패턴 사이의 유사도를 판별하기 위한 알고리즘으로 시간 축상에서의 비선형 신축을 허용한다. DTW의 패턴 매칭 알고리즘은 두 개의 순차 데이터의 최적 정합을 구하고, 해당 정합에서의 두 데이터 사이의 거리를 계산한다. 예 를 들어, 길이가 각각 p, q인 두 물량 패턴 가 주어졌을 때, 패턴의 정렬을 위해 행렬이 만들어지며, 이 행렬의 (i, j)번째 요소는 유클리 디안 거리 를 이용한 d(xi, yj) 를 포함한다. DTW 알고리즘은 연속성, 단조성의 조건을 이용하며, 두 패턴 간의 누적 거리 D(i, j)는 다음과 같이 계산된다.
본 논문에서는 배송물량 패턴의 자기 유사도를 DTW 를 이용하여 계산하고 거리값을 기준으로 그룹을 분류한 다. 유사도에 따라 분류된 패턴의 설명요인인 캘린더 및 물량 데이터 기반의 변환 변수를 생성한다. 캘린더 변환 변수는 아래와 같은 요일, 휴일 속성을 포함한다.
물량 변환 변수는 아래와 같은 동일 요일 물량, 과거 최근 물량 속성을 포함한다.
특히 최근 접수물량 변수에는 물량 변화에 따른 배송 인력 및 자원운용 계획 수립이 가능하도록 소포우편 배 송 전일 예측 시점까지의 접수 물량 변수를 포함한다. 생 성한 캘린더 및 물량 변환 변수는 예측 모델의 설명 변 수로 입력된다.
3.2 Phase 2: MLR Modeling by Clusters
생성된 변환 변수를 이용하여 속성이 유사한 집배국 들을 군집화한다. 군집화는 다차원 특징 벡터의 차원 축 소와 군집화를 동시에 수행하는 장점을 가진 SOM을 이 용한다. 군집화의 결과는 특징 지도로 나타나며 SOM의 학습은 경쟁, 협동, 적응의 과정으로 이루어진다. 개체벡 터에 가장 가까운 가중치벡터를 찾아 개체벡터 방향으로 이동시키는 과정을 반복하는 데, 이 과정에서 가장 가까 운 가중치벡터의 주변 가중치벡터도 함께 개체벡터 방향 으로 이동시킨다. 선택된 가중치벡터의 갱신 과정은 아 래 식과 같다.
위 식에서 α (t)는 학습률 함수로 0과 1사이의 값을 가지 며, h(j,t)는 연결강도 갱신을 위한 이웃 커널 함수이다.
학습의 반복은 모든 가중치벡터 값의 변화가 거의 소 멸하거나 미리 지정된 최대 한계에 도달할 때까지 계속 진행되며, 이러한 학습과정을 통해 얻은 최종적인 가중치 벡터는 개체공간상에서 개체들이 지니는 위상적 지도를 반영하게 된다. 본 단계에서는 SOM의 경쟁학습을 이용 하여 가중치벡터를 계산하고, 최적 군집수를 결정하기 위 해 가중치벡터의 군집별로 Within-cluster Sum of Squares (WSS)를 계산한다. 군집수에 따른 WSS의 증감률이 기준값 을 초과하는 WSS 값에 해당하는 군집수 중 최대치를 최 적 클래스 수로 결정한다. WSS는 아래와 같이 정의한다.
위 식에서 x는 입력벡터, S는 k개로 분할된 가중치벡터 집 합, 는 i번째 집합의 중심점을 의미한다. WSS 비를 통 해 결정된 최적 군집수와 SOM분석을 이용하여 특성이 유 사한 집배국들을 군집화한다.
군집화된 집배국별 배송물량 예측모델은 인과형 예측 기법인 Multiple Linear Regression(MLR)[9]의 수학적 모델 을 사용하여 구축한다. 다중회귀분석을 위하여 사용되는 회귀식은 아래 식과 같다.
위 식에서 Y는 종속변수, Xk는 캘린더 및 물량 변환 변수 를 활용한 독립변수, bk는 각 독립 변수에 대한 회귀계수 이며 ε은 오차를 의미한다. 회귀분석을 위한 최소 자승법 (method of least square)에 의한 추정량 b벡터는 아래 식 을 통해 산출 가능하다.
bk 값과 캘린더 및 물량 변환 변수 Xk로 구성된 군집별 통합예측모델을 기반으로 군집 내 집배국별 일별 예측물 량을 산출한다.
3.3 Phase 3 : Daily Traffic Prediction by Delivery Offices
군집 내 집배국별 일별 배송 예측물량 산출은 <Table 1>에서 보는 바와 같이, 먼저 군집별 통합예측모델을 이용 하여 예측모델의 일별 배송물량 예측값을 산출하고, 군집 내 포함된 집배국별 점유 물량 비율을 산출한다. 집배국별 물량 비율은 군집내 집배국 전체 배송물량 대비 각 집배국 별 물량 비중을 의미한다. 산출된 통합예측모델의 일별 배 송물량 예측값과 군집 내 집배국별 비율을 이용하여 통합 모델에 포함된 집배국별 일별 예측값을 산출한다.
본 논문에서는 단기 소포 배송물량 예측력 향상을 위 해 통합예측모델을 이용한 집배국별 배송물량 예측성능 이 기준값 미만인 경우, 캘린더 및 물량 변환 변수를 이 용한 개별예측모델을 생성하여 일별 물량을 예측한다.
4. 실험 결과
본 실험에서는 일별 예측시점까지의 접수물량, 일별 총 접수물량, 한국우정의 127개 4급 집배국의 일별 배달 물량 데이터를 사용하여 소포우편 접수일의 물량 예측 시점을 기준으로 집배국별 일별 배송물량을 예측하고 제 안된 방식의 예측 성능을 평가한다. 예측모델 구축과 성 능 평가를 위해 대표적인 통계 프로그래밍 언어중의 하 나인 R을 사용하였다. <Figure 2>는 소포우편 단기 배송 물량 예측모델 개발을 위한 학습데이터의 분포 및 추이 를 보여준다.
본 논문에서는 집배국 배송물량 데이터의 자기 유사 도를 DTW를 이용하여 계산하고 거리값을 기준으로 주 단위 물량 패턴을 분류하였다. <Figure 3>은 계층적 군집 분석을 이용하여 거리값 30000을 기준으로 유사도에 따 라 구분한 결과를 보여준다. 그림에서와 같이 17, 18 구 간을 제외하고 나머지 구간의 자기 유사성이 높음을 확 인할 수 있다. 17, 18 구간의 데이터를 살펴보면 평시와 다른 명절 N일전/N일후의 캘린더 요소가 포함되어 있는 것을 확인할 수 있다.
유사도가 높은 구간을 대상으로 물량 패턴의 설명 요인 인 캘린더 및 물량 데이터 기반의 변환 변수를 생성하였 다. 요일, 휴일 속성을 포함하는 캘린더 변환 변수와 물량 예측 시점을 고려한 접수물량, 배송물량 기반 물량 변환 변수는 <Table 2>에 제시한 바와 같이 20개로 구성된다.
캘린더 및 물량 변환 변수를 기반으로 SOM 학습결과 얻어진 Unified distance Matrix(U-Matrix)와 집배국 군집 화 결과는 <Figure 4>와 같다. U-Matrix는 가중치 벡터를 이용하여 이웃한 셀 간의 거리를 계산하여 2차원 공간상 에 표현한 것이다. <Figure 4>의 각 셀의 색과 굵은 선으 로 표시한 경계선은 WSS 비를 통해 결정된 최적 군집수 를 이용한 가중치벡터의 군집화 결과를 보여준다. 군집 수에 따른 WSS의 증감률이 기준값을 초과하는 WSS에 해당하는 군집수 중 최대치를 최적 클래스 수로 결정함 에 따라 4급 집배국 데이터는 8개의 군집으로 구분되었 다. 결정된 군집에 따라 군집화된 집배국별 단기 배달물 량 예측모델은 인과형 예측기법인 다중회귀모형을 구축 하여 일별 배송물량을 예측하였다. 모델의 예측성능 평 가를 위해 Mean Absolute Percentage Error(MAPE)를 이 용하였다.
여기서 yt는 실제 물량, 는 예측 물량, k는 예측기간을 의미한다.
본 실험에서는 통합예측모델을 이용한 집배국별 일별 배송물량 산출과 통합모델의 예측성능이 기준값 미만인 경우 캘린더 및 물량 변환 변수를 이용한 집배국별 개별예 측모델을 구축하여 일별 물량을 예측하였으며, <Figure 5> 는 제안된 기법과 기존 연구에서 주로 사용된 ARIMA 기 반의 예측 기법과의 성능 비교 결과를 보여준다. <Figure 5>의 결과를 기반으로 확인할 수 있듯이 본 논문에서 제 안한 물량 패턴 유사성 및 변수 변환 기반 예측 기법이 실험에서 사용된 데이터 셋에서 비교 모형에 비해 향상된 예측 정확도를 보이고 있다.
<Figure 6>은 제안된 기법과 기존 연구에서 수행된 ARIMA, RF 기반 기법의 MAPE를 나타낸다. 실험 데이터 셋에 포함된 4급 127개 집배국들의 예측결과를 살펴보면, 본 연구의 제안 기법의 평균 예측 오차는 9.7%로 ARIMA 기반 예측모델 대비 45.8%의 성능 향상을 보였다. 집배국 의 관할청별 데이터 군에서 본 연구의 제안 기법의 MAPE 는 최소 8.8%에서 11.7%로 나타나고 있으며, ARIMA 기 반 예측모델의 MAPE는 최소 16.9%에서 24.9%로, 제안 기법이 최대 59.4%의 성능 향상을 보였다. RF 기반 예측 모델의 MAPE는 최소 10.8%에서 32.9%로, 제안 기법이 평균 50.1%의 성능 향상을 보였다.
5. 결 론
대부분의 산업분야에서 정확한 수요예측은 해당 산업 의 자원 운영 최적화를 위해서 필수적이다. 우편물류 분 야 역시 최적의 우편물류 운영을 위해 우체국, 집중국, 물류센터, 교환센터, 집배국 등 주요 우편 인프라의 정확 한 부하분석이 필요하며, 이를 위한 예측 시점의 우편물 량에 대한 수요예측 기능이 중요하다. 특히, 소포물류의 경우 물량 급증과 물류 가속화 추세 속에서 물량변화 추 이를 신속하게 파악하고 소통품질 유지를 위한 단기적 계획 조정을 용이하게 할 수 있는 단기 수요예측 연구의 필요성이 증대되었다. 이에 본 논문에서는 집배국의 물 류자원 운영 최적화를 위해 소포물류에 대한 단기 수요 예측 기법을 제시하였다. 접수일의 물량 예측 시점을 기 준으로 소포우편 접수 익일에 각 배송거점인 집배국에서 배송할 소포 물량을 예측하는 모델로, 물량 데이터의 자 기 유사도에 따라 구분된 패턴의 설명요인인 캘린더 및 물량 기반 변환 변수를 생성하고, 집배국들의 군집화를 수행하여 통합예측모델과 개별예측모델 구축 및 집배국 별 익일 배송물량을 예측하였다. 본 연구의 제안 기법은 평균절대비율오차를 이용한 예측성능 분석 결과 관련 연 구의 ARIMA, RF 기반 기법 대비 각각 평균 45.8%, 50.1%의 성능 향상을 보였다. 본 연구에서 제안한 기법 의 결과는 단기 물량 변화에 유연한 대응을 위한 배송거 점별 운영 계획 수립과 물류자원의 운영 효율성 향상이 가능하다는데 의의가 있다.