Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.47 No.2 pp.155-167
DOI : https://doi.org/10.11627/jksie.2024.47.2.155

Development of the Demand Forecasting and Product Recommendation Method to Support the Small and Medium Distribution Companies based on the Product Recategorization

Sangil Lee, Yeong-Woong Yu, Dong-Gil Na†
Digital Convergence Research Laboratory, Air Mobility Research Division, Postal & Logistics Technology Research Center, Electronics and Telecommunications Research Institute
Corresponding Author : sdgna@etri.re.kr
10/05/2024 12/06/2024 12/06/2024

Abstract


Distribution and logistics industries contribute some of the biggest GDP(gross domestic product) in South Korea and the number of related companies are quarter of the total number of industries in the country. The number of retail tech companies are quickly increased due to the acceleration of the online and untact shopping trend. Furthermore, major distribution and logistics companies try to achieve integrated data management with the fulfillment process. In contrast, small and medium distribution companies still lack of the capacity and ability to develop digital innovation and smartization. Therefore, in this paper, a deep learning-based demand forecasting & recommendation model is proposed to improve business competitiveness. The proposed model is developed based on real sales transaction data to predict future demand for each product. The proposed model consists of six deep learning models, which are MLP(multi-layers perception), CNN(convolution neural network), RNN(recurrent neural network), LSTM(long short term memory), Conv1D-BiLSTM(convolution-long short term memory) for demand forecasting and collaborative filtering for the recommendation. Each model provides the best prediction result for each product and recommendation model can recommend best sales product among companies own sales list as well as competitor’s item list. The proposed demand forecasting model is expected to improve the competitiveness of the small and medium-sized distribution and logistics industry.



중소유통기업지원을 위한 상품 카테고리 재분류 기반의 수요예측 및 상품추천 방법론 개발

이상일, 유영웅, 나동길†
한국전자통신연구원 디지털융합연구소 에어모빌리티연구본부 우정·물류기술연구센터

초록


    1. 서 론

    국내 유통물류산업은 2021년 기준 142조 원으로 전체 부가가치 생산의 7.8%를 차지하고 있으며 유통물류산업 사업체 수는 149.6만 개, 종사자 수는 366.8만 명으로 국내 전체 산업에서 약 25%를 차지하고 있는 주요한 산업 중 하나이다[17]. 온라인, 비대면 소비 트랜드의 가속화로 인하여 온라인, 모바일 쇼핑을 포함한 무점포소매 판매액은 2018년 대비 2022년에 76.6% 증가하였으며, 1인 가구 증가와 간편 결제 시스템, 중장년층의 모바일 쇼핑 유입으로 인한 모바일 쇼핑도 80.7조원 규모로 성장하였다[17, 28]. 또한 팬데믹(pandemic)으로 인한 온라인유통 채널이 전 세계적으로 주요한 유통채널로 급부상하게 되자 온라인 유통산업의 디지털화가 적극적으로 진행되고 있으며 해외의 리테일테크 기업과 국내 대형 유통사도 자체 데이터 통합 관리와 함께 풀필먼트를 추진하고 있다. 또한 네이버, 쿠팡과 같은 e-commerce 플랫폼 제공사도 AI(Artificial Intelligence)를 활용한 소비패턴 예측 및 수요예측과 같은 고도화된 서비스를 제공하고 있다. 하지만 국내 중소 유통물류 기업의 평균 이익률은 2.45%, 일반 소매업은 0.91%로 낮은 편에 속하며 리테일테크 기업과 대형 유통사가 추진하고 있는 디지털화와 정보격차를 해소할 수 있는 현실적인 방안을 마련하기 어려운 실정이며 이를 해결하기 위해서 중소 유통물류업체의 전자상거래 빅데이터를 수집·활용할 수 있는 기술이 필요하다.

    또한, 중소·유통물류업체는 사업의 특성상 다수의 온라인 플랫폼에 온라인 스토어를 운영하고 있어 플랫폼 별로 획득할 수 있는 데이터의 종류와 형태, 카테고리별 분류체계 등이 달라 데이터의 통일성과 일관성을 보장하기 힘들다. 같은 제품이라고 할지라도 플랫폼별로 상품의 카탈로그, 제품설명, 할인정보 등이 상이한 경우가 있기 때문에 이와 같은 데이터의 불균일성과 비일관성을 해결하기 위한 대책이 필요한 실정이다.

    마지막으로 중소·유통물류업체는 제품의 판매추이, 트랜드, 유행에 민감하게 반응하는 편이며 다수의 상품을 일시적으로 판매하거나, 동일한 상품군에서 세부 상품을 바꿔서 판매하는 등 동일한 제품이 연속성 있게 판매하는 경우와 그렇지 않은 경우가 혼재되어 있기 때문에 이에 대한 고려도 필요하다.

    따라서, 본 논문에서는 중소유통물류 업체의 디지털 유통 경쟁력 강화를 위하여 딥러닝 기반의 수요예측 및 상품 추천 방법론을 제안한다. 제안된 방법론에 활용된 데이터는 다수의 온라인 판매채널을 보유하고 있는 5개의 중소 유통물류 기업에서 제공받았으며, 전자기기부터 일상용품까지 다양한 제품군을 포함하고 있다. 제안된 방법론의 수요예측 정확성을 높이기 위해서 제품명과 카테고리정보를 기반으로 할인정보를 추출하며 제품 카테고리 재분류를 시행 후, 딥러닝 기반의 수요예측을 수행하였다. 수요예측을 위한 딥러닝 모델은 MLP(Multi-Layers Perception), CNN(Convolution Neural Network), RNN(Recurrent Neural Network), Bi-LSTM(Bidirectional Long Short Term Memory), Conv1D-BiLSTM 등 총 5가지 모델로 구성되어 있으며 품목별로 최적의 모델을 선정하여 수요예측결과를 도출한다. 또한, 경쟁사에서 취급하고 있는 제품을 포함하여 미래 수요가 높을 것으로 예상되는 상품의 추천을 위하여 협업 필터링(collaborative filtering)을 활용한 상품추천을 수행하였다.

    본 논문에서 제안하는 상품추천 방법론은 네이버, 11번가, 쿠팡 등과 같이 서로 다른 데이터 체계를 가진 대형 플랫폼의 데이터와 중소·물류유통업체의 ERP 데이터의 통합을 통하여 e-commerce 플랫폼에 제약을 받지 않는 각 업체만을 위한 수요예측 방법론을 제안하였다는 것에 의의가 있으며 기존 연구와 가장 큰 차이점이라고 할 수 있다. 또한, 범주형 데이터의 특징 파악과 시계열데이터 예측을 동시에 할 수 있는 앙상블 모델을 통한 수요예측 모델과 언어모델 기반의 상품 카테고리 재분류를 통한 수요예측 방법론의 제안이라는 점에서 기존의 연구와 차이가 있다고 할 수 있다.

    2. Literature Review

    2.1 Demand Forecasting

    유통물류산업에서 수요예측은 재고관리부터 운송 효율성, 더 나아가 생산단계의 생산성 향상까지 산업전체에 영향을 줄 수 있는 중요한 연구분야 중 하나이다. 또한, e-commerce 플랫폼을 활용하는 중소유통업체에게 수요예측 기술은 재고관리의 효율성, 경쟁력 있는 가격정책, 적절한 프로모션 일정 및 계획 수립 등에 중요한 요소가 될 수 있다[5]. 또한 Mckinsey & company[23]는 물류 및 운송 분야의 디지털화 및 AI를 활용한 학습 & 예측기법 도입이 예측오류 감소와 통합적 공급망을 완성시켜 이에 따르는 경제적 효과가 아주 클 것으로 예측했다.

    유통물류산업에서 수요예측은 전통적인 통계적 기법을 활용한 exponential smoothing[14], ARIMA(AutoRegressive Integrated Moving Average model)[11] 등이 있다. 하지만 통계적 기법을 활용한 수요예측은 단변량(univariate) 선형 회귀(linear regression)의 형태를 가지거나 시계열을 분리하기 때문에 도출된 예측 값이 고립(isolation)된다는 단점이 있다. 따라서, 통계적 기법의 수요예측은 비슷한 특성을 가진 제품의 수요예측 결과값이 유사할 수밖에 없다 [5]. 하지만 인공신경망, 인공지능에 대한 연구가 진행됨에 따라 이런 단점을 해결할 수 있는 다양한 방법론이 제시되고 있으며 최근에는 딥러닝 기반의 RNN, LSTM, MLP 등에 대한 연구가 활발히 진행되고 있다[4, 7, 9, 26, 29, 30]. 특히, RNN, LSTM 등과 같은 인공신경망은 시계열 예측에 적합하며 주어진 데이터에 대한 전역학습(global training)을 통하여 보다 정확한 결과 값을 얻을 수 있다는 장점이 있다[5, 26, 30]. 빅데이터 기반의 수요예측에 관한 연구는 의약품의 콜드체인 유통 수요예측에 관한 연구[18], 몽골 유통기업의 사례연구[21], 수요예측 정확도 향상을 위한 최적 데이터 구조 결정에 관한 연구[31], 다품종 소량 판매 환경에서의 빅데이터 분석[8], 풀필먼트 센터 최적 운영을 위한 수요예측[19], 우편수요기반 집배유형 분류[13] 등 다양한 유통분야에서 연구가 활발히 진행되고 있다.

    2.2 Recommendation System

    추천시스템은 사용자가 선호하는 상품이나 서비스, 지식 등을 예측하여 그 결과를 보여주는 시스템 또는 기능을 뜻하며 이를 위해서 필터링 알고리즘을 사용하거나 AI를 활용하는 것이 일반적이다[15]. 추천시스템은 서비스를 제공하는 측과 제공받는 측 모두에게 효과적인 도움을 줄 수 있으며 특히 전자상거래 분야에서 적절한 추천시스템은 매출의 증대와 온라인스토어의 효율적인 관리, 고객의 편의 증가 등 다양한 이점을 보여주고 있다[15, 24]. 추천을 위한 대표적인 알고리즘으로는 협업 필터링(collaborative filtering), 컨텐츠 기반 필터링(content-based filtering), 하이브리드 필터링(hybrid filtering) 등이 있으며 알고리즘을 통하여 사용자의 선호도를 예측하고 이를 기반으로 랭킹기반의 추천 결과를 도출할 수 있다[1, 24]. 각각의 필터링 알고리즘은 유사 항목만을 고려한 추천[24], 콜드 스타트[22] 등의 단점을 가지고 있지만 추천 결과에 따른 선호도 반영 결과의 정확성으로 인해서 현재까지도 많은 분야에서 활용되고 있다.

    3. Demand Forecasting Method for Small & Medium Distribution Companies

    본 논문에서 제안한 수요예측 및 상품추천 방법론은 <Figure 1>과 같이 데이터 수집 및 할인 이벤트 정보 추출 모델, 상품 카테고리 재분류 모델, 수요예측 및 상품추천 모델로 구성되어 있다. 전자상거래 데이터는 업체가 운용하고 있는 ERP에서 추출하였으며 유통채널, 일자, 품목, 수량, 판매금액 등으로 구성되어 있으며 주별/월별로 데이터 업데이트가 진행된다. 할인 이벤트 정보 추출 모델과 상품 카테고리 재분류 모델은 수요예측모델의 예측 결과값과 모델의 정확성을 높이기 위한 데이터 분류를 위한 것으로 데이터 업데이트 또는 필요시에 수행할 수 있도록 독립적인 모델로 구성하였다. 수요예측 및 상품추천 모델은 할인 이벤트 정보를 포함한 전자상거래 데이터를 기반으로 미래의 상품 판매수량을 예측 및 추천 결과 값을 유통물류업체에게 제공한다.

    할인 이벤트 정보 추출 모델은 온라인 쇼핑 플랫폼데이터에서 추출할 수 없는 상품별 할인 이벤트에 대한 정보를 입력변수에 활용하여 수요예측의 정확성 증가를 꾀함과 동시에 향후 할인 이벤트 정보에 대한 feature analysis를 통하여 실제 할인 이벤트 별로 판매량에 얼마나 유의미한 영향을 미치는지 분석하기 위한 용도로 설계 및 구현되었다. 하지만 본 논문에서는 할인 이벤트 정보의 유의미한 영향 분석을 제외한 입력변수의 기능에 중점을 두고 있다. 할인 이벤트 정보 추출 모델은 온라인 쇼핑몰에서 판매된 제품의 카탈로그 및 상품 정보를 토대로 할인적용 여부를 판단 후, 수요예측 모델에 활용하기 위한 할인 이벤트 분류(classification) 정보를 생성한다. 할인 이벤트 정보 추출 및 분류는 <Figure 2>와 같이 토큰화, 키워드 추출, 분류, 업데이트로 이루어진다. 할인 이벤트 추출 모델은 Transaction DB에서 거래 데이터를 획득하여 할인정보가 포함되어 있는 제품명, 또는 제품 설명, 제품 카탈로그를 통하여 설명에 대한 토큰화(tokenization)를 수행한다. 토큰화가 끝난 제품관련 텍스트 정보는 키워드 추출을 통하여 제품에 대한 할인 이벤트에 대한 분류를 수행한다. 할인 이벤트는 <Table 1>과 같이 할인 없음(non-event), 업체 할인(individual event), 프로모션 할인(promotion event), 브랜드 할인(brand scale event), e-commerce 플랫폼 할인(platform scale event)으로 분류하였다. <Table 1>의 keywords와 같이 각 할인 이벤트별 키워드를 포함하는 거래 데이터는 키워드에 해당하는 이벤트로 분류하고 이에 대한 데이터를 다시 DB에 저장할 수 있도록 모델을 구성하였다.

    상품 카테고리 재분류 모델은 각 온라인 플랫폼별 상품 카테고리의 상이함을 없애고 통일된 카테고리 재분류에 그 목적이 있다. 각 온라인 쇼핑 플랫폼은 서로 상이한 상품 카테고리 분류체계를 가지고 있으며 중소·유통물류업체의 ERP 또한 서로 상이한 제품 분류체계를 가지고 있어 이를 통합 및 재분류 하여 수요예측 결과의 정확성을 높이고자 하였다.

    상품 카테고리 재분류 모델은 <Figure 3>과 같이 BERT (Bidirectional Encoder Representations from Transformers)를 기반으로 텍스트 임베딩을 수행하고 UMAP(Uniform Manifold Approximation and Projection) 및 HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)으로 차원축소와 클러스터링을 수행하며 c-TF-IDF (class-based Term Frequency-Inverse Document Frequency) 를 활용하여 각 클러스터링을 대표하는 토픽을 추출하는 토픽모델링 기법 중 하나이다[3, 12].

    BERTopic model은 각 클러스터를 생성할 때 클러스터 간 유사도의 확인이 용이하며 동적 토픽 모델링이 가능하기 때문에 시간의 흐름에 따라 토큰의 변화를 유연하게 찾아낼 수 있으며 다양한 언어에서도 안정적인 성능을 보여준다. 이 같은 특성 때문에 영어와 한글 또는 다른 언어가 혼재되어 있는 비정형적인 상품의 설명에 대한 분석이 용이하다고 할 수 있다. 이와 같은 특성 때문에 본 논문에서는 BERTopic model을 활용하여 각 상품의 제목과 설명을 기반으로 상품 카테고리의 재분류를 수행하였다. 상품의 카테고리 재분류는 수요예측 결과값의 정확도를 높일 수 있으며 상품의 상세 카테고리 분류에서 보다 정확한 상품별 판매추세를 알 수 있다.

    수요예측 모델은 할인 이벤트 정보 추출 모델과 상품 카테고리 재분류 모델의 수행 이후 전자상거래 데이터를 활용하여 각 상품의 미래 판매수요를 예측한다. 예측 값은 판매수량으로 설정하였으며 예측 상품은 대분류-중분류-소분류-세분류 등 총 4단계의 분류에서 세분류를 기준으로 예측을 실시하였다. 판매수량 예측에 있어서 반품 등 판매수량이 음수로 나타나는 데이터는 전처리를 통하여 제거하였다. 다수의 상품에 대하여 각각 개별 상품의 수요예측 결과의 정확성을 높이기 위해서는 단일 모델보다 다수의 모델간 정확성 비교를 통해서 데이터의 특성에 따른 예측 모델의 선정이 필요하다고 판단되기 때문에 MLP, CNN, RNN, Bi-LSTM, Conv1D-BiLSTM 등 총 다섯가지 수요예측모델을 채택하였다.

    수요예측 모델은 MLP, CNN, RNN, BiLSTM 등 총 네 가지 알고리즘과 앙상블 모델인 Conv1D-BiLSTM을 통하여 수요예측 실험을 수행하였다[27]. 단일 모델을 바탕으로 하는 딥러닝 기반의 다변량 시계열 데이터 예측 정확도는 XGBoost 기반의 다변량 시계열 데이터 예측 정확도 보다 낮다는 것이 다수의 경쟁대회 결과를 통해서 알려져 있다. 하지만 두개 이상의 모델을 결합한 앙상블 모델로서 다수의 제품군에 대한 범용적인 수요예측 모델의 예측 정확도를 개선할 수 있기 때문에 앙상블 모델을 통한 수요예측을 실시하였다[16]. MLP는 데이터에서 전역 특징을 추출하여 추세 또는 증감이 일정한 데이터의 예측률이 높으며, CNN은 이미지 또는 수치형 데이터의 벡터화를 통하여 부분적 특징을 추출하여 이를 예측에 반영하기 때문에 카테고리와 같은 유사하지만 다른 정보의 구분을 통한 예측률이 높으며 RNN과 BiLSTM은 시계열 데이터에서 우수한 성능을 보이기 때문에 실험에 활용하였다[6, 10]. 앙상블 모델인 CNN-BiLSTM은 CNN을 통하여 상품카테고리와 같은 유사 정보간 특징을 구분하고 BiLSTM을 통하여 전체 시계열 학습 및 예측을 수행하도록 하여 각 개별 상품군별 예측 정확도를 높일 수 있도록 실험을 진행하였다. 따라서, 네 가지 수요예측 알고리즘과 하나의 앙상블 모델은 모델의 우수성을 비교하는 것이 아니라, 상품군별 데이터의 차이에 따라서 어떤 모델에 더 적합한 특징 또는 데이터 분포를 가지고 있는지를 나타낸다고 할 수 있으며 이를 통하여 장기 수요예측을 위한 앙상블 모델 구축에 대한 실험이라고 보는 것이 타당하다.

    개별 예측모델의 활성화 함수는 swish 함수를 사용하였다. Swish는 google brain 팀에서 제안하였으며 모델의 비선형 패턴을 학습함에 있어서 출력 범위의 제한이 ReLU(Rectified Linear Unit) 함수보다 유연하며 활성화 함수를 조정할 수 있다는 장점이 있다[25].

    상품추천 모델은 <Figure 4>와 같이 유통물류업체에서 취급하는 상품 중 판매량이 높아질 것으로 예측되는 상품과 경쟁업체에서 취급하는 상품 중 판매량이 높아질 것으로 예측되는 상품을 추천하기 위한 모델이다. 상품추천 모델은 추천시스템의 기본 모델인 협업 필터링을 활용하였다. 협업 필터링 모델은 유저와 아이템 간의 상호 작용 데이터를 활용하는 방법으로써, 비슷한 선호도를 가진 사용자에게서 아직 소비하지 않은 컨텐츠 또는 아이템을 추천하는 머신 러닝 기법이다[2, 20]. 본 논 리필 제품 문에서는 상품추천모델을 활용하여 비슷한 상품군을 취급하는 업체에서 수요가 오를 것으로 예상되는 아이템을 코사인 유사도를 기반으로 추천을 하도록 구성하였다. 상품추천은 유통물류업체가 취급하고 있는 아이템 5종과 경쟁업체만 취급하고 있는 아이템 5종 등 총 10종을 추천하도록 하였다.

    4. Implementation and Experiment Result

    4.1 Sales Event Model Implementation and Result

    할인 이벤트 정보 추출 모델은 파이썬3.8을 활용하여 개발하였으며 실험을 위한 데이터는 온라인 대형 유통사에 35개 판매채널을 보유하고 있는 중소유통업체를 대상으로 하였다. 판매물품은 위생용품, 물티슈, 티슈, KF-94 마스크 등 약 소분류 기준 약 33종 아이템을 판매하고 있다.

    상품의 설명과 판매채널에 등록된 상품명의 자연어 처리를 통하여 <Table 2>와 같이 각 할인 이벤트를 분류할 수 있는 용어를 추출하였다.

    추출된 각 할인 이벤트별 대표용어를 통하여 각 상품의 할인 이벤트 분류 및 할인 이벤트에 따른 각 상품의 판매량은 <Figure 5>와 같다. 대다수의 상품군에서 특별한 할인 이벤트는 진행하지 않았으며 전체 비율에 비해 소수의 상품만 할인 이벤트에 참여하였으나 제품의 판매수량에서는 플랫폼 단위의 할인 이벤트에서 압도적으로 많은 수량의 상품이 판매되었다는 것을 확인할 수 있다. 또한 중소 유통사에서 직접적으로 시행하는 할인 이벤트에서 판매수량이 높게 나오는 것을 확인하였다.

    4.2 Re-categorization Model Implementation Result

    상품 카테고리 재분류 모델은 파이썬3.8을 활용하여 개발하였으며 실험을 위한 데이터는 할인 이벤트 추출 모델과 동일한 데이터를 활용하였다. BERTopic model을 통하여 각 상품군의 상세 카테고리를 재분류 하였다. 따라서, 기존의 소분류 카테고리를 기준으로 세부 카테고리를 도출하고자 각 카테고리별로 실험을 하였다. BERTopic model의 embedding model은 한국어를 포함한 다양한 언어가 사전 학습되어 있는 paraphrase-multilingual-MiniLM-L12-v2를 활용하였다. UMAP의 유사도 거리계산은 cosine으로 설정하였으며 HDBSCAN model의 유사도 거리계산은 Euclidean으로 설정하였다. 세부 카테고리 범위를 설정하는 클러스터는 표준방식인 excess of mass 알고리즘을 활용하였다. 토픽의 vectonizer는 open korea text(okt library)를 활용하였으며 분류 토픽의 개수는 BERTopic model에서 최적의 클러스터링 결과를 도출할 수 있도록 auto로 설정하였다. c-TF-IDF 알고리즘은 단어의 빈도수를 기반으로 하는 ClassTfidfTransformer를 활용하였다.

    상품 카테고리 재분류 모델 실험결과 중 일부인 리필형 물티슈에 대한 실험결과는 <Figure 6>과 같이 아기용 리필 물티슈 휴대용, 아기용 리필 물티슈, 화장실용 비데 물티슈 등 총 3개의 세부 카테고리로 분류되었으며 아기용 리필 물티슈와 아기용 리필 물티슈 휴대용은 유사한 그룹으로 도출되었다. 또한 리필형 물티슈에서는 아기용 리필 물티슈 휴대용의 판매량 및 검색량이 가장 많은 것으로 나타났다.

    총 11개의 카테고리에 대한 실험결과는 <Table 3>과 같이 위생용품 14개, 리필형 물티슈 3개, 캡형 물티슈 3개, 휴대용 물티슈 15개, 행주 4개, 매직블럭 5개, 일반티슈 2개, 주방용품 19개, KF인증 마스크 3개, 덴탈 마스크 3개, 미용용품 2개의 세부 카테고리로 분류되었다.

    4.3 Demand Forecasting Model Implementation and Experimental Result

    수요예측 모델은 파이썬3.9.17을 활용하였으며 딥러닝 모델의 학습은 TensorFlow 2.6.0을 활용하였다. 실험 데이터는 할인 이벤트 정보가 업데이트된 버전을 활용하였으며, 각 4개 회사의 7개 상품군을 대상으로 실험을 수행하였다. 실험에 대상이 되는 상품군은 A회사의 바디케어 소품관련 상품군(bodycare), B회사의 고양이 간식 상품군(cat), 반려동물 소품 상품군(pet), C회사의 노트북 상품군(laptop), D회사의 캔디류 상품군(candy), E회사의 살충제 상품군(pesticide) 및 F회사의 주방세제 상품군(detergent)이다. 각 상품군 전자상거래 데이터는 2019년 1월 2일부터 2023년 6월 21일까지 기간을 대상으로 하였으며 전자상거래 횟수는 대략 20만 건 정도이다. 따라서 총 전자상거래 데이터의 수는 120만 건 정도라고 할 수 있다.

    <Figure 7>은 실험 대상 데이터 중 바디케어 소품 관련 데이터의 판매량 분포이며 상품군별로 차이는 있지만 특정기간에 급격한 판매량의 변화를 보이거나 아예 제품의 판매가 이루어지지 않는 구간을 포함하고 있다. 이와 같은 극단적인 이상치 구간은 수요예측 모델의 정확도를 낮추는 요인이 될 수도 있다.

    따라서, 딥러닝 모델의 학습 정확도를 높이고 예측치를 높이기 위해서 <Figure 8>과 같이 판매량의 이동평균을 적용하였으며 <Figure 9>는 이동평균을 적용한 일자별 거래량의 추세분석 결과이다. 이동평균을 적용한 바디케어 소품의 판매량은 <Figure 9>와 같이 판매량 증가와 감소가 반복되다가 2022년 3분기부터 판매량이 급격히 줄어드는 양상을 띄고 있다.

    실험 데이터의 훈련셋과 테스트셋의 비율을 8:2으로 설정하였으며, 급격한 변화량에 대한 수요예측 모델의 정확성을 측정하기 위해서 <Figure 10>과 같이 바디케어 소품의 판매량이 급격히 증가하는 시점과 판매량이 급격히 줄어드는 시점을 포함할 수 있도록 하였다.

    실험에 활용한 데이터의 feature는 일자, 브랜드id, 제품 세분류, 배송지주소, 판매채널, 할인 이벤트, 긍정적 리뷰 지수, 부정적 리뷰 지수, 리뷰의 긍정적 단어 비율, 리뷰의 부정적 단어 비율, 구글 검색지수, 네이버 검색지수, 판매량(이동평균 적용)이다.

    딥러닝 기반의 수요예측 모델 실험을 위한 MLP, CNN, RNN, Bi-LSTM, 및 앙상블 모델인 Conv1D-BiLSTM는 <Table 4>와 같이 동일한 조건과 환경에서 실험을 수행하였다.

    6개사의 7개 상품군에 대한 MLP 및 CNN, RNN, BiLSTM과 앙상블 모델인 Conv1D-BiLSTM을 통한 수요예측 결과는 <Table 5>와 같이 도출되었다. <Table 5>의 결과에 따르면, MLP 모델이 7개 상품군에 대한 평균 MAPE이 15.174로 가장 작은 것으로 나타났으며, Conv1D-LSTM 모델이 17.528로 두번째로 작은 것으로 나타났다. 모델 자체의 정확성을 나타내는 R2 값의 평균에 대해서는 RNN 모델이 0.730로 MLP 모델의 0.717보다 근소하게 앞선 것으로 나타났다. 각 상품군별 예측모델간 비교에서는 대부분의 상품군에서는 MLP 모델이 다른 모델보다 우수한 정확도를 보여주는 것을 확인할 수 있으나, D회사의 Candy 상품군과 같은 경우에는 MAPE가 21.548, R2 값이 0.278로 다른 상품군에 비해서 정확도가 낮아지는 모습을 보였다. CNN과 Bi-LSTM은 각 상품군의 예측에 있어 MAPE와 R2 값의 변동성이 MLP와 RNN에 비해서 크지 않으며 어느정도 일관된 결과를 보여주고 있음을 확인할 수 있다. 하지만, MLP와 RNN은 상품군에 따라서 예측 정확도가 크게 변하는 양상을 보였으며, 이는 MLP, RNN 두가지 모델이 데이터의 특성에 따라 예측 정확도가 굉장히 높을 수도, 낮을 수도 있다는 것을 보여주고 있다. 앙상블 모델인 Conv1D-BiLSTM과 같은 경우에는 CNN-BiLSTM과 같이 상대적인 변동성이 낮은 것을 확인할 수 있으며, 특정 상품군에 대해서는 단일 알고리즘보다 나은 정확도를 보이는 것으로 확인되었다.

    4.4 Recommendation Model Implementation and Experimental Result

    상품추천모델은 상품의 유사도를 기반으로 유통업체와 경쟁사의 수요예측을 수행 후, 수요 증가가 예상되는 상품군의 추천을 수행한다. 앞서 언급한 바와 같이 자사의 상품 5종과 경쟁업체의 상품군 5종을 추천하도록 하였으며 자사 상품 5종은 예측 판매량이 높은 순서대로 도출하였으며 경쟁업체의 상품군은 자사 제품과 유사한 순서대로 도출하도록 하였다. <Figure 11>은 5개의 경쟁업체를 포함한 6개 기업의 기업별 일자별 판매수량의 분포도이다.

    상품추천모델은 경쟁사의 판매데이터를 포함하고 있어야 하기 때문에 수요예측 모델 데이터와는 독립된 데이터를 활용하였다. 데이터는 2020년 1월부터 2023년 6월까지 기간동안 수집된 데이터를 활용하였으며 결측치 데이터를 제외하고 약 12만개의 데이터를 활용하였다. 상품군의 분류는 상품군 분류체계(kan_code)에서 소분류에 해당하는 상품군을 기준으로 분석을 수행하였다. 유사상품군 추천은 각 상품의 유사도를 예측판매량과 제품 분류체계, 기업별 pairwise metrics를 활용한 cosine similarity를 기반으로 하였다.

    추천모델은 pytorch 기반의 fastai 모듈을 활용하여 구현 및 실험을 하였으며 <Table 6>과 같이 matrix factorization 와 neural network과 비교 실험을 수행하였다. <Table 6>에서 보는 것과 같이 상품추천 모델간 예측 정확률 비교에서 collaborative filtering의 MAE(Mean Absolute Error)가 6.56으로 가장 성능이 뛰어난 것으로 나타났다.

    협업 필터링 실험결과 테스트 셋의 수요예측 값과 실제 값은 크게 차이가 나지 않는 것으로 확인하였다. <Figure 12>은 수요 예측 값을 토대로 각 업체에게 판매량 증가 상품의 추천 결과를 보여주고 있다. 각 업체의 추천상품결과 중 0번에서 4번까지는 자사의 상품군 중 판매량이 높을 것 같은 5개 상품군을 추천하도록 하였으며, 5번부터 9번까지는 경쟁업체에서만 취급하는 유사 상품군 중 예측 판매량이 상위 5개 상품군을 추천하도록 한 결과이다. 각 업체의 precision@K는 총 10개의 추천상품 예측 결과 중 실제 판매량이 상위 5개 포함하는지 여부를 백분율로 나타냈으며, 최소 4개 상품군 예측 성공에서 최대 6개 상품군 예측 성공으로 평균 52%의 상품 추천 예측 정확도를 가지고 있음을 보여주고 있다.

    5. Conclusion

    본 논문에서는 중소 유통물류업체의 디지털 유통 경쟁력 강화를 위하여 딥러닝 기반의 수요예측 및 상품추천 방법론을 제안하였다. 제안된 방법론은 할인 이벤트 정보 추출 모델과 상품 카테고리 재분류 모델, 딥러닝 기반의 수요예측 및 상품추천 모델로 구성되어 있다. 할인 이벤트 정보 추출 모델과 상품 카테고리 재분류 모델은 자연어처리를 통한 상품의 분류 모델이며 딥러닝 기반의 수요예측모델은 판매량을 예측하는 예측 모델이다. 수요예측 모델은 예측 정확도를 높이기 위해서 MLP 등 4개의 모델과 1개의 앙상블모델로 구성하였다. 각 수요예측 모델을 통하여 상품군별로 가장 높은 정확성을 보이는 모델을 통하여 수요예측 결과를 도출하고 이를 통해서 중소 유통물류업체에게 수요예측에 대한 결과를 전달하도록 한다.

    본 논문에서 제안한 딥러닝 기반의 수요예측 및 상품추천 방법론은 데이터의 구조적 일치성과 데이터의 일관성을 보장할 수 없는 중소·유통물류업체의 수요예측을 위한 방법론으로써 서로 다른 체계를 가진 데이터를 통한 수요예측을 위해서 카테고리 재분류 등을 수행하였으며 수요예측의 정확성과 향후 할인 이벤트가 실질적으로 판매에 미치는 영향에 대한 통찰력(Insight)를 얻기 위해서 feature로써 활용하였다. 따라서, 온라인 플랫폼 간의 데이터를 취합하여 이를 통해 플랫폼별, 온라인 스토어별이 아닌 업체별 수요예측 결과를 도출하는 방법론을 제안하였다는 것에 본 논문의 의의가 있다고 할 수 있다. 또한 경쟁업체에서 취급하고 있는 유사 상품군에 대한 미래 수요예측 결과에 따라 판매 상품을 추천하는 시스템을 통하여 중소·유통물류업체의 경쟁력 제고를 꾀할 수 있다는 점에서 차별성이 있다고 할 수 있다.

    하지만 할인 이벤트 정보 추출 모델의 정보 추출의 정확성과 수요예측 모델의 예측 정확도를 높여야 할 필요가 있으며 향후 할인 이벤트 추출 모델의 고도화를 통한 정보 추출 범위와 정확도를 높이고 attention 메커니즘을 통한 수요예측 모델의 정확성을 높이는 고도화에 대한 연구가 필요하며 상품추천 모델은 고객의 상품에 대한 리뷰, 선호도 등의 정보를 포함한 scoring을 통한 상품 추천 정확도를 높여야 하는 것이 추후 과제로 남아있다.

    Acknowledgement

    This work supported by Digital distribution logistics technology development and demonstration support funded by the Ministry of the Trade, Industry and Energy of Korea(MOTIE, Korea).

    [Project Name: Development of product recommendation technology using big data for small and medium distribution companies / Project Number: 1415184128]

    Figure

    JKSIE-47-2-155_F1.gif

    Structure of Demand Forecasting Method

    JKSIE-47-2-155_F2.gif

    Sales Event Extraction Model

    JKSIE-47-2-155_F3.gif

    Re-categorization Model

    JKSIE-47-2-155_F4.gif

    Recommendation Model

    JKSIE-47-2-155_F5.gif

    Sales-event Classification and Sales Amount

    JKSIE-47-2-155_F6.gif

    Experimental Result of Refilled Wet-tissue

    JKSIE-47-2-155_F7.gif

    Transaction Data (e.g., Body Care Product)

    JKSIE-47-2-155_F8.gif

    Moving Averaged Transaction Data(e.g., Body Care Product)

    JKSIE-47-2-155_F9.gif

    Trend Analysis Result(e.g., Body Care Product)

    JKSIE-47-2-155_F10.gif

    Train-test Dataset Ratio

    JKSIE-47-2-155_F11.gif

    Sales Distribution Plot for Six Companies

    JKSIE-47-2-155_F12.gif

    Sales Distribution Plot for Six Companies

    Table

    Categorization of Sales Event

    Categorization of Sales Event

    Experiment Result of Re-categorization Model

    Common Condition for Demand Forecasting

    Experimental Result of Five Demand Forecasting Model

    MAE Comparison Results

    Reference

    1. Acilar, A.M. and Arslan, A., A Collaborative Filtering Method Based on Artificial Immune Network, Expert Systems with Applications, 2009 Vol. 36, No. 4, pp.8324-8332.
    2. Adomavicius, G. and Tuzhilin, A., Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering, 2005, Vol. 17, No. 6, pp. 734-749.
    3. Baik, J., Chung, S., and Chi, S., Issue Identification of Overseas Construction Markets from News Articles Based on BERTopic, Journal of Construction Automation and Robotics, 2023, Vol. 2, No. 2, pp. 21-26.
    4. Bandara, K. Bergmeir, C. and Smyl, S., Forecasting Across Time Series Databases using RNNs on Groups of Similar Series: A Clustering Approach, arXiv [cs.LG], 2017, pp. 1-33.
    5. Bandara, K., Shi, P., Bergmeir, C., Hewamalage, H., Tran, Q., and Seaman, B., Sales Demand Forecast in E-commerce Using a Long Short-Term Memory Neural Network Methodology. In: Gedeon, T., Wong, K., Lee, M. (eds), Neural Information Processing, ICONIP 2019. Lecture Notes in Computer Science, 2019, Vol. 11955.
    6. Barrow, D.K. and Crone, S.F., A Comparison of AdaBoost Algorithms for Time Series Forecast Combination, International Journal of Forecasting, 2016, Vol. 32, No. 4, pp.1103-1119.
    7. Borovykh, A., Bohte, S., and Oosterlee, C.W., Conditional Time Series Forecasting with Convolutional Neural Networks, arXiv [cs.AI], 2017, pp. 1-22.
    8. Cha, H.C., A Big Data Analysis for Demand Forecasting of Multi-variety Small-volume Sales Environment– Focusing on a Case of Selling Electronic Parts, Journal of Korea Multimedia Society, 2022, Vol. 25, No. 12, pp. 1681-1688.
    9. Chapados, N., Effective Bayesian Modeling of Groups of Related Count Time Series, Proceedings of the 31st International Conference on Machine Learning in Proceedings of Machine Learning Research, 2014, Vol. 32, No.2, pp.1395-1403. https://proceedings.mlr.-press/v32/chapados14.html.
    10. Du, S., Wang, J., Wang, M., Yang, J., Zhang, C., Zhao, Y., and Song, H., A Systematic Data-driven Approach for Production Forecasting of Coalbed Methane Incorporating Deep Learning and Ensemble Learning Adapted to Complex Production Patterns, Energy, 2023, Vol. 263, Part E, No. 15, p. 126121.
    11. George, E.P.B., Gwilym, M.J., Gregory, C.R., and Greta, M.L., Time Series Analysis: Forecasting and Control, Wiley, Hoboken, 2015.
    12. Grootendorst, M.R., BERTopic: Neural Topic Modeling with a Class-based TF-IDF Procedure, ArXiv, abs/2203.05794, 2022, pp. 1-10.
    13. Han, K., Yu, Y., Na, D., Jung, H., Heo, Y., Jeong, H., Yun, S., and Kim, J., Understanding Postal Delivery Areas in the Republic of Korea using Multiple Unsupervised Learning Approaches, ETRI Journal, 2022, Vol. 44, No. 2, pp. 333-351.
    14. Hyndman, R., Koehler, A., Ord, K., and Snyder, R., Forecasting with Exponential Smoothing: The State Space Approach, Springer, Heidelberg, 2008.
    15. Isinkaye, F.O., Folajimi. Y.O., and Ojokoh, B.A., Recommendation Systems: Principles, Methods, and Evaluation, Egyptian Informatics Journal, 2015, Vol. 16, No. 3, pp. 261-273.
    16. Ju, C., Bibaut, A., and Van Der Laan, M., The Relative Performance of Ensemble Methods with Deep Convolutional Neural Networks for Image Classification, Journal of Applied Statistics, 2018, Vol. 45, No. 15, pp.2800– 2818.
    17. KCCI, Korea 2023 Distribution Logistics Statistics Collection, Korea Chamber of Commerce and Industry, 2023. (Last accessed at: 24.04.24, www.korcham.net)
    18. Kim, H., Ryu, G., Cai, J., and Son, H., A Study on the AI Model for Prediction of Demand for Cold Chain Distribution of Drugs, The Journal of the Convergence on Culture Technology (JCCT), 2023, Vol. 9, No. 3, pp. 763-768.
    19. Kim, Y.N., Ryu, S.C., and Kim, H., A Study on Demand Forecasting Method for Optimal Operation of the Fulfillment Center, Journal of The Institute of Electronics and Information Engineers, 2023, Vol. 60, No. 4, pp. 466-471.
    20. Koren, Y., Rendle, S., and Bell, R. (2022). Advances in Collaborative Filtering. In: Ricci, F., Rokach, L., Shapira, B. (eds), Recommender Systems Handbook. Springer, New York, NY.
    21. Lee, K.H. Bang, S.H. Young, J.J. and Shin, K.S., Demand Forecasting Model Development using Machine Learning - Case of Mongolian Retail Company, Korea Logistics Review, 2022, Vol. 32, No. 6, pp. 111-120.
    22. Lee, W.C., Toon, H.S., and Jeong, S.B., Collaborative Filtering for Credit Card Recommendation Based on Multiple User Profiles, Journal of Society of Korea Industrial and Systems Engineering, 2017, Vol. 40, No. 4, pp. 154-163.
    23. McKinsey and Company, Notes form The AI Frontier Insights from Hundreds of Use Case, McKinsey Global Institute, 2018, pp. 1-36.
    24. Pu, P., Chen, L., and Hu, R., A User-centric Evaluation Framework for Recommender Systems, Proceedings of the fifth ACM conference on Recommender Systems (RecSys ’11), ACM, New York, NY, USA, 2011, pp.57– 164.
    25. Ramachandran, P., Zoph, B., and Le, Q.V., Searching for Activation Functions, arXiv preprint arXiv:1710.05941, 2017, pp. 1-13.
    26. Salinas, D., Flunkert, V., Gasthaus, J., and Januschowski, T., DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks, International Journal of Forecasting, 2017, Vol. 36, No. 3, pp. 1181-1191.
    27. Seyedan, M., Mafakheri, F., and Wang, C., Order-to-level Inventory Optimization Model using Time-series Demand Forecasting with Ensemble Deep Learning, Supply Chain Analytics, 2023, Vol. 3, pp.100024.
    28. Statistics Korea, Trend of Service Industry at 2023, Statistics Korea, 2023 (last accessed at 24.04.24, www.index.go.kr).
    29. Trapero, J.R., Kourentzes, N., and Fildes, R., On the Identification of Sales Forecasting Models in the Presence of Promotions, Journal of the Operational Research Society, 2015, Vol. 66, pp. 299–307.
    30. Wen, R., Torkkola, K., Narayanaswamy, B., and Madeka, D., A Multi-horizon Quantile Recurrent Forecaster, arXiv [stat.ML], 2017, pp. 1-9.
    31. Yoo, S.Y., Yoon, S.G., and Park, M.Y., Determining Optimal Data Structure for Improving Demand Forecasting Accuracy, Journal of Distribution and Logistics, 2022, Vol. 9, No. 4, pp. 5-17.