Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.43 No.4 pp.59-66
DOI : https://doi.org/10.11627/jkise.2020.43.4.059

Forecasting Foreign Visitors using SARIMAX Models with the Exogenous Variable of Demand Decrease

Geun-Cheol Lee*, Seong-Hoon Choi**
*College of Business Administration, Konkuk University
**Depart. of Management Engineering, Sangmyung University
Corresponding Author : shchoi@smu.ac.kr
28/09/2020 03/11/2020 26/11/2020

Abstract


In this study, we consider the problem of forecasting the number of inbound foreigners visiting Korea. Forecasting tourism demand is an essential decision to plan related facilities and staffs, thus many studies have been carried out, mainly focusing on the number of inbound or outbound tourists. In order to forecast tourism demand, we use a seasonal ARIMA (SARIMA) model, as well as a SARIMAX model which additionally comprises an exogenous variable affecting the dependent variable, i.e., tourism demand. For constructing the forecasting model, we use a search procedure that can be used to determine the values of the orders of the SARIMA and SARIMAX. For the exogenous variable, we introduce factors that could cause the tourism demand reduction, such as the 9/11 attack, the SARS and MERS epidemic, and the deployment of THAAD. In this study, we propose a procedure, called Measuring Impact on Demand (MID), where the impact of each factor on tourism demand is measured and the value of the exogenous variable corresponding to the factor is determined based on the measurement. To show the performance of the proposed forecasting method, an empirical analysis was conducted where the monthly number of foreign visitors in 2019 were forecasted. It was shown that the proposed method can find more accurate forecasts than other benchmarks in terms of the mean absolute percentage error (MAPE).



수요감소 요인 외생변수를 갖는 SARIMAX 모형을 이용한 관광수요 예측

이 근철*, 최 성훈**
*건국대학교 경영대학
**상명대학교 경영공학과

초록


    1. 서 론

    세계경제포럼(World Economic Forum)이 2019년에 발 표한 국가별 관광경쟁력 순위에서 우리나라는 16위에 올 랐다. 역대 최고 순위이기는 하지만, 우리나라의 무역액 순위가 2019년 세계 9위라는 점을 고려하면 관광경쟁력 은 상대적으로 약하다고 볼 수 있다. 또한, OECD 회원 국 중 국내총생산 대비 관광산업의 비중이 가장 낮다는 점에서(36개국 중 36위) 국내 관광산업의 성장을 위한 노력이 요구된다. 다행히 국내 관광을 위한 외래방문객 수는 꾸준히 증가하고 있으며, 이를 통해 내수 활성화와 일자리 창출에 많은 기여를 한 것으로 보고 있다[10].

    이처럼 관광산업의 발전은 국가적으로 고용, 소득, 세 수 증대 등을 기대할 수 있으므로 국가마다 경쟁 우위를 확보하기 위하여 많은 노력을 하고 있는데 이를 위해서 는 미래의 관광수요를 정확히 예측하여 수요에 맞는 계 획을 수립하는 것이 매우 중요하다[1, 13]. 관광수요를 과소 예측하면 기회비용이 발생하고 서비스 질은 하락하 게 된다. 반대로 과대 예측하면 관련 시설 및 인력의 유 휴가 발생하여 큰 어려움을 겪게 된다. 따라서, 관광수요 를 정확하게 예측할 수 있는 능력은 관광산업에서 경쟁 우위를 확보하기 위해 반드시 보유해야 하는 핵심역량으 로 볼 수 있다[6].

    관광수요 예측 분야의 중요성으로 인하여 관련 국내외 연구가 많이 수행되었다. 몇 가지 관광수요 예측에 관한 조사 연구 논문을 통해 그 추세와 내용을 파악할 수 있다 [1, 11, 12]. 관광수요 예측에 관한 연구는 그 예측 기법에 따라 크게는 정량적 예측 연구와 정성적 예측 연구로 나 뉘지만, 실제 대부분의 연구는 정량적 방법에 기반한 연 구로 분류된다. 정량적 방법을 사용하는 추세는 최근에 더 강하게 나타나고 있는데, 이는 데이터 기반의 의사결 정이 중시되는 최근 경향에 따른 것으로 볼 수 있다. 정량 적 예측 기법의 경우, 다시 시계열 기법과 인과형 기법으 로 분류될 수 있는데[13], 인과형 기법의 경우 독립변수를 선정해야 하는 부담감으로 인해 단일 변량만을 사용하는 시계열 모형을 이용한 예측 방법이 많은 연구자에 의해 선택되고 있다[2]. 이는 가장 최근의 서베이 논문이 조사한 221개의 논문 중에서 91개의 논문이 ARIMA(AutoRegressive Integrated Moving Average, 자기회귀누적이동평균) 기반 의 시계열 모형을 이용하여 관광수요를 예측했다는 조사 결과에서도 확인할 수 있다[12].

    국내 관광수요 예측 연구의 특징은, 특정 국가의 외래 객에 초점을 맞추어 수요를 예측한 연구가 다수를 이루 고 있다는 점이다. 2016년 기준으로 국가별 외래객 점유 율은 중국 45.3%, 일본 13.9%, 미국 5.8%로 소수의 국가 가 외래객의 대부분을 차지하고 있다는 점에서 이러한 특징은 당연하다고 할 수 있다[5]. 점유율에서 보듯이 많 은 연구들이 중국인과 일본인 외래객에 초점을 둔 관광 수요 예측을 수행하였다. 최근 연구를 중심으로 몇 가지 연구를 소개하면, 박득희 등[7]은 몇 가지 시계열 모형을 이용하여 방한 일본인 관광객의 수요를 예측하였으며, 윈터스 승법 모형을 가장 적합한 모형으로 선정하였다. 임성식[6]은 중국인과 일본인 관광객 수를 예측하기 위 하여 ARIMA-개입모형을 적용하여 메르스 유행과 사드 배치와 같은 외부충격요인을 반영하였고, 예측 성능의 향상을 확인할 수 있었다. Park et al.[9]은 구글 트렌드에 서 제공되는 검색 자료를 활용하여 일본인들의 방한 수 요의 예측 정확도를 향상시킬 수 있었다. 박득희 등[8]은 중국인 관광객 수를 여러 가지 정량적인 예측 방법을 적 용하여 윈터스 승법 모형이 가장 예측 정확도가 높은 모 형임을 확인하였다. 김삼용 등[4]은 중국, 일본 등 방한 상위 4개국의 외래객에 대하여 계절형 ARIMA모형, 오 차수정모형 등을 적용하여 계절효과를 고려하는 예측모 형이 필요하다는 것을 확인하였다.

    본 연구에서는 특정 국가의 외래객에 초점을 맞추어 수요를 예측한 다수의 기존 연구와 달리 우리나라에 입 국하는 전체 외래관광객의 수를 예측하는 것에 초점을 맞춘다. 전체 외래관광객수에 초점을 맞추는 만큼 본 연 구의 결과는 국가 차원의 관광 정책 개발, 관광 시설 운 영 등에 실질적인 도움을 줄 수 있을 것이라 기대한다. 그리고, 본 연구에서는 방한 외래객의 수요를 예측하기 위하여, 별도의 독립변수를 고려할 필요가 없는 단변량 시계열 모형을 기본적으로 사용하고자 한다. 하지만, 관 광수요는 펜데믹, 국제적 사건/사고 등에 의하여 크게 영 향을 받는 것도 사실이기 때문에, 이러한 외부요인도 예 측모형에 포함시킬 필요가 있다. 기존 연구에서는 개입 모형 또는 외생변수를 이용하여 외부요인을 고려하였고 예측성능 향상을 확인할 수 있었다[6, 9].

    본 연구에서는 외생변수를 도입하여 외부요인을 고려 하고자 하며, 2천 년대 들어서 외래방문객 수에 크게 영 향을 미친 주요 사건으로, 911테러, 사스(SARS, Severe Acute Respiratory Syndrome) 유행, 메르스(MERS, Middle East Respiratory Syndrome) 유행, 사드(THADD, Terminal High Altitude Area Defense) 배치 사태, 이렇게 네 가지를 고려한다. 본 연구에서는, 기존 연구와 달리, 이러한 외부 요인을 고려할 때 요인별로 관광수요에 미치는 영향 정도 를 차별화하여 반영한다. 차별화된 외부요인의 영향 수준 을 측정하기 위하여 본 연구에서는 요인별 외생변수 값을 선정하는 절차(Measuring Impact on Demand procedure, 이하 MID)를 제안한다. 관광수요에 대한 외부요인의 유 무만을 고려하는 것이 아니라, 외부요인을 차별적으로 반 영할 수 있도록 하는 것이다. 향후 관광수요를 예측할 때, 본 연구에서 제안하는 MID를 활용하면, 외부요인의 영향 도를 상대적으로 측정할 수 있고, 이를 바탕으로 정교한 수요 분석 및 예측을 할 수 있을 것이다. 각 외부요인에 대한 외생변수 값 설정 방법은 3장에서 소개한다.

    본 논문의 나머지는 다음과 같이 구성되어 있다. 다음 장에서는 본 연구에서 사용하는 예측모형에 대한 이론적 인 설명을 하고, 제 3장에서는 제안된 모형과 외부요인 차별화 과정을 통하여 실제 관광수요를 예측하는 절차를 소개한다. 그리고 제안된 예측 방법의 우수성을 검증하 기 위하여, 기존 방법들과의 비교 실험을 수행한다. 마지 막 장에서는 연구의 결론과 함께, 연구의 확장 방향 등을 소개하면서 논문을 마무리 짓는다.

    2. 시계열 모형

    이 장에서는 본 연구에서 방한 외래관광객 수를 예측하기 위해 사용하는 시계열 모형, 즉 SARIMA(Seasonal ARIMA) 모형과 SARIMAX(SARIMA with eXogenous variable)모 형에 대해 설명한다.

    2.1 ARIMA모형과 SARIMA모형

    ARIMA모형은 Song et al.[12]에도 소개되었듯이, 관광 수요 예측 분야에서 가장 많이 사용되는 단변량 시계열 모형이다. 비단, 관광수요 예측 분야뿐 아니라, 그 활용의 유연성으로 인해 수요예측 분야에서는 가장 많이 사용되 는 모형 중 하나이다. ARIMA(p, d, q)모형은 d차 차분된 시계열에 대한 ARMA(p, q)모형이고, 이 모형은 p개의 AR(자기회귀)항과 q개의 MA(이동평균)항으로 관측치를 설명하는 시계열 모형으로 이해할 수 있다. 여기서, p, d, q를 각각 AR차수, 차분 차수, MA차수라고 칭한다. 시계 열 { Yt}가 평균이 μ일 때 ARIMA(p, d, q)모형은 다음과 같이 작성될 수 있다.

    ϕ p ( B ) ( 1 B ) d ( Y t μ ) = θ q ( B ) t
    (1)

    이때, ϕ p ( B ) = 1 ϕ 1 B ϕ 2 B 2 ϕ p B p 이고, θ q ( B ) = 1 + θ 1 B + θ 2 B 2 + + θ q B q 인데, ϕ 1 , ϕ 2 , , ϕ p 가 AR항의 모수 이며, θ 1 , θ 2 , , θ q 가 MA항의 모수가 된다. B는 후진 연산 자, 즉 BkYt = Yt-k이다. 그리고, t는 백색잡음(White-noise) 이다.

    한편 SARIMA(Seasonal ARIMA)모형은 ARIMA모형에 계절과 같은 주기성을 추가한 시계열 모형이다. SARIMA 모형에서 주기는 s로 표시되는데, 월별 자료를 이용하는 경우 일반적으로 12의 주기를 갖는다. SARIMA모형은 차 분된 시계열에 AR항과 MA항을 이용하여 모형을 구성한 것에 더하여 D차 계절 차분 후에 P개의 계절 AR(Seasonal AR, SAR)항과 Q개의 계절 MA(Seasonal MA, SMA)항을 추가로 이용하여 모형을 구성한다. 시계열 { Yt }가 평균이 μ일 때 SARIMA(p, d, q)(P, D, Q)s모형은 다음과 같이 작 성될 수 있다.

    ϕ p ( B ) Φ P ( B s ) ( 1 B ) d ( 1 B s ) D ( Y t μ ) = θ q ( B ) Θ Q ( B s ) t
    (2)

    이때, Φ P ( B s ) = 1 Φ 1 B s Φ 2 B 2 s Φ P B P s 이고, Θ Q ( B s ) = 1 + Θ 1 B s + Θ 2 B 2 s + + Θ Q B Q s 인데, Φ 1 , Φ 2 , , Φ P 가 SAR항의 모수이며, Θ 1 , Θ 2 , , Θ Q 가 SMA항의 모수가 된 다. 나머지 기호는 식 (1)에서 사용한 기호와 동일하다.

    2.2 외생변수를 갖는 SARIMA모형

    외생변수를 갖는 SARIMA모형은 일반적으로 SARIMAX 모형으로 표기된다. 본 연구에서는 911, 사스, 메르스, 사 드, 이렇게 네 가지 외부충격요인을 고려하지만, 외생변수 는 하나만을 이용한다. 즉, 네 가지 사건 모두 관광수요를 위축시키는 요인으로 보고 외생변수도 수요감소를 요인을 반영하는 용도로 사용된다. 시계열 { Yt }의 평균이 μ일 때, 수요감소 요인을 외생변수로 반영한 SARIMAX(p, d, q)(P, D, Q)s모형은 다음과 같이 작성될 수 있다.

    ϕ p ( B ) Φ P ( B s ) ( 1 B ) d ( 1 B s ) D ( Y t μ ) = θ q ( B ) Θ Q ( B s ) t + γ X t
    (3)

    이때, γ는 외생변수 Xt의 모수이다. 나머지 기호는 식 (1)과 (2)에서 설명된 것과 동일하다. 본 연구에서는 관광 수요를 위축시키는 네 가지 사건을 고려하는데 각각의 영 향도가 다를 수 있다는 것을 가정하여 외생변수 값을 결 정하고자 한다. 외생변수 값을 결정하는 절차는 제 3.4절 에 소개되어 있다.

    3. 실증 분석

    본 연구에서는 1996년부터 2018년까지의 월별 방한 외래관광객수 자료를 이용하여 관광수요에 대한 분석을 수행하고 나아가 예측모형을 만들고, 만들어진 예측모형 을 이용하여 2019년도 12개월에 대한 예측을 수행하고 자 한다. 외래관광객수 자료는 한국관광공사의 홈페이지 (kto.visitkorea.or.kr)에서 수집하였다. 본 연구에서는 시계 열 분석 모형의 식별, 추정, 그리고 예측 등의 다양한 통 계 분석을 위해 통계 소프트웨어인 R을 사용하였다.

    3.1 시계열 변환

    SARIMA모형을 적합하기 위하여 주어진 원 시계열의 정상성(stationarity)을 확인하고, 필요시 적절한 변환을 취 해줄 필요가 있다. <Figure 1>은 1996년부터 2018년까지 의 방한 외래관광객수의 월별 추이를 그래프로 나타낸 것 이다. 그림에서 알 수 있듯이 외래객 수는 꾸준히 증가해 왔고 최근 들어서 그 증가 추세가 강하게 나타나고 있다.

    이러한 추세가 보이는 시계열은 정상성을 의심할 수 있는데, 정상성의 확인을 위하여 Augmented Dickey-Fuller (ADF) 검정을 수행한 결과, DF 통계량은 -3.16, p-value 는 0.0943으로 나타나, 유의수준 0.01에서 정상성을 따르 지 않는다는 귀무가설을 채택하게 된다. 정상성을 확보 하기 위해서, 본 연구에서는 최근의 강한 추세를 로그변 환을 통해 상쇄시키고 선형의 추세는 차분을 통해 상쇄 시킨다. 아울러 외래관광객 수요는 여름철이 높은 계절 성이 예상되는데, 이를 확인하기 위하여 QS 계절성 검정 을 수행하였고, QS통계량 102.41, p-value는 0에 가까운 값이 나타나 원 시계열의 계절성을 확인하였다. 이러한 계절성을 상쇄시키기 위하여 계절 차분도 수행한다.

    <Figure 2>에는 원 시계열을 로그변환하고 일반 차분과 계절 차분하여 구해진 시계열의 그래프가 나타나 있다. 전체적으로 정상성을 갖는 시계열의 형태를 보이나, 2000 년대 초반과 최근에 변동성이 크게 발생하는 것이 확인된 다. 해당 시기에 발생한 911테러, 사스 유행, 메르스 유행, 사드 사태와 같은 외부 요인이 외래관광객 수에 큰 영향 을 준 것으로 짐작할 수 있다. 정상성을 확인하기 위하여 변환 시계열에 대해서도 Augmented Dickey-Fuller 검정를 수행하였고, p-value가 0.01보다 작은 수치를 확인하였다. 변환 시계열에 대해 정상성이 확보되었다고 보고 다음 단 계를 진행한다.

    3.2 모형 식별

    모형 식별 단계에서는 SARIMA모형의 차수, 즉 p, d, q, P, D, Q값을 결정한다. 차분 차수 d와 D는 앞서 두 번의 차분을 통해 정상성을 확보했으므로, 각각 1로 결정한다. 그리고, 시계열의 주기(s)는 월별 데이터이므로 12로 지정 한다. 나머지 차수 중 자귀회귀항과 관련된 p와 P는 편자 기상관함수(Partial Auto-Correlation Function, PACF)를 통 해 그 후보 값을 선정할 수 있고, 이동평균항과 관련된 q와 Q는 자기상관함수(Auto-Correlation Function, ACF)를 통 해 그 후보 값을 선정할 수 있다. 다음 단계에서는, 선정된 후보 차수 조합에 대하여 모형 선별 기준으로 알려진 AIC (Akaike Information Criterion)와 BIC (Bayes Information Criterion)값을 산출한다. AIC와 BIC 값은 아래와 같은 식 으로 산출된다[3].

    A I C = N log ( S S E N ) + 2 ( k + 2 )
    (3)

    B I C = N log ( S S E N ) + ( k + 2 ) log ( N )
    (4)

    위 식에서 N은 관측치의 수이며, k는 모수의 개수이다. AIC와 BIC값이 작을수록 모형이 더 적합이 잘 된 것을 의미하므로 작은 IC값을 갖는 차수 조합을 찾는다. 최종적 으로 AIC와 BIC가 유사한 수준의 작은 값을 갖는다면, 차 수의 합이 작은, 즉, 더 간단한 모형을 선정한다(Parsimony principle). 구체적인 차수 값 선정 절차는 다음과 같다.

    <Figure 3>에 ACF와 PACF함수 그래프가 나타나 있다. 그림 상단의 ACF함수의 처음 세 곳에서 유의수준(점선)을 넘는 도출선이 나타나므로 MA항의 차수(q) 값을 1, 2, 3 중에 하나로 선정한다. ACF함수로부터는 SMA항의 차수 (Q)의 후보 값도 선정할 수 있다. Lag 12, 즉 1s에서 두드 러진 도출선이 나타나므로 0과 1을 후보 값으로 선정한다. 그림 하단의 PACF함수를 보면 처음 두 곳에서 유의수준 을 넘는 도출선이 발생하므로 AR항의 차수(p) 후보 값을 1과 2로 정한다. 마지막으로 SAR항의 차수(P) 값을 찾기 위해 PACF함수에서 주기(12)마다 도출된 선을 확인하면, 12, 24, 36(= 1s, 2s, 3s)에 유의미한 도출선을 찾을 수 있다. 따라서 P의 후보 값으로 1, 2, 3을 선정한다.

    총 36(= 3×2×2×3)가지의 p, q, P, Q 조합을 갖는 SARIMA 모형의 AIC값을 모두 산출한다. 모든 조합 중 SARIMA (1,1,2)(0,1,1)12모형이 가장 작은 AIC값(-1060.43)을 보이 고, 해당 모형의 차수의 합도 6(= 1+1+2+0+1+1)으로 작 은 편에 속하므로 해당 모형을 최종 모형으로 선정한다. 이 모형은 BIC값도 -1042.57로 36개 후보 모형 중에 가 장 작은 값을 갖는다.

    3.3 모형 추정

    앞서 선정된 모형의 p, q, P, Q 값이 각각 1, 2, 0, 1이 기 때문에, 하나의 AR항 모수(ϕ1 ), 두 개의 MA항 모수 (θ1, θ2), 그리고 하나의 SMA항 모수(Θ1) 값을 추정하여 모형을 최종적으로 완성한다. 추정된 각 모수의 값이 아 래 <Table 1>에 정리되어 있다.

    3.4 외생변수 설정

    관광수요는 외부 충격 요인에 의해서 영향을 받을 수 있다. 2천년대 들어서 국내 외래객 방문수도 펜데믹 유 행 등과 같은 충격 요인에 의해 크게 변동했다. 본 연구 에서는 외래관광객의 수요를 예년보다 유의미하게 감소 시키는 사건을 선정하고 해당 사건의 영향이 미치는 기 간 동안에 외생변수 값을 지정하여 예측모형을 완성하고 자 한다. 1996년부터 2018년까지 다양한 사건이 관광객 수요의 증가와 감소에 영향을 미쳤지만, 그중에서 수요 감소에 큰 영향을 미친 네 가지 사건(911테러, 사스 유 행, 메르스 유행, 사드 사태)을 선정하였고, 각 사건이 영 향을 주었던 기간을 검색하여 <Table 2>에 정리하였다.

    본 연구에서는 각 사건을 별도의 외생변수로 정의하 지 않고 네 가지 사건 모두 공통으로 수요감소 유발 요 인으로 보고 하나의 외생변수로 표현하는데, 각 사건에 따라, 그 크기를 다르게 지정할 수 있도록 한다. 따라서, 수요감소 요인이라는 외생변수에 대한 값을 결정하는 절 차를 별도로 고안한다. 본 연구에서는 이러한 절차로 MID를 제안하고자 한다. 외부 요인의 수요 영향도 측정 절차, MID의 전체 구조는 <Figure 3>과 같다.

    이제 MID를 단계별로 상세히 설명하기로 한다. 먼저, 외생변수가 각 사건의 영향 기간 동안 어떤 값을 가질지 에 대한 대안을 준비한다. 본 연구에서는 여덟 가지의 대 안을 도출하였고 대안별 각 사건의 영향 기간 동안 지정 된 외생변수 값이 <Table 3>에 정리되어 있다. 우선 네 가지 사건의 영향 기간이 아닌 기간은 수요감소 요인이 없다고 보고 외생변수 값을 모두 0으로 지정하였다. 여 덟 가지 대안은 전체적인 방향은 최근 사건일수록 수요 감소 영향도가 더 작아지지는 않는 것이다. 첫 번째 대안 은 네 가지 사건 모두 동일한 수요감소 영향도를 갖는다 고 가정하였고, 나머지 대안은 최근 사건일수록 점점 영 향도가 달라지는데, 그 영향의 증가 정도를 다르게 설정 하였다.

    외생변수 값에 대한 대안이 준비되었으면, 준비된 대 안 중에 과거 시계열에 대하여 설명력이 가장 우수한 대 안을 찾는다. 각 대안을 선택한 후, 해당 대안을 외생변 수 값으로 갖는 SARIMAX(1,1,2)(0,1,1)12모형을 적합하 여 AIC와 BIC값을 산출한다. 모든 대안에 대하여 이와 같은 절차를 반복한 후 AIC와 BIC 값이 가장 작은 대안 을 최종 대안으로 선택한다.

    <Table 4>에는 각 대안별 SARIMAX모형의 AIC와 BIC 값이 정리되어 있다. AIC와 BIC값 모두 세 번째 대안 (Option 3)이 가장 작은 값을 보이고 있다는 점에서 해당 대안을 토대로 외생변수 값을 확정한다. 구체적으로 외생 변수(Xt)의 값은 911과 SARS 영향 기간에는 1, MERS와 THADD 영향 기간에는 2, 그리고 나머지 기간에는 0으로, 아래와 같이 지정된다.

    X t = { 1 , 2001 / 9 / 1 t 2002 / 8 / 31 , 2003 / 2 / 1 t 2003 / 10 / 31 2 , 2015 / 6 / 1 t 2015 / 12 / 31 , 2017 / 3 / 1 t 2018 / 2 / 28 0 , o t h e r w i s e
    (5)

    확정된 외생변수 값을 해석하자면, 911테러와 사스 유 행의 수요감소 영향도가 동일할 때, 메르스 유행과 사드 사태는 수요감소 영향도가 상대적으로 더 크다고 보는 것 이 제안 SARIMAX모형을 통해 과거 시계열을 가장 잘 설명하는 것이라고 할 수 있다. 아울러, 앞 절에서 선정된 SARIMA모형의 경우 AIC값이 -1060.43이었는데, 외생변 수를 사용하는 SARIMAX모형은 모두 더 작은 AIC값을 갖 는다는 점에서 SARIMAX모형이 단일 변량이라는 SARIMA 모형의 단점을 잘 극복하고 더 높은 설명력을 보이고 있다 고 할 수 있다.

    3.5 예측

    앞서 여러 절차를 통해 최종적으로 확정된 SARIMAX (1,1,2)(0,1,1)12모형은 1996년부터 2018년까지의 월별 외래 관광객수와 제 3.4절에서 지정된 외생변수 값을 이용하여 만들어졌다. 이 모형을 사용하여 2019년 12개월 동안의 월 별 외래관광객수를 예측하였는데, 2019년에는 관광수요감 소 요인이 없을 것이라고 가정하여 12개월 동안의 외생변 수 값을 모두 0으로 지정하고 예측을 수행하였다. <Figure 4>에는 2019년 월별 실제 외래관광객수와 예측값이 선그래 프로 나타나 있다. 예측치는 SARIMAX모형뿐 아니라 SARIMA모형으로부터 구해진 예측치도 각각 짧은 점선과 긴 점선으로 표시되어 있다. 전체적으로 실제 수요의 양상 을 예측치가 유사하게 예측하고 있으며, 예측치 중에서는 수요감소 요인을 외생변수로 고려하는 SARIMAX 모형이 실 제 수요와 대체로 가깝게 나타나는 것을 확인할 수 있다.

    제안 SARIMAX모형의 예측 성능을 명확히 확인하기 위하여 12개 예측치마다 절대백분율오차(Absolute Percentage Error, APE), “|실제값-예측값|/실제값×100”을 이용하여 오차를 측정하였다. <Table 5>에는 SARIMA모형과 SARIMAX모형을 이용하여 산출한 월별 예측치의 APE값이 정리 되어 있다. 표의 마지막 행에는 APE의 평균과 표준편차가 제시되어 있다. APE의 평균은 Mean APE, 즉 MAPE이다. 수요감소 요인이라는 외생변수를 고려함으로써 2%에 가 까운 MAPE의 감소를 확인할 수 있다.

    3.6 비교 실험

    이 장에서는 제안 모형의 예측 성능을 더 객관적으로 평가하기 위해서 잘 알려진 기존 예측 방법과 비교 실험을 수행한다. 비교 벤치마킹 방법으로는 ARIMA모형과 Holt- Winters모형을 사용한다. ARIMA모형은 기본 모형과 계절 모형을 사용하는데, 벤치마킹에서 각 모형의 차수는 R의 auto.arima()함수를 이용하여 지정한다. auto.arima()함수를 이용하여 차수가 결정된 ARIMA모형과 SARIMA모형은 각각 ARIMA(2,1,4)와 SARIMA(1,1,2)(2,0,0)12이다. Holt- Winters모형의 경우에 추세와 계절성을 모두 고려하는 삼 중 지수평활법(Triple Exponential Smoothing)을 사용하는 데, 계절요인을 가법(additive)과 승법(multiplicative)로 각 각 고려하여 적용한다.

    2019년 월별 외래관광객수 예측에 대한 여러 가지 예측 방법의 MAPE를 정리하면 <Table 6>과 같다. 우선, 제안 된 SARIMAX모형이 월등한 예측 성능을 보이는 것을 알 수 있다. R의 auto.arima()함수로 구해진 차수를 이용한 ARIMA모형이나 SARIMA모형의 성능은 MAPE 측면에 서 두 자릿수가 나타나는 등 매우 안 좋은 결과가 확인되 었다. 특히, SARIMA(1,1,2)(2,0,0)12모형의 경우, ARIMA 모형보다도 안 좋은 성능을 보여준다는 점에서 SARIMA 모형의 차수를 알맞게 결정하는 것이 반드시 필요한 절차 임을 확인할 수 있다. Holt-Winters방법의 경우, 8% 내외의 MAPE로, 비교적 계산이 간단한 예측모형임에도 ARIMA 모형보다는 좋은 결과를 보이고 있다.

    4. 결 론

    본 논문에서는 국내에 입국하는 외래관광객수를 예측 하는 시계열 모형을 제안하였다. 제안 모형에서는 외래 관광수요를 감소시킬 수 있는 요인을 외생변수로 반영하 여 단일 변량 시계열 모형의 단점을 극복할 수 있었다. 본 연구에서는 2천년대 이후에 발생했던, 911테러, 사스 및 메르스 유행, 사드 배치 등의 사건을 관광수요 감축에 주요한 영향을 미친 요인으로 선정하였고, 해당 사건이 영향을 미치는 기간의 외생변수 값을 MID를 이용하여 알맞게 설정하여 시계열 모형에 반영하였다. 그렇게 만 들어진 SARIMAX모형을 이용하여 2019년 월별 외래관 광객 수를 예측하였고, MAPE 측면에서 3%대의 예측 성 능을 확인할 수 있었다. 이러한 예측 성능은 기존의 예측 방법과 비교해보았을 때 더 우수한 성능이라는 것도 실 험 결과를 통해 확인하였다.

    본 연구는 다양한 방향으로 확장이 가능하다. 먼저, 본 연구에서는 국내를 입국하는 전체 관광객 수에 대한 예 측을 수행하였지만, 특정 국적 관광객수에 대한 예측으 로 확장 적용할 수 있다. 특히, 몇몇 국가의 관광객에 많 이 의존하는 방한 관광수요의 특성상, 해당 국적 관광객 수요의 특징을 고려한 관광수요의 예측이 별도로 수행될 필요가 있다. 이렇게 국가별 외래방문객수의 예측을 별 도로 진행한 후 다시 종합하여 전체 외래관광객수를 예 측하는 절차도 고려할 수 있다. 아울러 추후 연구로 외생 변수를 다양한 방법으로 도입하는 것을 고려할 수 있겠 다. 본 연구에서는 수요감소 요인이라는 외생변수를 고 려하고 있지만, 수요 증가 요인과 같은 추가적인 외생변 수의 도입도 가능하고, 외생변수의 값을 지정하는 방법 도 새롭게 고안해볼 수 있다. 이렇게 결정된 외생변수 값 은 해당 기간 동안 특정 사건이 수요 변동에 얼마나 영 향을 미쳤는가를 대략적으로 확인할 수 있는 용도로도 사용될 수 있다. 마지막으로, 2020년의 COVID-19 사태 와 같이 새로운 관광수요 영향요인이 발생한 경우에도 본 연구의 결과가 사용될 수 있다. 즉, 제안된 MID 절차 를 통해 신규 요인이 관광수요에 미치는 영향을 정량화 하여 해당 기간의 외생변수 값으로 지정한 후, 이후 기간 의 관광수요 예측 시 모형에 반영하여 적용한다면 정확 한 수요예측에 도움이 될 것으로 기대한다.

    Figure

    JKISE-43-4-59_F1.gif

    Number of Monthly Foreign Visitors During 1996 and 2018

    JKISE-43-4-59_F2.gif

    Log Transformed and Double Differenced Time Series

    JKISE-43-4-59_F3.gif

    ACF and PACF Graph

    JKISE-43-4-59_F3-1.gif

    The Overall Structure of MID

    JKISE-43-4-59_F4.gif

    Actual and Forecasted Monthly Visitors During 2019

    Table

    Estimated coefficients of SARIMA(2,1,1)(0,1,1)12

    Events Affecting Tour Demand and their Periods

    Specified Values of the Exogenous Variable Under Eight Options

    AICs and BICs of the SARIMAX Models with Different Values of the Exogenous Variable

    Monthly APEs of the SARIMA and SARIMAX

    MAPE Results of Various Models

    Reference

    1. Choi, H.K., A Study on the Forecasting Technique Tourism Demand, Journal of Tourism Systems and Quality Management, 2001, Vol. 7, No. 3, pp. 219-238.
    2. Choi, Y.M., Improvement of Accuracy in Forecasting Tourism Demand, Journal of Tourism Sciences, 1999, Vol. 22, No. 3, pp. 222-242.
    3. Hyndman, R.J. and Athanasopoulos, G., Forecasting : principles and practice, 2nd Edition, OTexts, 2018.
    4. Kim, S.Y. and Lee, J.H., A Study on the Seasonal Effects of the Tourism Demand Forecasting Models, The Korean Journal of Applied Statistics, 2011, Vol. 24, No. 1, pp. 93-102.
    5. Lee, K.W., Oh, Y.R., and Song, C.J., Analysis of International Tourism Demand Factors and their Impacts in Korea, Korea Culture and Toursim Institute, Research Report 2017-04, 2017.
    6. Lim, S.S., A comparative study on the accuracy of tourism forecasting models, Journal of the Korean Data and Information Science Society, 2018, Vol. 29, No. 6, pp. 1629-1641.
    7. Park, D., Kang, S., and Lee, G., Demand forecasting of Japanese tourists to Korea for sustainable tourism growth, International Journal of Tourism and Hospitality Research, 2020, Vol. 34, No. 3, pp. 47-60.
    8. Park, D.H., Lee, G.H., and Lee, M.J., Comparisons of Demand Forecasting Models for Korean Inbound Chinese Tourists, International Journal of Tourism and Hospitality Research, 2015, Vol. 29, No. 3, pp. 29-40.
    9. Park, S., Lee, J., and Song, W., Short-term forecasting of Japanese tourist inflow to South Korea using Google trends data, Journal of Travel and Tourism Marketing, 2017, Vol. 34, No. 3, pp. 357-368.
    10. Seo, H., A Feasibility Study on National Tourism Policy : Focused on Five Tourism Innovation Strategies, Journal of Tourism and Leisure Research, 2020, Vol. 32, No. 4, pp. 371-387.
    11. Song, H. and Li, G., Tourism demand modelling and forecasting-A review of recent research, Tourism Management, 2018, Vol. 29, pp. 203-220.
    12. Song, H., Qiu, R.T.R., and Park, J., A review of research on tourism demand forecasting : Launching the Annals of Tourism Research Curated Collection on tourism demand forecasting, Annals of Tourism Research, 2019, Vol. 75, pp. 338-362.
    13. Song, K.S. and Lee, C.K., A Comparison of Accuracy among Tourism Forecasting Models, International Journal of Tourism and Hospitality Research, 2006, Vol. 20, No. 2, pp. 351-369.