1. 서 론
머신러닝(Machine Learning)은 데이터를 이용하여 명시 적으로 정의되지 않은 패턴을 컴퓨터로 분석하고, 분석을 통해 학습하며, 학습한 내용을 기반으로 결과를 예측하는 학문 분야이다[6]. 머신러닝 기법 중 SVM(Support Vector Machine)은 이론적 근거가 명확하므로, 결과 해석이 편리 하고, 정확도가 높고 데이터 수가 적더라도 적용할 수 있 다는 장점이 있다. SVR(Support vector regression)은 기존 의 SVM이 가진 뛰어난 예측 능력을 활용하여 회귀관련 문제를 해결하기 위해 고안되었다[8, 10].
SVR에서는 예측값과 실제값의 차이인 예측오차에 대한 벌점을 계산하는 손실함수(loss function)가 큰 역할을 차지 한다. 손실함수로는 ∈-둔감함수(∈-insensitive loss function), 가우스 손실함수(Gaussian loss function), Huber 손실함수 (Huber loss function)이 자주 사용된다.
첫째, ∈-둔감함수는 실제값과 추정회귀곡선과의 차이가 ∈ 이내이면 벌점을 발생시키지 않고 그 이상이면 절대오 차로 벌점을 계산하는 함수이다. Anand et al.[2], Takeuchi and Furuhashi[9]는 손실함수로 ∈-둔감함수를 사용하고, 매개 변수 p를 도입하여 오차항인 ∈과 벌금 기울기의 비대칭성 을 고려하였다. Wu et al.[11]은 지능형 운송관리 시스템 (ITS)에서 여행시간 예측을 위해 대칭적인 ∈-둔감함수를 이용한 SVR을 적용하였다.
둘째, Hwang[5]은 비대칭적인 SVR에서 손실함수로 오 차 제곱을 사용하는 가우스 손실함수를 사용하고, 그에 따른 해법을 제시하였다. Anagha et al.[1]은 비대칭적인 SVR에서 가우스 손실함수를 적용하여 2개의 이차계획법 문제로 나누어 푸는 방법을 제시하였다. Li et al.[7]은 가 우스 손실함수를 이용하여 도심의 교통흐름량을 예측하 였다. 하지만, 가우스 손실함수는 예측치와 멀어질수록 벌점이 가중되고 일정 범위 이내의 오차를 허용하는 ∈-둔 감함수와 달리 모든 오차에 대해 벌점을 부여한다.
셋째, Balasundaram and Prasad[3]는 Huber 손실함수를 사용하고 SVR문제를 2개의 작은 문제로 나누어 푸는 Huber SVR을 제시하였다. Huber 손실함수는 예측오차의 일정범 위는 제곱오차를 벌점으로 사용하고 그 범위를 벗어나면 절대오차를 벌점으로 사용하는 것으로 이상치(outlier)에 민감하지 않은 것이 장점이다.
손실함수에 대한 연구 이외에도 SVR에 대해서는 다양 한 연구들이 있다. Xu et al.[12]은 υ-twin SVR을 제안하였 다. 기존의 상한과 하한의 경계를 결정하는 이차계획법문 제를 상한과 하한의 경계를 각각 구하는 2개의 이차계획 법문제로 나누어 풀기에 문제의 크기가 작아져 계산시간 이 작게 드는 것이 장점이다. 또한, Huang et al.[4]은 분류 를 위해 비대칭적인 ∈-둔감함수를 사용하는 SVM(Support Vector Machine)을 제안하고 그에 따른 모형을 제시하였다.
대부분의 연구에서는 ∈-둔감함수가 손실함수로 사용되 었으며 오차허용 값인 ∈을 얼마로 할 지, 오차허용 값을 초과하는 양(ξ)에 대한 벌금을 얼마로 할지, ∈과 ξ를 좌우 대칭으로 할지 비대칭으로 할지 등이 주된 관심사항이었다. 특히 Anand et al.[2]은 ∈과 ξ를 비대칭으로 하는 ∈-둔감함 수를 바탕으로 하는 SVQR(Support Vector Quantile Regression) 을 제안하였다. 하지만, ∈의 비대칭을 결정하는 p값 에 따라 ξ에 대한 벌금이 정해진다.
본 연구에서는 GSVQR(Generalized Support Vector Quantile Regression)이라는 새로운 비대칭적 SVR을 제시하고, ∈-둔감함수를 사용하여 p1과 p2라는 2개의 매개변수를 도 입하였다. 이 매개변수들을 이용하여 ∈의 폭과 벌금 기 울기의 비대칭성을 각각 조절하였다.
이를 좀 더 살펴보면, 기존의 Soft Margin에서 사용되 는 ∈-둔감함수는 오차의 폭(∈)과 벌금의 기울기가 모두 좌우대칭이다.
SVQR에서 사용되는 ∈-둔감함수는 매개변수 0 < p < 0.5 이면 오차의 폭은 우측이 두텁고 좌측이 얇으며, 벌금의 기울기는 좌측은 경사가 급하며 우측은 경사가 완만하다. 0.5 < p < 1이면 반대이다. p = 0.5이면 오차의 폭과 벌금 의 기울기가 모두 대칭이다.
제안하는 GSVQR은 0.5 < p1 ≤ 1이면 오차의 폭이 우측 은 두텁고 좌측은 얇으며, 0 ≤ p1 < 0.5이면 반대이고, p1 = 0.5이면 좌우대칭이다. 또한, 0.5 < p2 < 1이면 좌측은 벌 금의 기울기가 완만하고, 우측은 경사가 급하다. 0 < p2 < 0.5이면 반대이고, p1 = 0.5이면 좌우대칭이다. 즉, p1을 통 해 오차의 폭의 비대칭성을 조절하고, p2를 통해 벌금기울 기의 비대칭성을 조절하므로 써 좀 더 다양한 결과를 도출 할 수 있을 것이다.
이어지는 제 2장에서는 기존의 ∈-둔감함수와 수학모형 을 소개하고, 제 3장에서는 제안하는 GSVQR의 손실함수와 수학모형을 소개하였다. 또한, p1과 p2의 매개변수가 ∈의 폭과 벌금 기울기의 비대칭성을 어떻게 조절하는지를 그림 으로 보여주었다. 제 4장에서는 함수를 이용하여 기존의 방법과 GSVQR의 정확성을 검증하고 p1과 p2의 매개변 수 값에 따라 어떤 특징들을 보여주는지 살펴보았다. 마 지막으로 제 5장에서는 결론과 미래의 연구과제에 대해 언급하였다.
2. 기존의 ∈-둔감함수와 수학모형
이번 장에서는 기존의 ∈-둔감함수와 수학모형인 Soft Margin과 Anand et al.[2]이 제안한 SVQR을 소개하고자 한다.
2.1 Soft Margin
∈-둔감함수는 실제값(yi )과 추정회귀곡선(f(x) )과의 오 차가 ∈ 이내이면 벌점을 발생시키지 않는 함수이다. u = y - f(x)라 할 때 ∈-둔감함수( )(1)는 다음과 같다.
이러한 손실함수는 SVR 문제에서 자주 사용되고 있다. 이러한 ∈-둔감함수를 바탕으로 한 Soft Margin의 수학모형 을 나타내면 다음과 같다.
원문제(P)에서 를 구하기 어려우므로 원문제를 라 그랑주 쌍대 문제(DL)로 나타내면 다음과 같다.
여기서 α는 수학모형 P의 제약식들의 라그랑지안 변수 이다. 선형추정이 불가능한 현재 공간의 분포를 선형추 정이 가능하도록 한 차원 높은 공간으로 변환하기 위해 로 둔다. 이때 변환 함수끼리의 스칼라곱인 들을 모아놓은 집합을 커널(kernel) 이라고 한다.
2.2 SVQR
Anand et al.[2]이 제안한 Support Vector Quantile Regression( SVQR)에서 제안한 ∈-둔감함수()는 (2)와 같다.
그러므로 원문제(P1)은 다음과 같다.
이를 정리하여 라그랑주 쌍대 문제(DL2)로 나타내면 다음과 같다.
3. 제안하는 General Support Vector Quantile Regression Model(GSQVR)
제안하는 GSQVR에서의 ∈-둔감함수( )는 (3)과 같다.
한편 제안하는 손실함수 는 SVQR의 손실함수인 를 일반화한 것이다.
Theorem 1. SVQR의 손실함수인 는 GSVQR의 손 실함수인 의 특수한 경우이다.
증명) 에서 p1 = (1 - p) , p2 = p로 두면 와 동 일하다.
Soft Margin의 손실함수()는 ∈의 폭이 좌우대칭이 며, 허용한계인 ± 0.5∈을 벗어나는 의 값에 따른 벌금 (penalty)의 기울기는 항상 좌우대칭이다. 한편, SVQR의 손실함수( )는 ∈의 폭은 동일하지만, p를 이용하여 폭 의 좌우 비대칭 정도를 조절할 수 있으며, 허용한계인 ± 0.5∈을 벗어나는 의 값에 따른 벌금(penalty)의 기울 기는 p에 의해 비대칭 정도가 정해진다. 반면, GSVQR의 손실함수(는 ∈의 폭은 동일하지만, p1을 이용하여 폭의 좌우 비대칭 정도를 조절할 수 있으며, 허용한계인 ± 0.5∈을 벗어나는 의 값에 따른 벌금(penalty)의 기울 기는 p2에 의해 비대칭 정도를 조절할 수 있다.
<Figure 1>~<Figure 3>에서는 ∈ = 1이고 ∈의 폭이 좌우대 칭인 경우의 오차인 u = y - f(x)에 따른 손실함수 , , 의 값들을 그래프로 나타내었다. 다만, ∈ = 1 로 동일하게 하기 위해 은 좌측으로 -0.5, 우측으로 +0.5로 하였다. <Figure 1>에서는 에서 p = 0.5로 하 였고, 에서 p1 = 0.5, p2 = 0.99로 하였다. 가는 검정색 선은 , 약간 굵은 파란색 선은 , 굵은 빨간색 선은 을 나타낸다. 과 는 ∈의 폭이 좌우 대칭인데, ∈을 벗어나는 오차에 대한 기울기도 좌우대칭 이다. 다만, 기울기는 이 보다 급하다. 의 경우 ∈의 폭이 좌우대칭이지만, 좌측의 기울기는 거의 0에 가까워 벌금이 거의 없으며 우측의 기울기는 와 거의 동일하다.
<Figure 2>의 경우에는 과 는 <Figure 1>과 동일하지만, 는우측의기울기는와거의동일하고, 우측의 기울기는 거의 0에 가까워 벌금이 거의 없다. <Figure 3>의 경우에는 가 와 정확하게 일치한다.
<Figure 4>~<Figure 6>은 과 의 ∈의 폭이 비대 칭이고 기울기도 비대칭인 경우이다. 는 폭과 기울기 가 항상 대칭으로 조정이 불가능하다. <Figure 4>는 에 서 p = 0.1로 하였고, 에서 p1 = 0.9, p2 = 0.9로 하였다. 는 ∈의 폭이 좌측은 0.1, 우측은 0.9로 우측으로 비대칭 이며, 기울기는 좌측은 급하고, 우측은 완만하다. 는 폭과 기울기 모두 p에 의해 동시에 결정되며, 따로 조절할 수는 없다. 한편, 는 ∈의 폭의 비대칭성은 와 동일하지만(p1 = 0.9), 기울기는 <Figure 4>에서는 좌측은 완 만하고 우측이 급하며(p2 = 0.9, <Figure 5>에서는 좌측은 보다 더 급하나, 우측은 보다 더 완만하다(p2 = 0.05). <Figure 6>에서는 기울기가 좌우대칭이다(p2 = 0.5). 즉, 값에는 p1으로 ∈의폭의좌우대칭을조절할수있고, p2로 기울기의 좌우 비대칭 정도를 각각 조절할 수 있다.
를 제약식으로 나타내기 위해 다시 정리하면
동일한 방법으로
그러므로 수학모형은
P3를 라그랑주 승수법을 이용하여 표현하면 다음과 같다.
는 라그랑주 승수(Lagrangian multiplier)로 비음조건을 만족해야 한다.
최적해가 되기 위해서는 1차 필요조건을 만족해야 한 다. 즉, L을 편미분하여 0으로 두면 다음과 같다.
1차 필요조건을 L에 대입하여 간단히 하고자 한다. 먼 저 식 L을 정리하면
식 (3)에서 이므로 이다. 또한, 로 두고, 식 (4)에 의해 이므로 이를 대입하여 정리하면
여기서
이다. 왜냐하면,
그러므로, 다음과 같이 정리할 수 있다.
목적식을 Max에서 Min문제로 변환하여 라그랑주 쌍대 문제(DL3)로 나타내면 다음과 같다.
DL3을 풀어 의 최적해를 구하면 이므로 이를 대입하여 정리하면 다음과 같다.
편의항 b를 구하기 위해 0 < αi < p2C , 인 i를 찾는다. 이 데이터 i는 상한의 경계(support vector)에 있는 데이터 이므로 식 (9)를 만족한다.
이다. 또한, 인 i를 찾는다. 이 데이터 i는 하한의 경계(support vector)에 있는 데이터이므로 식 (10)을 만족한다.
식 (9)과 식 (10)을 이용하여 b를 구할 수 있다.
그러므로 우리가 구하고자 하는 ∈-tube의 중심을 지나 는 식은 (11)과 같다.
4. 실 험
실험에서 고려하는 커널함수(kernel function)는 R.B.F. (radial basis function) 커널로 함수는 exp()이며 매개변수는 γ이다. 실험을 위해 사용된 함수는 아래와 같다.
이때 한쪽으로 편향된 무작위성을 고려하기 위해 왼 쪽으로 치우친 분포인 카이제곱(χ2 분포를 사용하였다. 자유도가 4인 경우 평균이 4이므로 평균을 0으로 하기 위해 4를 빼주었다. 이때 총 400개의 데이터를 생성하였 다. 또한, 사용되는 매개변수인 γ, C의 값을 최적화하기 위해 γ = 2-3, 2-2, 2-1, 20, 21, 22, 23, C = 1, 10, 100, 1000, 10000의 값들 중에서 RMSE를 최소화하는 값을 선정하 였다. 정확도를 위해 사용되는 RMSE(Root Mean Squared Error), MAE(Mean Absolute Error), MAPE(Mean Absolute Percent Error)는 식 (12), 식 (13), 식 (14)와 같이 정의 된다.
여기서 n은 데이터의 개수, yi는 i번째 데이터의 실제값, 는 i번째 데이터의 예측값이다.
먼저 <Table 1>에서는 Soft Margin에 대한 결과이며 그 에 대한 추정식은 <Figure 7>과 같다.
<Table 2>는 SVQR의 정확도이다. p = 0.5일 때는 GSVQR 의 p1 = 0.5, p2 = 0.5일 때와 동일한데, p1에 의해 ∈의 폭이 좌우대칭이고 p2에 의해 벌금의 기울기도 좌우대칭이다. SVQR의 p = 0.1일 때는GSVQR의 p1 = 0.9, p2 = 0.1와 동 일한데, ∈의 폭은 좌측으로는 0.1 우측으로는 0.9이며, 좌 측으로는 벌금의 기울기가 급하고 우측으로는 기울기가 완만하다. p = 0.9일 때는 p = 0.1일 때와 반대이다. p = 0.1 일 때 가장 좋은 결과를 보여주고 있다.
<Figure 8>에 이들에 대한 추정식이 주어져 있다. p = 0.9일 때 추정식이 데이터의 위쪽으로 나타나고 있으며, p = 0.1일 때 추정식이 비교적 아래쪽에 나타남을 알 수 있다. 또한, C = 1일 때 곡선이 평탄하며, C = 10,000일 때 곡선이 데이터를 따라 굴곡이 심한 것을 알 수 있다.
<Table 3>은 GSVQR의 정확도를 보여주고 있다. p1은 ∈의 폭의 좌우의 비대칭성을 나타내고, p2는 벌금의 기 울기의 좌우비대칭성을 나타낸다. p1 = 0.1, p2 = 0.1일 때 는 추정식이 비교적 데이터의 아래쪽에 p1 = 0.9, p2 = 0.9 일 때는 위쪽에 자리함을 알 수 있다. 또한, C값이 작을 때 곡선이 평탄하며, C값이 클 때 곡선이 데이터를 따라 굴곡이 심한 것을 알 수 있다.
5. 결 론
본 연구에서는 비대칭적SVR에 대해 다루었는데, 기존 의 방법인 SVQR은 매개변수 p로 오차의 폭과 벌금의 기울기의 좌우비대칭성을 모두 조절하다보니 한계가 존 재하였다. 즉, 오차의 폭이 좌측이 두터우면서 벌금의 기 울기가 좌측이 급하거나, 오차의 폭이 우측이 두터우면 서 벌금의 기울기가 우측이 급한 경우 등을 나타낼 수 없다. 또한, 오차의 폭과 벌금의 기울기가 모두 p값에 따 라 연동되어 변하기에 다양한 값들을 고려할 수 없다.
본 연구에서는 GSVQR이라는 새로운 비대칭적 SVR을 제시하고, p1과 p2의 매개변수로 오차의폭과 벌금의 기울 기의 비대칭성을 각각 조절하였다. GSVQR은 SVQR을 일반화한 것으로 비대칭성이 필요한 문제의 경우 p1과 p2 의 다양한 조합을 적용해 볼 수 있다. 미래 연구과제로는 GSVQR의 적용이 필요한 문제들을 발굴하여 GSVQR을 통해 새로운 특징들을 보여주는 것이 필요하다고 할 수 있다.