Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.45 No.1 pp.71-82
DOI : https://doi.org/10.11627/jksie.2022.45.1.071

Application of Asymmetric Support Vector Regression Considering Predictive Propensity

Dongju Lee†
*Department of Industrial & Systems Engineering, Kongju National University
Corresponding Author : djlee@kongju.ac.kr
24/02/2022 12/03/2022 14/03/2022

Abstract


Most of the predictions using machine learning are neutral predictions considering the symmetrical situation where the predicted value is not smaller or larger than the actual value. However, in some situations, asymmetric prediction such as over-prediction or under-prediction may be better than neutral prediction, and it can induce better judgment by providing various predictions to decision makers. A method called Asymmetric Twin Support Vector Regression (ATSVR) using TSVR(Twin Support Vector Regression), which has a fast calculation time, was proposed by controlling the asymmetry of the upper and lower widths of the ε-tube and the asymmetry of the penalty with two parameters.



In addition, by applying the existing GSVQR and the proposed ATSVR, prediction using the prediction propensities of over-prediction, under-prediction, and neutral prediction was performed. When two parameters were used for both GSVQR and ATSVR, it was possible to predict according to the prediction propensity, and ATSVR was found to be more than twice as fast in terms of calculation time. On the other hand, in terms of accuracy, there was no significant difference between ATSVR and GSVQR, but it was found that GSVQR reflected the prediction propensity better than ATSVR when checking the figures. The accuracy of under-prediction or over-prediction was lower than that of neutral prediction. It seems that using both parameters rather than using one of the two parameters (p_1,p_2) increases the change in the prediction tendency. However, depending on the situation, it may be better to use only one of the two parameters.



예측성향을 고려한 비대칭 서포트벡터 회귀의 적용

이 동 주†
*공주대학교 산업시스템공학과

초록


    1. 서 론

    대부분의 머신러닝을 이용한 예측은 에측값이 실제값 보다 작거나 크지 않은 대칭적인 상황을 고려한 중립예측 이다. 하지만, 일부 상황에서는 과대예측이나 과소예측과 같은 비대칭적인 예측이 중립예측보다 나을 수도 있으며, 의사결정자에게 다양한 예측들을 제공하므로 써 좀 더 나 은 판단을 유도할 수 있다.

    Wu et al.[10]은 SVR(Support Vector Regression)[6]에서 회귀선의 아래와 위의 폭(ϵ - tube을 벗어나는 경우에 부과 되는 벌점의 기울기의 비대칭으로만 비대칭성을 조절하는 비대칭적 SVR을 제안하였다. 또한, 이 방법을 적용하여 호주의 New South Wales지역의 2019년 2월 1일부터 3월 30일까지의 전력사용관련 실데이터를 활용하여 과소예측 (underprediction)하였을 때 약 42.19%~57.39% 정도의 비 용절감이 발생한다고 하였다. 예측성향을 이용한 비대칭 적 SVR의 활용에 대한 연구는 현재 연구가 진행되고 있는 분야라 활용사례가 거의 없다.

    SVR의 정확성은 해치지 않으면서 계산시간을 향상한 TSVR(Twin Support Vector Regression)에 대한 연구들이 행해지고 있다.

    TSVR(Twin Support Vector Regression)은 Peng[2]이 제 안하였는데 2개의 제약식을 가진 1개의 큰 2차계획법문제 를 푸는 기존의 SVR과 달리 1개의 제약식을 각각 가진 2개의 작은 2차계획법문제로 푸는 방법이다. 1개의 큰 2차 계획법문제보다 2개의 작은 2차계획법문제로 나누어 풀기 에 TSVR이 일반적인 SVR보다 약 4배 빠르게 해를 구한 다고 하였다.

    Singh et al.[5]은 TSVR에서 훈련데이터 전부를 사용하 는 것이 아니라 그 일부를 무작위로 선택하는 Rectangular Kernel이라는 개념을 이용하는 RTSVR(Reduced Twin Support Vector Regression)은 제안하였다. RTSVR은 TSVR보다 빠른 시간 내에 TSVR과 비슷한 수준의 해를 제공하는 것을 실험을 통해 입증하였다. Xu and Wang[12] 은 과적합(overfitting)을 어느 정도 해결하기 위해 데이터 의 위치에 따른 벌점(penalty)을 기존보다 더 세분화하는 WTSVR(Weighted Twin Support Vector Regression)을 제 안하였다.

    Wang and Xu[8]은 TSVR의 쌍대문제에서 0과 1을 가지 는 항들을 찾아내고 0의 항을 가지는 샘플들을 제거하는 방법(safe screen rule)을 적용한 후에 데이터를 훈련시켜, TSVR의 계산시간을 더욱 단축시키고TSVR과 동일한 해 를 제공하는 SSR-TSVR을 제안하였다.

    한편, 비대칭적인 SVR에 대한 연구도 진행되고 있다. Xu et al.[11]은 비대칭적 ν -SVR 을 제안하였다. SVR에서 는 ϵ은 사용자가 미리 정하는 매개변수이지만, ν -SVR 에 서는 벌점이 없는 데이터의 비율(ν)을 사용자가 미리 정하 면 SVR모형을 풀 때 구해지는 값이 ϵ이다. 1개의 매개변 수를 이용하여 ϵ-tube의 상하폭의 비대칭성과 벌점의 비대 칭성을 모두 조절하였다.

    Lee and Choi[4]는 ϵ-tube의 상하폭의 비대칭성과 벌점 의 비대칭성을 각각 조절하는 2개의 매개변수를 고려하는 손실함수를 제안하고 이를 이용한 GSVQR(Generalized Support Vector Quantile Regression)을 제안하였다. 조절하 는 2개의 매개변수를 도입하므로 써 예측성향에 따른 좀 더 미세한 조절이 가능하였다. 하지만, 실험을 통한 GSVQR의 효용성을 입증하는 것이 부족하였다.

    본 연구에서는 GSVQR의 손실함수를 이용하여 2개의 매개변수로 ϵ-tube의 상하폭의 비대칭성과 벌점의 비대칭 성을 각각 조절하고 계산시간이 빠른 TSVR을 이용한 ATSVR(Asymmetric Twin Support Vector Regression)이라 는 기법을 제안하였다. 또한, 기존의 GSVQR과 제안한 ATSVR을 적용하여 과대예측, 과소예측, 중립예측의 예측 성향을 이용한 예측을 실시하였다. 테스트함수와 실제사 례인 공구마모량 예측사례에 매개변수를 이용한 예측성향 별 예측을 실시하고, 이들의 유효성, 정확성, 계산시간 등 을 파악하였다.

    이어지는 제2장에서는 기존 SVR기법들에 대해 설명하 고, 제3장에서는 ATSVR을 제안하였다. 제4장에서는 실험 을 통해 GSVQR과 ATSVR을 적용하여 여러 가지 특징을 살펴보았다. 마지막으로 제5장에서는 결론을 도출하고 추 후 연구과제들을 제시하였다.

    2. 기존 SVR

    제2장에서는 소프트마진 SVR, GSVQR, 그리고 TSVR 을 설명한다.

    2.1 소프트마진(Soft margin) SVR

    소프트마진 SVR에서 사용되는 손실함수는 식 (1)과 같다.

    L 1 ( u ) = { 0 , u u , u > u , u )
    (1)

    이러한 ϵ-둔감함수를 바탕으로 한 Soft Margin의 수학 모형을 나타내면 식 (2)~식 (5)와 같다.

    M i n 1 2 ω 2 + C i = 1 l ( ξ i + η i )
    (2)

    s.t . y i ω T x i b + ξ i
    (3)

    ω T x i + b y i + η i
    (4)

    ξ i , η i 0
    (5)

    위의 원문제에서 ξ i , ξ i * 를 구하기 어려우므로 원문제를 라그랑주 쌍대 문제(Dual Lagrangian)로 나타내면 식 (6)~식 (8)과 같다.

    M i n 1 2 i , j = 1 l ( α i α i * ) ( α j α j * ) ( x i , x j ) i = 1 l ( α i α i * ) y i + i = 1 l ( α i + α i * )
    (6)

    s.t. i = 1 l ( α i * α i ) = 0
    (7)

    0 α i , α i * C
    (8)

    여기서 α i , α i * 는 위 수학모형의 제약식들의 라그랑주 (Lagrangian) 변수이다.

    2.2 GSQVR(General Support Vector Quantile Regression)

    Lee and Choi[5]가 제안한 GSQVR에서의 ϵ-둔감함수 (L ϵ2(u))는 식 (9)와 같다.

    L 2 ( u ) = { 0 , ( 1 p 1 ) u p 1 p 2 ( u p 1 ) , u > p 1 ( 1 p 2 ) ( u + ( 1 p 1 ) ) , u ( 1 p 1 )
    (9)

    L ( u ) 2 를 제약식으로 나타내기 위해 다시 정리하면

    p 2 ( u p 1 ) ξ i p 2 ( y i ω T x i b p 1 ) ξ i y i ω T x i b p 1 + 1 p 2 ξ i

    동일한 방법으로

    ( 1 p 2 ) ( u + ( 1 p 1 ) ) η i ( 1 p 2 ) ( ω T x i + b y i ( 1 p 1 ) ) η i ω T x i + b y i ( 1 p 1 ) + 1 1 p 2 η i

    그러므로 수학모형은 식 (10)~식 (13)과 같다.

    M i n 1 2 ω 2 + C i = 1 l ( ξ i + η i )
    (10)

    s.t. y i ω T x i b p 1 + 1 p 2 ξ i
    (11)

    ω T x i + b y i ( 1 p 1 ) + 1 1 p 2 η i
    (12)

    ξ i , η i 0
    (13)

    식 (10)은 Soft Margin의 목적식처럼 첫 번째 항은 실제값 (yi )과 추정값 y = w 1 T x + b ± 의 차이의 제곱을 나타내며 두 번째 항은 오차변수( ξ i , ξ i * )의 합을 나타내는데 이들을 최소화하고자 한다. 식 (11)은 실제값(yi )이 ϵ-tube의 상한 (upper bound)인 ωTxi + b + p1ϵ보다 클지라도 1 p 2 ξ i 보다는 같 거나 작게 하는 제약식이다. 식 (12)는 ϵ-tube의 하한(lower bound)을 나타내는데 실제값(yi )이 ωTxi + b - (1 - p1 )ϵ보다 작을지라도 최소한 1 1 p 2 η i 보다는 같거나 크게 하는 제약 식이다. 마지막 제약식은 벌점 ξi, ηi이 비음(non-negativity) 임을 나타낸다.

    p1을 이용하여 ϵ-tube의 폭의 좌우 비대칭 정도를 조절 할 수 있으며, 허용한계인 ±0.5ϵ을 벗어나는 ξi, ηi의 값에 따른 벌금(penalty)의 기울기는 p2에 의해 비대칭 정도를 조절할 수 있다.

    목적식을 Max에서 Min문제로 변환하여 라그랑주 쌍대 문제로 나타내면 식 (14)~식 (17)과 같다.

    M i n α i , α i * = 1 2 i , j = 1 n ( α i α i * ) ( x i , x j ) ( α i α i * ) + i = 1 n ( α i p 1 + α i * ( 1 p 1 ) ϵ ) i = 1 n ( α i α i * ) y i
    (14)

    s.t. i = 1 n ( α i α i * ) = 0
    (15)

    0 α i p 2 C i = 1 , , n
    (16)

    0 α i * ( 1 p 2 ) C , i = 1 , , n
    (17)

    예측값이 실제값보다 큰 과대예측, 예측값이 실제값보 다 작은 과소예측, 중립예측을 위한 p1, p2의 범위를 다음 과 같이 조절할 수 있다.

    • ∙과대예측 : 0 ≤ p1 ≤ 0.5, 0.5 ≤ p2 ≤ 1

    • ∙과소예측 : 0.5 ≤ p1 ≤ 1이고 0 ≤ p2 ≤ 0.5

    • ∙중립예측: p1 = p2 = 0.5

    2.3 TSVR(Twin Support Vector Regression)

    Peng[2]이 제안한 TSVR은 식 (18)~식 (20), 식 (21)~ 식 (23)의 2개의 수학모형으로 이뤄져 있다.

    M i n 1 2 | | Y e 1 ( A w 1 + e b 1 | | 2 + C 1 e T ξ )
    (18)

    s.t. Y ( A w 1 + e b 1 ) e ε 1 ξ
    (19)

    ξ 0
    (20)

    M i n 1 2 | | Y e 2 ( A w 2 + e b 2 | | 2 + C 2 e T η )
    (21)

    s.t ( A w 2 + e b 2 ) Y e 2 η
    (22)

    n 0
    (23)

    여기서 e는 모든 요소가 1인 벡터이며, y1R 일 때 Y는 반응벡터로 Y = (y1; y2; …; yl )이다. A i 는 n차원의 실수로 구성된 행벡터로 l개가 있고 A = (A1; A2; …; A l)이다. 그 러므로 학습데이터는(A,Y)이다. C1, C2 > 0, ϵ1, ϵ2 ≥ 0은 사용자가 미리 값을 정하는 매개변수(parameter)이며 ξ, η 은 여유변수(slack variable)이다.

    TSVR은 ϵ 둔감 하한 회귀식 f 1 ( x ) = w 1 T x + b 1 둔감 상한 회귀식 f 2 ( x ) = w 2 T x + b 2 을 구한다.

    식 (18)과 식 (21)의 첫 번째 항은 함수 y = w 1 T x + b 1 + 1 혹은 y = w 2 T x + b 2 - 2 과 학습자료의 실제값(yi )의 차이의 제곱이다. 두 번째 항은 오차변수(ξ, η)의 합인데 학습자료 를 과적합(overfitting)하는 것을 예방하기 위해 필요하다.

    식 (19)와 식 (22)는 추정함수 f1 (x) , f2 (x)이 학습자료의 실제값(yi )과의 거리가 ϵ1 혹은 ϵ2보다는 같거나 크게 한다. 즉, 실제값은 ϵ 둔감 하한 회귀식보다 최소한 ϵ1보다 커야 하며, ϵ 둔감 상한 회귀식보다 최소한 ϵ2 이상 작아야 한다. 여유변수 ξ, η은 학습자료의 실제값과 추정함수의 거리가 ϵ1 혹은 ϵ2보다 가까운 경우에 대한 오차의 측정값이다[2]. 식(20)과 식 (23)은 ξ, η이 각각 비음임을 나타낸다.

    TSVR은 2개의 2차계획법 문제로 표현되며, 각 2차계획 법은 일반적인 SVR 모형에 속한 2종류의 제약식 중에서 1종류의 제약식만을 사용하여 하한 회귀식 혹은 상한 회 귀식을 구하는데 사용된다. 이로 인해 Peng[2]은 TSVR이 일반적인 SVR보다 약 4배 빠르게 해를 구한다고 하였다.

    G = [Ae ], f = Y - 1, u = [w1b1 ]T라고 할 때 식 (18)~식 (20)의 원문제를 라그랑주 쌍대 문제로 나타내면 식(24), 식 (25)와 같다.

    M a x 1 2 α T G ( G T G ) 1 G T α + f T G ( G T G ) 1 G T α f T α
    (24)

    s.t. 0 α C 1 e
    (25)

    h = Y + 2라 할 때, 식 (21)~식 (23)의 원문제를 라그랑 주쌍대 문제로 나타내면 식 (26), 식 (27)과 같다.

    M a x 1 2 γ T G ( G T G ) 1 G T γ h T G ( G T G ) 1 G T γ + h T γ
    (26)

    s.t 0 γ C 2 e
    (27)

    3. ATSVR(Asymmetric Twin Support Vector Regression)

    본 논문에서 제안하는 ATSVR의 수학모형은 식 (28)~ 식 (30), 식 (31)~식 (33)과 같다.

    M i n 1 2 | | Y e 1 ( A w 1 + e b 1 | | 2 + C 1 e T ξ )
    (28)

    s.t. Y ( A w 1 + e b 1 ) p 1 e 1 1 1 p 2 ξ
    (29)

    ξ 0
    (30)

    M i n 1 2 | | Y e 1 ( A w 1 + e b 1 | | 2 + C 2 e T η )
    (31)

    s.t. ( A w 2 + e b 2 ) Y ( 1 p 1 ) e 2 1 p 2 η
    (32)

    η 0
    (33)

    식 (28)과 식 (31)은 목적식인데 첫 번째 항은 실제값(Y) 과 추정값의 차이의 제곱이고 두 번째 항은 오차변수의 합인데 이들을 최소화하고자 한다. 식 (29)는 실제값(Y )과 하한(lower bound)인 ωTx + b1 + p1ϵ1과의 차이가 최소한 1 1 p 2 ξ 보다는 크거나 같아야 한다. 또한, ξ은 목적식에 서 최소화해야 하는 일종의 벌점이다. 식 (30)은 벌점(ξ)이 비음(non-negativity)임을 나타낸다.

    식 (32)는 실제값(Y )는 상한(upper bound)인 ωTx + b2 + (1 - p1 )ϵ2의 차이가 최소한 1 p 2 η 보다는 작거나 같아야 한다. 또한, η은 목적식에서 최소화해야 하는 일종 의 벌점이다. 식 (33)은 벌점(η)이 비음(non-negativity)임을 나타낸다.

    GSVQR과 동일하게 과대예측, 과소예측, 중립예측을 위한 p1, p2의 범위를 다음과 같이 조절할 수 있다.

    • ∙과대예측 : 0 ≤ p1 ≤ 0.5, 0.5 ≤ p2 ≤ 1

    • ∙과소예측 : 0.5 ≤ p1 ≤ 1이고 0 ≤ p2 ≤ 0.5

    • ∙중립예측: p1 = p2 = 0.5

    식 (31)~식 (33)의 원문제를 라그랑주쌍대 문제로 나타 내면 식 (34), 식 (35)와 같다. 자세한 유도과정은 Appendix 에 주어져 있다.

    M a x 1 2 γ T G ( G T G ) 1 G T γ h T G ( G T G ) 1 G T γ + ( h T p 1 2 e T ) γ
    (34)

    s.t. 0 γ p 2 C 2 e
    (35)

    같은 방법으로 식 (28)~식 (30)에 대한 라그랑주쌍대문 제를 구하면 식 (36), 식 (37)과 같다.

    M a x 1 2 α T G ( G T G ) 1 G T α + f T G ( G T G ) 1 G T α ( f T + ( 1 p 1 ) 1 e T ) α
    (36)

    s.t. 0 α ( 1 p 2 ) C 1 e
    (37)

    위 라그랑주 쌍대문제들을 각각 풀어 우리가 구하고자 하는 회귀식을 구하면 식 (38)과 같다.

    f ( x ) = 1 2 ( f 1 ( x ) + f 2 ( x ) ) = 1 2 ( w 1 + w 2 ) T ( x ) + 1 2 ( b 1 + b 2 )
    (38)

    비선형 추정을 위해서, 비선형 지도(nonlinear map) ϕ: R nH가 사용되는데, 여기서 H는 특징공간(feature space)이다. H 에서 변환 함수끼리의 스칼라곱인 ϕ(u)Tϕ(υ)≔ K(uT, υ ) 들을 모아놓은 집합을 커널(kernel)이라고 한다. 이때, 추정 하고자 하는 회귀식은 f1 (x) = K (x, A T )w1 + b1f2 (x) = K (x, A T)w2 + b2이다. 비선형인 경우의 ATSVR의 수학모형 은, 식 (39)~식 (41), 식 (42)~식 (44)와 같다.

    M i n 1 2 | | Y e 1 ( A w 1 + e b 1 | | 2 + C 1 e T ξ )
    (39)

    s.t Y ( K ( A , A T ) w 1 + e b 1 ) p 1 e 1 1 1 p 2 ξ
    (40)

    ξ 0
    (41)

    M i n 1 2 | | Y e 2 ( A w 2 + e b 2 | | 2 + C 2 e T η )
    (42)

    s.t . K ( A , A T ) w 2 + e b 2 Y ( 1 p 1 ) e 2 1 p 2 η
    (43)

    η 0
    (44)

    G = [ K ( A , A T ) e ] , f = Y + e 1 , u 1 = [ w 1 T b 1 ] T 로 두고, 식 (39)~식 (41)의 라그랑주 쌍대문제를 구하면 식 (34), 식 (35)로 나타낼 수 있고, h = Y + e 2 , u 2 = [ w 2 T b 2 ] T 로 두고, 식 (42)~식 (44)의 라그랑주 쌍대문제를 구하면 식 (36), 식 (37)로 나타낼 수 있다.

    라그랑주 쌍대문제를 각각 풀어 우리가 구하고자 하는 회귀식을 구하면 식 (45)와 같다.

    f ( x ) = 1 2 ( f 1 ( x ) + f 2 ( x ) ) = 1 2 ( w 1 + w 2 ) T K ( A , x ) + 1 2 ( b 1 + b 2 )
    (45)

    커널을 사용하는 경우에 대한 ATSVR을 구하는 알고리 즘을 소개하고자 한다. 선형의 경우에는 커널 사용을 하는 것만 제외하면 소개하는 알고리즘과 동일하다. 먼저, 사용 되는 행렬의 차원을 위해 기호들을 나타내면 다음과 같다.

    • l1: 학습용 데이터 셋의 관측치 수

    • l2: 테스트용 데이터 셋의 관측치 수

    • l: 서포트벡터에 해당하는 관측치 수

    • n: 변수(feature)의 수

    Step 1. αγ를 구한다.

    H = [K (A , A T ) e ], f = Y - 1라 할 때, 식(36), (37)을 풀어 α를 구한다. h = Y + 2라 할 때, 식(34), (35)를 풀어 γ를 구한다. 여기서 αγ는 각각 l1 × 1 크 기의 행렬이다.

    Step 2. u1, u2를 구한다. u1 = [w1b1] T , u2 = [w2b2 ]T

    u1 = (H T H )- 1H T(f - α )

    u2 = (H TH )- 1H T(h + γ)

    여기서 u1, u2는 각각 (l1 + 1) × 1 크기의 행렬이다.

    Step 3. 1 2 ( u 1 + u 2 ) 를 구한다.

    Step 4. 테스트용 데이터 셋을 이용하여 예측한다.

    f ( x ) = 1 2 ( f 1 ( x ) + f 2 ( x ) ) = 1 2 ( w 1 + w 2 ) T K ( A , x T ) + 1 2 ( b 1 + b 2 )

    여기서 K (A, x)의 A는 테스트용 데이터셋의 A 행렬 (l2 × n)이고 x는 학습용 데이터 셋의 A행렬(xTn × l1) 이므로 K (A,x)는 커널연산 후 l2 × l1 행렬이 된다.

    4. 실 험

    소개하는 ATSVR과 기존의 GSVQR의 예측성향 (과대 예측, 과소예측, 중립예측)에 따른 정확도와 계산시간을 살펴보기 위해 3개의 테스트 함수와 1개의 실제 사례를 활용하였다. GSVQR의 예측성향에 따른 정확도와 계산시 간에 대한 실험이 기존의 연구에서는 충분치 않았으므로 이번 실험을 통해 살펴보고자 한다. 3개의 테스트 함수들 은 Wang et al.[7]과 Huang et al.[11]의 논문에서 사용된 함수들로 다음과 같다.

    Function 1: f 1 ( x 1 , x 2 ) = sin ( x 1 x 2 ) , D = [ 2 , 2 ] 2 Function 2 : f 2 ( x 1 , x 2 ) = e x 1 sin ( π x 2 ) , D = [ 1 , 1 ] 2 Function 3 : f 3 ( x 1 , x 2 , x 3 , x 4 ) = e 2 x 1 sin ( π x 4 ) +sin ( x 2 x 3 ) , D = [ 0.25 , 0.25 ] 4

    노이즈(noise)를 추가하기 위해 정규분포 N(0, 0.12)를 이 용하여 난수를 발생시키고 이 값들을 함수 f(x)에 더하였 다. 각 함수들에서 총 500개의 데이터를 무작위로 생성하였 고, 이들 중 80%에 해당하는 400개는 10-fold 교차검증 (cross validation)을 적용하여 초매개변수(hyper-parameter) 를 구하기 위해 사용되었다. 나머지 100개의 데이터는 테스 트(test)용으로 활용되어 정확도를 구하는데 사용되었다.

    R로 코딩되었으며, Intel(R) Core(TM) i3-610의 CPU가 탑재된 컴퓨터에서 실험이 진행되었다. p1, p2를 이용하여 예측성향을 조절하였으며, 예측성향에 따른 실제예측의 편향을 확인하기 위해 ME(Mean of Errors)가 사용되었고, 예측의 정확도를 측정하기 위해 RMSE(Root Mean of Squared Errors)와 MAE(Mean Absolute Errors) 또는 MAPE(Mean of Absolute Percentage Errors)가 사용되었다. 또한, 계산시간이 측정되었다. Y ii번째 실제값, Y ^ i i 번째 예측값, n은 데이터 수라고 할 때 ME, RMSE, MAE, MAPE는 식 (46)~식 (49)와 같다.

    ME = i = 1 n ( Y i ( Y ^ i ) ) n
    (46)

    RMSE = i = 1 n ( Y i Y ^ i ) n
    (47)

    MAE = i = 1 n | Y i Y ^ i | n
    (48)

    MAPE = i = 1 n | Y i Y ^ i | Y i × 100 n
    (49)

    ME의 값이 음수이면 예측값이 실제값보다 큰 과대예측, 양수이면 예측값이 실제값보다 작은 과소예측, 0에 가까울수 록 중립예측을 나타낸다. 또한, ME의 크기는 예측의 편향 정도를 나타낸다. 예측의 정확도를 나타내는RMSE, MAE, MAPE는 작을수록 예측이 정확함을 의미한다.

    이미 언급하였듯이, p1을 이용하여 ϵ-tube의 폭의 좌우 비대칭 정도를 조절할 수 있으며, p2에 의해 벌금의 비대칭 정도를 조절할 수 있다. 그러므로, 중립예측을 위해서는 p1 = p2 = 0.5를 사용하였고, 과소예측을 위해서는 벌금의 비대칭만 고려한 p1 = 0.5, p2 = 0.01와 ϵ-tube의 폭의 좌우 비대칭 정도만 고려한 p1 = 0.99, p2 = 0.5, 폭과 벌금의 비대 칭을 모두 고려한 p1 = 0.99, p2 = 0.01이 사용되었다. 과대예 측을 위해서는 벌금의 비대칭만 고려한 p1 = 0.5, p2 = 0.99와 ϵ-tube의 폭의 좌우 비대칭 정도만 고려한 p1 = 0.01, p2 = 0.5, 폭과 벌금의 비대칭을 모두 고려한 p1 = 0.01, p2 = 0.99가 사용되었다.

    테스트 함수들은 모두 비선형이므로 비선형 커널 중 하 나인 R.B.F.(Radial Basis Function) 커널이 사용되었다. ϵ = 0.1이 사용되었으며, C = 101 ∼ 106, γ = 10- 2 ∼ 101의 범위를 고려하였다, 중립예측인 p1 = p2 = 0.5로 하였을 때 의 최적 초매개변수이며, 다른 예측성향에도 동일한 초매 개변수가 사용되었다. 함수별 최적 초매개변수는 <Table 1>와 같다. GSVQR과 ATSVR에 무관하게 함수별 최적 초 매개변수는 동일하게 나타났다.

    f1의 경우 반응변수의 값이 -1에서 1사이의 값들이 대 부분이라 0에 가까운 값들이 다수 존재하기에 오차의 절 대값과 실제값의 비율로 계산하는 MAPE는 큰 값이 나올 수 있어 적절치 않으므로, 오차의 절대값만을 이용하는 MAE를 사용하였다. f2, f3의 반응변수는 모두 양수이므로 MAE대신 MAPE를 사용하였다.

    GSVQR과 ATSVR을 적용하였을 때의 각 함수별 결과가 <Table 2>, <Table 3>, <Table 4>에 주어져 있다. 중립예측인 p1 = p2 = 0.5을 기준으로 ME값을 상대적으로 판단해 볼 때 중립예측보다 양수이면 과소예측, 음수이면 과대예측이 라고 할 수 있다. 모든 경우에 있어 p1, p2의 값의 변화에 따른 과소예측, 과대예측이 제대로 이루어졌다. 또한, 과소예 측과 과대에측의 크기는 p1, p2중 하나만 고려한 경우보다 모두 고려한 경우가 크다고 할 수 있다. p1, p2중 어느 값이 예측성향에 더 큰 영향을 미치는지는 함수에 따라 달라질 수 있으며, 특히 p1ϵ의 설정된 값에 영향을 받는다.

    정확도는 RMSE, MAE 혹은 MAPE값을 고려해 볼 때 중립예측이 가장 작은 값을 보여 정확도가 높으며, p1, p2 모두를 이용한 과대예측과 과소예측의 경우가 정확도가 낮게 나타났다.

    계산시간을 보면, GSVQR은 6초에서 8초 사이이며, ATSVR 은 3.5초대로 ATSVR이 2배 이상 빠른 것으로 나타났다.

    <Figure 1>과 <Figure 2>에는 GSVQR과 ATSVR에 함수별 반응변수값과 p1, p2에 따른 예측값들이 주어져 있다. 반응변수 값은 점으로 표현되었으며, 예측값들은 실선으로 표현되었다. GSVQR이 ATSVR에 비해 p1, p2 의 변화에 따라 예측값들이 더 잘 변화되었다. 즉, GSVQR이 예측성향에 따른 예측이 더 잘 이뤄지는 것 으로 보인다.

    실제사례에 대한 실험을 위해 Lee[3], Wu et al.[9]의 연 구에서 사용되었던 3축 고속 CNC 기계가공에서 밀링커터 의 공구마모량을 예측하기 위해 사용되었던 센서데이터들 과 공구마모량 데이터를 사용하였다. 선형예측과 비선형 예측이 사용되었는데, 비선형예측을 위해서는 R.B.F. 커널 이 사용되었다.

    데이터의 80%는 10-fold 교차검증(cross validation)을 적 용하여 초매개변수(hyper-parameter)를 구하기 위해 사용 되었다. 나머지 20%의 데이터는 테스트(test)용으로 활용 되어 정확도를 구하는데 사용되었다. 나머지는 테스트함 수들에 대한 실험조건과 동일하다.

    ϵ = 0.1이 사용되었으며, 선형커널의 경우에는 C = 100 ∼ 105 의 범위를, R.B.F. 커널의 경우에는 C = 101 ∼ 106, γ = 10- 5 ∼ 101의 범위를 고려하였다, 중립예측인 p1 = p2 = 0.5로 하 였을 때의 최적 초매개변수이며, 다른 예측성향에도 동일한 초매개변수가 사용되었다. 함수별 최적 초매개변수는 <Table 5>와 같다.

    선형 커널과 R.B.F.커널을 사용했을 때의 GSVQR과 ATSVR의 결과가 <Table 6>에 주어져 있다. 중립예측인 p1 = p2 = 0.5을 기준으로 ME값을 상대적으로 판단해 볼 때 모든 경우에 있어 p1, p2의 값의 변화에 따른 과소예측, 과대예측이 제대로 이루어졌다. 또한, 과소예측과 과대예측 의 크기는 p1, p2 중 하나만 고려한 경우보다 모두 고려한 경우가 크다고 할 수 있다. p1, p2 중 어느 값이 예측성향에 더 큰 영향을 미치는지는 함수에 따라 달라질 수 있다.

    정확도는 RMSE, MAPE값을 고려해 볼 때 중립예측이 가장 작은 값을 보여 정확도가 높으며, p1, p2모두를 이용 한 과대예측과 과소예측의 경우가 정확도가 낮게 나타났 다. R.B.F.커널의 경우가 선형커널보다 RMSE, MAPE값이 작으므로 정확도가 높게 나타났다.

    계산시간을 보면, GSVQR은 42초~58초이며, ATSVR은 18초~25초로 ATSVR이 2배 이상 빠른 것으로 나타났다. 또한, 선형커널을 사용한 경우가 R.B.F.커널을 사용한 경 우보다 계산시간이 약간 빠른 것으로 나타났다.

    <Figure 3>과 <Figure 4>에는 공구마모량과 p1, p2에 따 른 GSVQR과 ATSVR의 예측값들이 주어져 있다. 공구마 모량 측정값은 점으로 표현되었으며, 예측값들은 실선으 로 표현되었다. 선형커널의 경우에는 GSVQR의 예측성향 에 따른 예측값들은 공구마모량을 따라 잘 변화되고 있으 나 ATSVR은 변화의 폭이 심한 것으로 보인다. R.B.F.커널 의 경우에도 GSVQR의 예측성향에 따른 예측값들은 공구 마모량에 따라 잘 변화되고 있으나, ATSVR은 공구마모량 에 따라 변화는 잘 되고 있으나 예측성향에 따른 변화는 제대로 보여주지 못하고 있다.

    5. 결론 및 미래연구과제

    본 연구에서는 중립예측, 과소예측, 과대예측의 예측성향 을 고려하여 SVR을 이용한 예측을 실시하고 그 차이를 비교하였다. 특히, 2개의 매개변수(p1, p2)를 이용한 ATSVR 이라는 기법을 제안하고, 기존의 GSVQR 기법의 결과와 비교하였다. GSVQR기법의 예측성향에 따른 실험이 충분치 않고 장단점에 대한 연구가 충분치 않아 이번 연구를 통해 다양한 테스트 함수와 공구마모데이터를 활용하여 그 특징 을 살펴보았다.

    GSVQR과 ATSVR 모두 2개의 매개변수를 활용하는 경우 예측성향에 따른 예측이 가능하였으며, ATSVR이 계산시간 측면에서는 2배 이상 빠른 것으로 나타났다. 한편, 정확도 측면에서는 ATSVR과 GSVQR은 큰 차이가 없었으나, 그림 으로 확인해 볼 때 GSVQR이 ATSVR보다 예측성향을 더 잘 반영하는 것으로 나타났다. 2개의 매개변수(p1, p2)중 1개 의 매개변수를 활용하는 것보다 2개의 매개변수 모두 활용 하는 것이 예측성향의 따른 변화를 크게 하는 것으로 보인다. 하지만, 상황에 따라 2개 중 1개의 매개변수만 활용하는 것이 나을 수도 있다. 또한, 중립예측보다 과소예측이나 과대예측의 정확도가 낮게 나타났다.

    미래의 연구과제로는 ϵ 폭의 비대칭성을 조절하는 p1은 ϵ의 값에 영향을 많이 받는다. 다양한 ϵ값에 따른 변화에 대한 추가 연구가 필요하다. 또한, 예측성향에 따른 실제 문제로의 적용에 대한 연구가 현재로서는 많지 않으므로 많은 실제사례를 발굴하고 이들 사례에 대한 ATSVR과 GSVQR 등의 적용을 통한 연구가 필요하다.

    <Appendix> ATSVR에서 원문제의 라그랑주 쌍대문제로의 변환과정

    식 (31)~ 식(33)의 원문제를 이용하여 라그랑주 쌍대문제를 구하는 과정은 다음과 같다. 먼저 라그랑주 함수(L1)를 구하면 식 (3)과 같다.

    L 1 = 1 2 | | Y e 1 ( A w 2 + e b 2 | | 2 + + C 2 e T η γ T ( ( A w 2 + e b 2 ) Y ( 1 p 1 ) e 2 + 1 p 2 η ) δ T η )
    (50)

    그러므로, KKT 조건을 구하기 위해 L1에 대하여 변수들의 편미분을 계산하고 0으로 두면 식 (51)~식 (53)과 같다.

    L 1 w 2 = A T ( Y + e 2 ( A w 2 + e b 2 ) ) A T γ = 0
    (51)

    L 1 b 2 = e T ( Y + e 2 ( A w 2 + e b 2 ) ) e T γ = 0
    (52)

    L 1 η = C 2 e 1 p 2 γ δ = 0
    (53)

    P6의 제약식을 추가하면 식(54), (55)과 같다.

    ( A w 2 + e b 2 ) Y ( 1 p 1 ) e 2 1 p 2 η
    (54)

    η 0
    (55)

    그러므로, 상보여유정리는 식 (56), 식 (57)과 같다.

    γ T ( ( A w 2 + e b 2 ) Y ( 1 p 1 ) e 2 + 1 2 η ) = 0 , γ 0
    (56)

    δ T η = 0 , δ 0
    (57)

    C 2 e 1 p 2 γ δ = 0 이고 δ ≥ 0이므로 1 p 2 γ C 2 e 이다. 그러므로 0 γ p 2 C 2 e 이다.

    식 (51)와 식 (52)는 식 (58)과 같다.

    [ A T e T ] ( ( Y + e 2 ) [ A e ] [ w 2 b 2 ] ) [ A T e T ] γ = 0
    (58)

    G = [ A e ] , h = Y + e 2 , u 2 = [ w 2 T b 2 ] T 라고 하자. 그러면, 식 (58)은 식 (59)로 나타낼 수 있다.

    G T h + G T G u 2 G T γ = 0
    (59)

    그러므로, u 2 , u 2 T 에 대한 식으로 나타내면 식 (60), 식 (61)과 같다.

    u 2 = ( G T G ) 1 ( G T h + G T γ )
    (60)

    u 2 T = ( h T G + γ T G ) ( G T G ) 1
    (61)

    GTG가 반양정치행렬(positive semidefinite matrix) 이기는 하지만 역행렬을 구하기 어려울 수 있기에 아주 작은 임의 의 값인 σ를 더해서 계산할 수 있는데, 식 (60)은 식 (62)와 같다.

    u 2 = ( G T G + σ I ) 1 G T ( h + γ )
    (62)

    이다. 여기서 I는 identity matrix이다.

    식 (50)을 G, h, u2을 이용하여 다시 정리하면

    G = [ A e ] , h = Y + e 2 , u 2 = [ w 2 T b 2 ] T L 2 = 1 2 ( Y + e 2 ( A w 2 + e b 2 ) ) T ( Y + e 2 ( A w 2 + e b 2 ) ) + C 2 e T η γ T ( ( A w 2 + e b 2 ) Y ( 1 p 1 ) e 2 + 1 p 2 η ) δ T η L 2 = 1 2 ( h G u 2 ) ) T ( h G u 2 ) γ T ( G u 2 Y ( 1 p 1 ) e 2 ) + ( C 2 e + 1 p 2 γ δ ) η

    식 (53)에 의해 ( C 2 e 1 p 2 γ δ ) η = 0 이므로

    = 1 2 ( h G u 2 ) ) T ( h G u 2 ) γ T ( G u 2 Y ( 1 p 1 ) e 2 ) = 1 2 ( h G u 2 ) ) T ( h G u 2 ) γ T ( G u 2 Y ( 1 p 1 ) e 2 ) + γ T e 2 T γ e 2 = 1 2 ( h G u 2 ) ) T ( h G u 2 ) γ T ( G u 2 Y e 2 ) + γ T ( 1 p 1 ) e 2 γ T e 2 = 1 2 ( h G u 2 ) ) T ( h G u 2 ) + γ T ( h G u 2 ) γ T p 1 e 2

    이다. γT (h -Gu2 )는 1×1 행렬이므로 (γT (h -Gu2 ))T = (h -Gu2 )Tγ로 표현할 수 있다. 또한, γTp12도 1×1 행렬이므로 (γTp12 )T = p1ϵ2eTγ로 표현할 수 있다. 그러므로,

    L 2 = 1 2 ( h G u 2 ) ) T ( h G u 2 ) + ( h G u 2 ) T γ p 1 2 e T γ = 1 2 h T h 1 2 h T G u 2 1 2 u 2 T G T h + 1 2 u 2 T G T G u 2 + h T γ u 2 T G T γ p 1 2 e T γ = 1 2 h T h 1 2 h T G u 2 + 1 2 u 2 T ( G T h + G T G u 2 G T γ ) + h T γ 1 2 u 2 T G T γ p 1 2 e T γ

    hTh는 상수이므로 생략가능하다. 또한, 식 (58) G T h + G T G u 2 G T γ = 0 이므로

    L 2 = 1 2 h T G u 2 + h T γ 1 2 u 2 T G T γ p 1 2 e T γ

    여기에 식 (60), 식 (61)를 적용하면

    L 2 = 1 2 h T G ( G T G ) 1 ( G T h + G T γ ) + h T γ 1 2 ( h T G + γ T G ) ( G T G ) 1 G T γ p 1 2 e T γ 1 2 h T G ( G T G ) 1 G T h 1 2 h T G ( G T G ) 1 G T γ + h T γ 1 2 h T G ( G T G ) 1 G T γ 1 2 γ T G ( G T G ) 1 G T γ p 1 2 e T γ

    여기서 1 2 h T G ( G T G ) 1 G T h 는 상수이므로 생략 가능하다. 그러므로, 다음과 같이 표현할 수 있다.

    1 2 γ T G ( G T G ) 1 G T γ h T G ( G T G ) 1 G T γ + ( h T p 1 2 e T ) γ

    Figure

    JKISE-45-1-71_F3.gif

    Prediction for tool wear by GSVQR

    JKISE-45-1-71_F4.gif

    Prediction for tool wear by ATSVR

    Table

    Optimal Hyperparameters for Functions f1, f2, f3

    Results for f1 by Method

    Results for f2 by Method

    Results for f3 by Method

    Optimal Hyperparametersfor Tool Wear Data

    Results for tool Wear by Method and Kernel

    Reference

    1. Huang, X., Shi, L., Pelckmans, K., and Suykens, J., Asymmetric ∊-tube support vector regression, Computational Statistics and Data Analysis, 2014, Vol. 77, pp. 371-382.
    2. Peng X., TSVR: An efficient Twin Support Vector Machine for regression, Neural Networks, 2010, Vol. 23, pp. 365-372.
    3. Lee, D.J., Tool Lifecycle Optimization using v- Asymmetric Support Vector Regression, Journal of the Society of Korea Industrial and Systems Engineering, 2020, Vol. 43, No. 4, pp. 208-216.
    4. Lee, D.J., and Choi, S.J., Generalized Support Vector Quantile Regression, Journal of the Society of Korea Industrial and Systems Engineering, 2020, Vol. 43, No. 4, pp. 107-115.
    5. Singh, M. Chadha, J., Ahuja, P., and Jayadeva, Chandra, S., Reduced Twin Support Vector Regression, Neurocomputing, 2011, Vol. 74, pp. 1474-1477.
    6. Vapnik, V., Statistical Learning Theory, New York, NY: Wiley, 1998.
    7. Wang, S., Huang, X., and Yan, Y., A neural network of smooth hinge functions, IEEE Trans. Neural Netw., 2010, Vol. 21, No. 9, pp. 1381-1395.
    8. Wang, H. and Xu, Y., Scaling up twin support vector regression with safe screening rule, Information Science, 2018, Vol. 465, pp. 174-190.
    9. Wu, D., Jennins, C., Terpenny, J., Gao, R.X., and Kumara, S., A Comparative Study on Machine Learning Algorithms for Smart Manufacturing: Tool Wear Prediction Using Random Forests, Journal of Manu. Sci. and Engineering, 2017, Vol. 139, No. 7, pp. 1-10.
    10. Wu, J., Wang, Y.-G., Tian, Y.-C., Burrage, K., and Cao, T., Support Vector Regression with Asymmetric Loss for Optimal Electric Load Forecasting, Energy, 2021, Vol. 223, 119969.
    11. Xu, Y., Li, X., Pan, X., and Yang, Z., Asymmetric v-twin support vector regression, Neural Comput. & Appli., 2018, Vol. 30, pp. 3799-3814.
    12. Xu, Y. and Wang, L., A weighted twin support vector regression, Knowledge-Based Systems, 2012, Vol. 33, pp. 92-101.