Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.44 No.2 pp.66-77
DOI : https://doi.org/10.11627/jkise.2021.44.2.066

A Methodology for Customer Core Requirement Analysis by Using Text Mining : Focused on Chinese Online Cosmetics Market

Yoon Sig Shin*, Dong Hyun Baek**
*Graduate School of Management Consulting, Hanyang University
**Department of Business Adminstration, Hanyang University
Corresponding Author : estarbaek@hanyang.ac.kr
17/05/2021 10/06/2021 11/06/2021

Abstract


Companies widely use survey to identify customer requirements, but the survey has some problems. First of all, the response is passive due to pre-designed questionnaire by companies which are the surveyor. Second, the surveyor needs to have good preliminary knowledge to improve the quality of the survey. On the other hand, text mining is an excellent way to compensate for the limitations of surveys. Recently, the importance of online review is steadily grown, and the enormous amount of text data has increased as Internet usage higher. Also, a technique to extract high-quality information from text data called Text Mining is improving. However, previous studies tend to focus on improving the accuracy of individual analytics techniques. This study proposes the methodology by combining several text mining techniques and has mainly three contributions. Firstly, able to extract information from text data without a preliminary design of the surveyor. Secondly, no need for prior knowledge to extract information. Lastly, this method provides quantitative sentiment score that can be used in decision-making.



텍스트 마이닝을 활용한 사용자 핵심 요구사항 분석 방법론 : 중국 온라인 화장품 시장을 중심으로

신 윤식*, 백 동현**
*한양대학교 일반대학원 경영컨설팅학과
**한양대학교 경상대학 경영학부

초록


    1. 서 론

    제품 판매에 있어 사용자의 핵심적인 요구사항을 파 악하는 것은 매우 중요하고, 많은 기업과 관련 연구에서 는 이를 위해 설문 조사를 활용하고 있다. 하지만 설문 조사는 조사자인 기업이 설문을 사전설계하므로 응답이 수동적일 수 있는 한계가 있다.

    설문 조사 외의 방법으로는 웹 데이터를 활용할 수 있다. 웹 데이터는 매년 기하급수적으로 증가하고 있는데, 2004 년부터 2013년까지 10년간 전 세계적으로 인터넷 사용자 는 2.7배, 인터넷 사용량은 31.9배가 증가하였다고 한다[7, 8]. 이러한 웹 데이터 중 하나인 사용자가 직접 작성한 텍 스트 자료에는 사용자의 주관적 의견이 내재되어 있어 적 합한 방법을 사용한다면 정보추출이 가능하다. 특히, 조사 에 따르면 미국 온라인 구매 후기 독자 중 73%~87%가 구 매 결정에 구매 후기가 중요한 영향을 미쳤다고 한다[14]. 즉, 대량의 구매 후기에 내재된 사용자 의견을 정확하게 파악하는 것은 소비자들의 구매 의사 파악과 밀접하게 관 련된 중요한 활동이라고 볼 수 있다.

    이러한 텍스트 자료에서 고품질의 정보를 추출하는 기 법을 텍스트 마이닝(Text Mining)이라 한다[4]. 텍스트 마 이닝을 활용하면 텍스트에서 직접 정보를 추출하기 때문 에 설문 조사와 같은 조사자의 사전설계가 필요하지 않다. 설문을 통해 사용자 요구사항을 분석하고자 할 경우, 정량 적 측정에는 용이하지만 응답이 설계된 질문의 범위를 벗 어나지 못하는 한계가 있다. 반면, 텍스트 마이닝은 사용 자가 직접 느낌을 표현한 텍스트 자료를 분석하여 정보를 추출하기 때문에 좀 더 다양한 정보를 습득할 수 있다. 이 점에서 텍스트 마이닝은 사용자 요구사항 파악을 위한 기 존 설문 조사의 보완 방법으로 활용될 수 있다.

    앞서 살펴본 바와 같이 사용자 요구사항 파악을 위한 설문 조사법은 몇 가지 한계점이 있고, 인터넷 사용량 증 가와 더불어 텍스트 마이닝 활용이 가능한 환경이 도래하 였다. 그렇기 때문에 텍스트 마이닝을 활용한 사용자 요 구사항 파악 방법의 필요성은 점차 증가하고 있지만, 기 존 연구는 자연어 처리나 상품정보 요약, 감성 분류, 분류 정확도 향상 등 분석기법 개선을 중심으로 진행된 경향이 있다. 이러한 이유로 본 연구는 기 연구된 향상된 텍스트 마이닝 분석기법들을 조합하여 기업 의사결정에 활용 가 능한 사용자 요구사항 분석 방법을 제안하고자 하였다.

    본 연구의 목적은 기업 의사결정에 활용이 가능한 사 용자 핵심 요구사항 분석을 설문 조사가 아닌 사용자 구 매 후기에서 추출하는 방법론을 제안하고, 사례적용으로 실제 유용성과 타당성을 확인하는 것이다. 제안하고자 하는 방법론은 목표 수준의 정보추출을 위해 크게 두 가 지의 핵심적인 사항을 파악하고자 한다. 첫 번째는 제품 특정요소에 대한 사용자의 느낌이다. 이를 위해 상품에 대한 정보 등 객관적 정보와 사용자의 태도 및 감정 등 주관적 정보를 종합적으로 고려하고자 하였다. 두 번째 는 제품의 상대적 경쟁력이다. 동종제품군 내에서의 비 교우위 등 기업 의사결정 지원에 적합한 정보추출을 위 해 경쟁제품 분석 결과를 함께 고려하여 상대적 경쟁력 을 파악하고자 하였다.

    2. 이론적 배경 및 관련 연구

    2.1 요구사항 분석 관련 연구

    2.1.1 요구사항 분석의 개념

    요구사항 분석이란 새로운 제품이나 프로젝트 충족을 위한 다양한 이해관계자의 요구사항을 분석, 결정, 검증 및 관리하는 작업을 총칭하며, 주로 소프트웨어 개발이나 시스템 공학에서 사용된다[12]. 이 요구사항 분석은 요구 사항 분석, 기능분석 및 할당, 종합설계(Design Synthesis)의 과정이 반복적, 유기적으로 이루어지는 종합적인 과정이며, 요구사항은 고객 요구사항 외에도 시스템 설계적, 구조적, 행위적, 기능적, 비기능적 등의 모든 개념을 포괄한다[13].

    하지만 소프트웨어나 시스템 공학에서 주로 사용되는 포괄적 과정으로서의 요구사항을 본 연구에 그대로 적용 하기엔 어려움이 따른다. 그러므로 본 연구에서는 고객 이 작성한 구매 후기를 통해 요구사항을 파악하므로 생 산자나 설계자, 판매자 입장이 아닌 고객중심의 요구사 항으로 한정한다.

    2.1.2 카노모델(Kano Model)

    기업 관점에서의 소비자 요구사항 분석을 위한 방법으 로는 설문 조사나 상품기획 이론인 카노모델이 있다[9]. 카노모델은 소비자 만족감에 대해 한계효용의 법칙을 적용하여 소비자의 주관적 만족여부 외에도 요구사항의 물리적 충족여부를 동시에 고려한 모델이다. 카노모델은 <Table 1>과 같이 품질요소를 크게 매력적(Attractive)·일차 원적(One-dimensional)·당연적(Must-be)·무차별(Indifference) 품질요소 4가지로 구분하여 설명하며, 내용은 아래 와 같다.

    카노모델은 뚜렷하게 대응되는 2가지 축을 중심으로 각 품질요소들이 정의되어 있고, 품질요소 조사에 설문 을 활용하므로 정량화가 용이하다. 또한, 기본적으로 위 의 4가지 품질요소 추출이 가능한 제품이라면 카노모델 적용이 가능하다.

    2.1.3 설문 조사(Survey)

    사용자 요구사항 분석에서 카노모델 외에도 직접 설문 조사를 설계하여 활용할 수 있으며, 대표적인 장점 및 단 점은 다음과 같다. 먼저 장점으로는 실제 관측자료를 바탕 으로 자료가 산출된다는 점, 일반화에 상대적으로 용이하다 는 점, 적은 비용으로 다량의 데이터가 생성가능한 점이다. 하지만 적용범위를 세분화할 경우 데이터의 중요성이 무 시될 수 있는 점, 조사주제에 따라 세부사항이나 깊이가 부족해질 수 있는 점, 응답률 통제가 어려운 점은 설문 조 사의 대표적인 단점이다[10]. 그리고 설문 조사의 품질을 향상시키기 위해서는 조사분야의 풍부한 사전지식, 관련 인력과의 지속적인 의견교류, 질문설계에 대한 충분한 고 려가 필요하다[17].

    위의 사항들은 카노모델에서도 각 품질요소를 파악하 기 위해 설문을 사용기 때문에 어느 정도 해당될 수 있 다. 그렇지만 본 연구가 제안하는 방법이 기존 방법을 대 체할 수 있는 것은 아니다.

    텍스트 마이닝은 최근 빅데이터 분석기법 중 하나로 여겨지는데, 주된 단점 중 하나는 대량의 자료에서 유용 한 정보를 추출하기가 어렵다는 것이다[15]. 그러므로 본 연구에서 제안하는 텍스트 마이닝을 활용한 방법이 설문 조사의 몇 가지 단점과 제약에선 자유로울 수 있겠지만, 설문 조사를 대체할 정도로 단점을 해소한다고 볼 수는 없다. 따라서 본 연구가 제안하는 방법론은 사용자 구매 후기 분석에 텍스트 마이닝을 활용할 수 있는 환경이 도 래함에 따라 기존 방법의 일부를 보완할 수 있다고 보는 것이 적절할 것이다.

    2.2 텍스트 마이닝 관련 연구

    2.2.1 텍스트 마이닝의 개념

    텍스트 마이닝이란 텍스트 자료에서 높은 품질의 정보 를 추출하는 과정을 총칭하며, 정보추출을 위한 유목화나 범주화, 감성분석 및 문서요약 등 관련 기법을 포괄한다[4]. 하지만 텍스트 마이닝을 오피니언 마이닝(Opinion Mining) 과 구분짓기도 한다. 텍스트 마이닝은 사실에 기반한 객관 적 정보추출 과정이며, 오피니언 마이닝은 작성자의 감정 등 주관적 정보추출 과정이라는 것이다[16]. 이 같은 내용 은 텍스트에서 높은 수준의 정보를 추출하기 위해서는 다 양한 성격의 정보를 종합적으로 고려해야 함을 의미한다.

    2.2.2 텍스트 마이닝을 활용한 구매 후기 분석 관련 연구

    텍스트 마이닝을 활용하여 구매 후기를 분석한 기존 연구는 주로 상품정보 요약이나 감성 분류, 자연어 처리, 분류 정확도 향상을 중심으로 진행된 경향이 있다. 구체 적으로는 구매자 의견 분류 정확도 향상을 위한 자연어처 리 및 품사태깅 방법을 제안하거나], 상품평의 문맥 정보 를 고려하여 분류정확도가 향상된 의견정보를 제공하는 방법], 구매자의 구매 결정 지원을 위한 상품평 요약 방 법, 상품평에서 구매자 의견정보 추출을 위한 자연어처리 방법이 있다[6, 18, 22, 23]. 이 경우에는 시스템 설계자나 전문분석가, 연구자에겐 유용한 활용도구가 될 수 있지만 종합적 판단이 필요한 기업 의사결정에 활용하기는 쉽지 않을 수 있다. 본 연구에서는 향상된 기존 연구에서의 텍 스트 마이닝 기법들을 다양하게 활용하여 기업 의사결정 자의 입장에서 유용한 정보를 제공하고자 하였다.

    3. 텍스트 마이닝을 활용한 사용자 핵심 요구사항 분석 방법론

    3.1 방법론의 개요

    본 연구가 제안하는 방법론의 목적은 텍스트 마이닝 을 활용하여 사용자 구매 후기로부터 기업 의사결정 지 원이 가능한 수준의 정보를 추출하는 것이다. 방법론은 사용자 핵심 요구사항과 목표 수준의 정보추출을 위한 4 단계로 이루어져 있으며, 내용은 <Figure 1>과 같다.

    3.2 방법론의 분석 도구

    본 절에서는 각 단계별로 정보추출을 위해 사용된 분석 도구에 대해 알아보도록 한다. 단계 1과 단계 2를 거쳐 총 4개의 분석 도구를 사용했으며, 사회연결망분석(Social Network Analysis), 모듈성분석(Modularity Analysis), 감성 분석(Sentiment Analysis), 엘라스틱넷 회귀분석(Elastic Net Regression)을 사용하였다.

    3.2.1 사회연결망분석 및 모듈성분석

    사회연결망분석은 사회관계성 형태(morphology)나 사 회관계(social relation) 패턴으로 정의된 사회구조를 분석 하는 방법이다. 사회구조로 표현되는 사회연결망은 다양 한 행위자들의 상호작용으로 생성되며, 사회구조나 연결 망 내부 행위자의 개별속성보다는 각 개별단위의 상호작 용이 중점적 분석대상이 된다[11]. 이를 본 연구의 분석 대상인 구매 후기 텍스트 자료에 적용할 경우, 전체 사용 자 구매 후기의 구조가 사회구조로 표현되고, 각 키워드 는 행위자가 된다. 그리고 개별 구매 후기 내에서 키워드 동시출현 빈도가 상호작용으로 표현된다.

    그리고 사회연결망분석에서 노드의 영향력이나 중요도 를 근접중심성, 연결중심성, 매개중심성을 통해 파악할 수 있다[5]. 본 연구에서는 세가지 중심성 중 전체 연결망 에서 포괄적 영향력을 측정할 수 있는 근접중심성을 중심 으로 살펴보았다. 근접중심은 식 (1)과 같은 방법으로 산 출하였다.

    C ( x ) = N y d ( y , x )
    (1)

    C (x)는 노드 x의 근접중심성을 의미하며 d(y,x)는 노 드 x와 노드 y의 거리를 의미한다. 여기서 본 연구는 최 단거리의 평균을 이용하는 정규화된 형식을 사용하였으 며, ‘전체 노드 수 -1’로 나눈 식에서 연구에 사용된 연결 망이 대규모임을 고려해 ‘-1’을 생략하였다.

    모듈성 분석은 사회연결망에서 노드의 군집화를 위해 사용하는 군집화 기법이다. 군집구조 파악을 위해 1개의 노드를 1개의 군집(community)으로 가정하는데서 출발하 며, 군집내 연결선의 수가 군집 간 연결선의 수보다 많아 지도록 군집을 확장한다. CNM(Clauset-Newman-Moore) 알고리즘은 앞에 설명한 노드 군집화를 위해 일반적으로 활용하는 방법이지만 대규모 네트워크에서는 속도가 느 리다는 단점이 있다. 본 연구에서는 더 빠르고 연결망 규 모의 제약에서 좀 더 자유로운 Blondel의 알고리즘을 사 용하였다[1, 2].

    3.2.2 감성분석 및 엘라스틱넷 회귀분석

    감성분석은 텍스트의 의견이나 감성, 주관을 분석하는 작업을 말한다[16]. 감성분석을 위해 텍스트에서 크게 주 관성(Subjectivity)과 극성(Polarity) 두 가지를 점수(Score) 로 산출하는데, 주관성 점수는 텍스트 내에 얼마나 많은 감성이 포함되어있는지, 극성점수는 텍스트 내의 감성이 얼마나 부정적이거나 긍정적인지를 측정한다[3]. 본 연구 에서는 제품 요소에 대한 사용자의 감성을 파악하고자하 므로 극성점수를 중점적으로 다루었으며, 다음과 같이 산출된다.

    P o l a r i t y S c o r e = p + n p n
    (2)

    식 (2)에서 p는 문서 내 긍정단어의 개수, n은 문서 내 부정단어의 개수이다. 여기서 극성점수가 양수이면 텍스 트 내에서 긍정단어 출현빈도가 부정단어 보다 높다는 의미이므로 긍정으로 간주하고, 반대의 경우에는 부정으 로 간주한다.

    엘라스틱넷은 회귀분석의 한 종류로 능형(Ridge) 회귀 식과 라쏘(Lasso) 회귀식의 결합형태이다[24]. 일반적으 로 회귀분석에서는 잔차제곱합(Residual Sum of Squares, RSS)을 최소화하는 최소제곱법으로 회귀계수 추정량을 구한다. 하지만 변수간 상관관계가 높으면 추정 회귀계 수를 신뢰할 수 없는 다중공선성 문제가 발생할 수 있고, 설명변수의 수가 많아지면 영향력이 큰 변수의 해석이 어려워질 수 있다[19]. 엘라스틱넷은 라쏘와 능형 회귀분 석의 제약식을 결합하여 앞선 두 가지의 문제를 해결할 수 있으며, 내용은 식 (3)과 같다.

    t = 1 n ( y i β 0 j = 1 P β i χ i , j ) 2 + ( 1 α ) j = 1 P | β j | + α j = 1 P | β j | 2
    (3)

    식 (3)에서 α값을 조절하여 제약조건의 비중을 설정할 수 있다. α = 0이면 능형 회귀분석과 같고, α = 1이면 라쏘 회귀분석과 같다. 살펴본 바와 같이 엘라스틱넷은 다량의 변수로 발생하는 문제와 다중공선성의 문제를 변 수선택과 회귀계수 축소로 동시에 해결할 수 있는 방법 이다[24]. 본 연구에서는 감성분석으로 도출된 문서를 종 속변수로 긍정문서를 1, 부정문서를 0으로 라벨링하여 각 단어들에 대해 엘라스틱넷 분석을 진행하였다. 여기서 분석의 결과로 각 단어들에 대한 회귀계수가 도출되는 데, 양의값의 회귀계수가 높은 단어는 해당 단어가 문서 에 출현할수록 긍정문서일 가능성이 높다는 것을 의미하 고, 반대로 음의값의 회귀계수가 낮을수록 해당 단어가 문서에 출현할수록 부정문서일 가능성이 높다는 것을 의 미한다.

    3.3 단계별 세부내용

    3.3.1 단계 1 : 객관적 정보분석

    객관적 정보분석 단계의 목표는 전체 사용자 구매 후기 의 핵심키워드와 핵심주제를 파악하는 것이다. 여기서 객 관적 정보란 사실에 기반(fact-based)한 정보들로 상품정보 나 성능, 가격 등이 있다. 해당 단계에서는 사회연결망분석 과 모듈성분석을 진행하기 위해 소프트웨어 ‘Gephi 0.9.1’ 을 사용하였다. Gephi는 대규모의 연결망분석에 적합한 고 속 분석 알고리즘을 사용하고, 분석 결과 시각화를 지원하 는 GUI 환경의 소프트웨어다.

    분석을 위해 사용자 구매 후기를 수집하여 키워드 별로 동시발생 빈도를 정리한 동시발생 행렬표(Co-occurrence Matrix)를 작성하였다. 동시발생 행렬표는 키워드별로 구 매 후기에서 동시에 쓰인 빈도수를 정리한 표이다. 이 동시 발생 행렬표를 바탕으로 사회연결망분석과 모듈성분석을 진행하여 군집구조와 핵심키워드를 파악한다. 그리고 이때, 군집 내 키워드들의 사전적 의미의 유사성과 연구자의 경 험적 판단으로 군집명을 정할 수 있다. 왜냐하면 키워드들이 동일군집에 속해있다는 것은 1개의 구매 후기가 해당 키워 드들로 구성되어있을 확률이 높다는 의미이기 때문이다.

    그런데 구매 후기가 많아질수록 연결망 규모가 지나치 게 거대해져 고려해야하는 키워드가 수천, 수만개에 달하 는 문제가 발생한다. 그래서 전체 구매 후기에서 발생빈 도가 지나치게 낮거나 상대적으로 중요정보를 포함할 가 능성이 낮은 키워드를 선별하여 연결망 규모를 축소하였 다. 선별기준을 근접중심성 상위 10%로 정하여 기준에 미 달하는 키워드를 제거하였으며, 이 과정으로 발생빈도가 지나치게 적은 키워드를 제거할 수 있고, 중요정보를 포 함할 가능성이 상대적으로 높은 키워드들을 중심으로 연 결망 규모를 축소할 수 있다. 이는 <Figure 2>와 같이 시 각적으로 확인가능하다.

    3.3.2 단계 1 : 주관적 정보분석

    주관적 정보는 가격이나 효과에 대한 사용자의 느낌 처럼 주관적 느낌에 기반한 정보들을 말한다. 주관적 정 보분석 단계에서는 전체 사용자 구매 후기를 긍정과 부 정후기로 나누고, 각 긍정·부정후기에서 출현확률이 높 은 키워드를 파악한다. 분석을 위해 ‘R Studio 0.99.903’ 을 사용하였다.

    감성분석을 위해서 본 연구에서는 중국 온라인 쇼핑몰 을 중심으로 사례적용을 진행했기 때문에 구글번역을 통 해 중국어를 영어로 번역해 진행하였다. 감성사전은 여러 제품의 온라인 구매 후기 분석을 토대로 기 구축된 감성 사전을 사용하였다[6]. 감성사전은 텍스트 자료가 긍정적 인지 부정적인지 판단할 수 있게 여러 단어를 긍정과 부 정여부로 나눈 사전이다. 그리고 앞서 언급한 영문 감성 사전을 활용해 구글번역을 거친 중국어 구매 후기를 분석 하는 것이 정확도가 더 높다는 연구결과가 있다[20]. 해당 연구에서의 분류정확도는 81.3%로 나타났으며, 이는 다 른 3개의 중국어 감성사전 정확도 74.3%, 63.8%, 73.6% 보다 높은 수치이다. 이 감성사전을 활용하여 구매 후기 별 극성점수를 도출하여 긍정·부정후기를 분류하였다.

    구매 후기의 감성 분류가 완료된 후, 감정별로 긍정후기 를 1, 부정후기를 0으로 라벨링하여 종속변수로 설정하였 다. 그리고 엘라스틱넷을 진행하였으며, 이때 독립변수는 각 구매 후기의 키워드들이 된다. 라쏘와 능형 제약식 비 율은 5:5로 하였고, 정확도를 향상을 위해 자료를 10개로 분할하여 학습과 검증을 반복하는 교차타당성검증(10-fold Cross Validation)을 사용하였다. 이 과정에서 영향력이 낮 은 키워드를 제거하고 고빈도 키워드에 의해 회귀계수가 과장되는 것을 완화할 수 있다. 그리고 긍정ㆍ부정후기에 서 출현할 확률이 높은 키워드를 파악할 수 있으며, 그 정 도는 회귀계수로 표현된다. 여기서 회귀계수는 각 키워드 가 내포하고 있는 감성의 강도로 볼 수 있다.

    3.3.3 단계 3 : 키워드 특성분류

    키워드 특성분류 단계는 핵심 요구사항 파악을 위해 1 단계와 2단계 결과를 바탕으로 키워드를 특성별로 5개로 분류하는 단계이다. 이 단계에서는 분석에 사용된 동종제 품군 내 모든 제품의 결과를 비교함으로써 강한 긍정과 부정 감성을 나타내는 키워드, 그리고 상대적으로 약한 긍정과 부정 감성을 나타내는 키워드, 그리고 뚜렷한 감 성은 나타나지 않지만, 사용자들로부터 자주 언급된 키워 드를 파악할 수 있다. 5가지 특성별 분류기준과 특징은 <Table 2>와 같다.

    상세한 내용은 다음과 같다. 첫 번째, 강한긍정(Strong Positive)은 분석에 사용된 동종제품군 내 모든 제품에서 엘라스틱넷 회귀계수가 양의 값을 가진다. 예를 들면 로 션제품 5개 분석 결과 ‘색상’이 강한긍정으로 나타났다면 ‘색상’이 모든 로션제품에서 긍정적인 키워드로 분류되었 다는 의미이다. 이 경우 특정 로션 제품이 ‘색상’에 대한 어떤 사항을 만족한다면 긍정적인 반응을 얻을 가능성이 있다는 것을 의미한다.

    두 번째, 강한부정(Strong Negative)은 강한긍정과 반대 로 모든 제품에서 음의 회귀계수를 갖는 키워드이다. 마 찬가지로 위의 예시에서 ‘기름진’이 강한부정이라면 모든 제품에서 ‘기름진’이 부정적인 키워드로 분류되었다는 의 미이다. 그렇다면 이 경우에는 특정 로션 제품이 ‘기름진’ 속성을 갖고있다면 부정적 반응에 직면할 가능성이 있다 는 것을 의미한다.

    셋째, 약한긍정(Weak Positive)은 일부제품에서 긍정키 워드로 나타남과 동시에 키워드가 출현한 모든 제품에서 근접중심성 또한 상위 10%에 해당하는 키워드이다. 핵심 요구사항 파악을 위해 상대적 중요도가 낮은 키워드를 근 접중심성을 통해 걸러내었다. 예시로는 로션제품군에서 ‘스프레이’가 약한긍정으로 나타났을 때, 특정 로션제품 이 ‘스프레이’에 관한 속성을 만족한다면 긍정적 반응을 얻을 가능성이 있다는 뜻이다. 하지만 일부제품에서만 나 타났으므로 강한긍정보다는 긍정반응을 얻을 가능성이 상대적으로 높지 않을 것이다.

    넷째, 약한부정(Weak Negative)은 위의 약한긍정과 같 지만 긍정이 아닌 부정키워드로 분류된 것이다. 동일한 예시로 ‘끈적임’이 약한부정으로 나타났다면, ‘끈적임’에 관한 속성을 만족하는 특정 로션제품은 강한부정보다는 상대적으로는 덜한 부정적 반응에 직면할 가능성이 있다 는 것을 의미한다.

    마지막으로 무감성(Neutral)은 모든 제품에서 긍ㆍ부정 감성이 나타나진 않지만 모든 제품에서 상위 10%의 근 접중심성을 갖는 키워드이다. 무감성 키워드는 엘라스틱 넷 회귀계수를 갖진 않지만 모든 제품에서 높은 근접중 심성을 가지므로 상황에 따라 주목받을 수 있는 요소라 고 판단하였다. 물론 분류된 감성이 없으므로 주목을 받 더라도 그것이 긍정일지 부정일지는 판단하기 어렵다. 내용을 정리하여 도식으로 나타내면 <Figure 3>과 같다.

    마지막으로 앞선 5가지로 분류된 키워드 외에도 동일 한 키워드가 여러 제품에 걸쳐 다른 감성으로 나타나는 경우를 고려한다. 이 키워드는 요구사항 분류기준으로 사 용할 수 있으며, 하위항목은 해당 키워드가 포함된 군집 을 확인하여 도출할 수 있다.

    예를 들어, <Table 3>과 같이 키워드 ‘effect’가 제품 1 에선 긍정, 제품 2에선 부정으로 분류되었다고 가정한다.

    그러면 ‘effect’에 따라 사용자 반응이 긍정적이거나 부정 적일 수 있다는 의미이다. 그리고 ‘effect’가 포함된 군집의 다른 키워드들은 ‘skin, color, cushion, moist(긍정), feel, easy, allergy(부정), dry(부정)이다. 그러면 사용자 감성에 영향을 주는 ’effect’의 어떤 특징은 ‘moist, allergy, dry’와 관련이 깊다고 볼 수 있다. 결론적으로 <Table 3>의 예시에 서 제품 1과 2는 ‘effect(효과)’에 따라 사용자 감성에 긍정, 또는 부정적 영향을 미치는데, 긍정적 특징은 ‘moist (촉촉 함)’이고 부정적 특징은 ‘allergy(알러지)’와 ‘dry(건조함)’ 가 되는 것이다.

    3.3.4 단계 4 : 핵심 요구사항 파악

    핵심 요구사항 파악 단계는 이전단계의 결과들을 종 합하여 제품에 대한 사용자의 핵심 요구사항과 동종 제 품군 내에서의 상대적 경쟁력을 파악하는 단계이다. 먼 저 강한긍정과 강한부정 키워드들을 중심으로 제품군에 대한 사용자 핵심 요구사항을 파악하고, 제품별로 파악 된 키워드들의 엘라스틱넷 회귀계수를 비교하여 개별 제 품들의 상대적 경쟁력을 파악한다.

    예를 들면 다음과 같다. <Figure 4>는 단계 3까지의 결과 로 도출된 로션제품 ‘AVENE’의 키워드 군집 중 1개이다.

    먼저 키워드들을 확인한 후 군집을 ‘배송 및 서비스’로 명명하였다. 그리고 ‘배송 및 서비스’의 핵심 요구사항 파 악을 위해 강한긍정과 강한부정 키워드를 중점적으로 살펴 본다. 위의 그림에서 강한긍정으로 도출된 키워드는 총 5 개로 ‘genuine’, ‘authentic’, ‘fast’, ‘satisfied’, ‘praise’이고, 강한부정은 총 3개로 ‘damage’, ‘slow’, ‘bad’이다. 그렇다 면 예시에서 ‘AVENE’의 배송 및 서비스와 관련한 사용자 핵심 요구사항은 긍정적 사항이 ‘정품신뢰성’, ‘빠른 배송’, 그리고 부정적 사항이 ‘제품파손’, ‘느린배송’이 될 것이다. 여기서 ‘fast’가 무엇이 빠르다고 표현하는지에 대해선 같 은 군집에 포함된 키워드들을 살펴보아 판단할 수 있다. 같은 군집에 포함된 키워드는 구매 후기에서 어떤 주제나 문장이 그 키워드들로 구성될 가능성이 상대적으로 높다는 의미이기 때문이다. 그밖에도 예시에서 ‘bad’는 핵심 요구 사항으로 해석하지 않았다. 이유는 나쁜 배송이나 나쁜 포 장, 나쁜 서비스는 다른 사항들에 비해 정보가 구체적이지 않고 지나치게 일반적인 경향이 있기 때문이다.

    3.4 방법론 적용의 유의사항

    방법론을 전개하는데 있어 유의할 점은 다음과 같다. 첫째, 일상적이거나 습관적으로 사용되는 단어에 과한 의 미를 부여할 필요는 없다. 예를 들면 구매 후기에서 ‘사용 하다’는 단어는 매우 빈번하게 나타날 가능성이 높은데, 여기에 중요한 의미가 있다고 보기는 어려울 것이다.

    둘째, 분석에서 문장구조가 고려되지 않았으므로 부정 키워드 해석에 유의해야한다. 만약 촉촉함이 특징인 5개 로션제품에서 ‘dry’라는 단어가 A제품에서만 긍정적으로 분류되었다고 해보자. 이 경우, A제품에서는 건조함이 긍 정적으로 인식된다고 해석해서는 안된다. 이는 단순히 긍 정적으로 분류된 A제품의 구매 후기에서 다량의 긍정키 워드가 ‘dry’와 함께 많이 언급되었거나, ‘not dry’의 형태 로 언급되었을 가능성이 높다. 그렇기 때문에 ‘A 제품은 건조하다.’라는 해석보다는 ‘건조한 속성은 부정적이다.’ 라고 해석하는게 바람직하다.

    셋째, 의미파악이 어려운 단어 해석에 유의해야한다. 화장품의 구매 후기를 분석했는데 ‘gift’라는 단어가 출현 했다고 해보자. ‘gift’는 단어 자체의 의미는 ‘선물’이지만, 제품을 선물용도로 구매한 것인지 제품구매시 사은품을 선물로 받은 것인지는 파악하기 어렵다. 게다가 ‘gift’를 포함하는 키워드 군집에서 단서를 발견할 수 없을땐 혼란 이 가중된다. 이 경우에는 구매 후기에서 ‘gift’가 포함된 구매 후기를 표본추출하여 판단하는 것이 적절하다.

    마지막으로 번역기를 사용했을 때, 오역된 단어나 감성 사전의 감성 분류가 분석주제와 상이하다고 판단된다면 연구자의 경험적 판단으로 제거나 수정할 수 있다. 예를 들어, 사례적용 단계에서 부정적 의미로 도출된 ‘cheap’은 구매 후기에서 저렴하다는 긍정적 의미로 사용되었지만 감성사전에는 싸구려와 같은 의미로 분류되어 부정 키워 드로 오분류되었다. 이렇게 분야나 주제에 대한 사전지 식, 또는 명백하게 경험적인 판단이 가능하다면 의미를 수정하여 진행할 수도 있다.

    4. 사례적용

    본 장에서는 실제 사례적용을 통해 방법론의 타당성과 유용성을 확인해보고자 한다. 분석대상은 중국 온라인 쇼 핑몰 ‘Tmall’에서 자료수집일 2016년 6월 27일을 기준으 로 판매량이 높은 제품군인 화장품으로 하였다. 화장품 제품군에서도 판매량이 높은 로션과 BB쿠션을 선택했으 며, 세부제품은 각 제품군에서 판매량 상위 10권 제품 중 5개씩 선택하였다. 상세한 내용은 <Table 4>와 같다.

    구매 후기는 제품당 2,000개씩 총 20,000개를 수집하였 으며, 문서 수와 길이에 따른 왜곡을 억제하기 위해 전처 리 과정을 거쳤다.. 키워드 빈도 집계는 불린모델(Boolean Model)을 사용하였고, 문서길이 상위 10%나 글자수 20자 미만 구매 후기는 제외하였다. 이후 최종적으로 <Table 5>와 같이 각 제품당 1,707개씩, 총 10개 제품에서 17,070 개의 구매 후기를 분석하였다.

    4.1 단계 1 : 객관적 정보분석

    Gephi를 활용하여 사회연결망분석 및 모듈성분석을 실 행한 후 근접중심성 상위 10%의 단어들을 걸러내었다. 그리고 10개 제품에서 핵심적으로 선별된 제품별 키워드 를 시각화하여 살펴보았다. 자료를 살펴볼 때 유의할 점 은 모든 노드에 반드시 의미를 부여할 필요는 없다는 점 이다. 그리고 대부분의 제품에서 나타난 키워드 ‘gift’는 해당 키워드가 포함된 구매 후기를 표본추출하여 살펴봄 으로써 ‘사은품’으로 결론내렸고, 대부분의 제품 페이지 에서 마스크나 립스틱 할인쿠폰 등을 사은품으로 제공하고 있음을 확인하였다. BB쿠션 HEXZE 제품의 시각화 자료 의 예시는 <Figure 5>와 같다.

    <Figure 5>의 HEXZE 제품의 경우 하늘색은 배송 및 서비스, 녹색은 제품효과, 주홍색은 가격관련 주제로 보 인다. 보라색은 다른 제품들의 결과를 고려했을 때 제품 구성이나 사은품 관련 내용으로 추측된다. 위와 같은 과 정을 거친 단계 1의 결과, 전체적으로 모든 제품에서 배 송 및 서비스, 제품효과, 제품의 특징, 사은품, 가격 관련 내용들이 핵심주제로 나타났다.

    4.2 단계 2 : 주관적 정보분석

    <Table 6>은 감성사전을 사용하여 구매 후기를 긍정 과 부정으로 분류한 결과이다. 결과는 판매량 상위제품 의 구매 후기이므로 긍정후기의 매우 비율이 높았다.

    그러나 본 분석의 자연어처리(Natural Language Process) 에서 문장구조가 고려되지 않았음을 고려하면 실제 긍정 후기의 비율은 더욱 높을 것으로 예상된다. 또한 엘라스틱 넷 결과를 바탕으로 예측분석을 진행한 결과 정확도가 지 나치게 높게 나타났다. 이 정확도는 감성사전이 옳다는 것 을 전제하므로 신뢰하기 어렵다. 다만, 이 방법이 기존 연 구에서는 어느 정도 신뢰할만한 정확도(81.3%)를 보인 바 있으며, 이 문제를 해결하기 위해서는 별점 등으로 스코어 링 정보가 포함된 구매 후기를 사용하여 감성사전 사용을 생략할 수 있다[20].

    4.3 단계 3 : 키워드 특성분류

    단계 1과 2의 결과를 종합하여 키워드를 특성별로 5가 지로 구분하고, 제품마다 각기 다른 감성으로 나타나는 키워드를 파악하였으며 전체 결과는 본 장의 마지막에 <Table 11>, <Table 12>로 정리하였다. 그리고 키워드 중 중국어가 발음 그대로 나타난 것으로 보이는 ‘xin’, ‘tujia’ 와 오역으로 보이는 ‘cotton’, ‘music’, ‘pat’은 제외하였다.

    추가로 <Table 7>과 같은 제품군별로 여러 제품에서 다른 감성이 나타난 키워드를 참조하여 두 제품군 모두 제품효과, 사은품, 배송과 관련한 사항들을 핵심적인 요 구사항으로 파악하였다.

    4.4 단계 4 : 핵심 요구사항 파악

    단계 4에서는 먼저 핵심 요구사항 파악을 위해 각 제품 별로 유사한 키워드 군집에서 강한긍정과 강한부정 키워 드를 살펴보았다. 예를 들어, 배송 및 서비스에 해당하는 군집에서 강한긍정 키워드로 ‘fast’가, 강한부정 키워드로 ‘slow’가 도출되었다면 배송 및 서비스와 관련하여 ‘빠른’ 은 긍정적 요소, ‘느린’은 부정적 요소로 판단하였다.

    이어서 핵심 요구사항 파악을 위해 제품별로 감성이 다르게 나타난 키워드를 살펴보았다. 감성이 다르게 나 타난 키워드들 중 명사형 단어들을 위주로 요구사항 항 목이나 품질요소로 정하고, 제품이나 특정요소를 설명 하는데 쓰일 가능성이 높은 형용사들을 긍정이나 부정 적 요소로 분류하였다. 예시로 BB쿠션 제품에서 감성이 다르게 나타난 키워드 목록인 <Table 8>을 살펴보도록 한다.

    <Table 8>에서 ‘gift(사은품)’가 배송 및 서비스 군집에 포함되어 있었는데, 단계 1의 결과를 참조하여 ‘gift’ 키워 드가 여러 주제에서 나타나는 것을 확인하였다. 이를 바 탕으로 ‘gift’을 하나의 제품요소로 분류하였으며, 하위항 목은 ‘gift’가 포함된 군집의 단어와 군집 내 키워드를 참 조하여 결정하였다. 긍정과 부정요소의 구분은 단계 2 결 과를 참조하여 분류하였다. 마찬가지의 과정으로 최종적 으로 결정된 두 제품군의 핵심 제품요소는 ‘사용느낌, 배 송속도, 포장상태, 사용성, 사은품, 가격, 제품향기, 기타’ 8개이다. 같은 과정으로 제품별로 파악된 사용자 핵심 요 구사항은 <Table 9>, <Table 10>과 같다. 먼저 <Table 9> 를 살펴보도록 한다.

    <Table 9>의 BB쿠션 제품은 사용느낌과 관련하여 ‘촉 촉함, 깨끗함, 밝은’ 키워드가 강한긍정으로 나타났다. 이 는 중국 온라인 화장품 시장에서 BB쿠션이 해당 사용느 낌을 만족할 경우 긍정적 반응을 얻을 가능성이 높은 것 이라고 볼 수 있다.

    이밖에도 쉬운 사용성이나 휴대성, 마스크나 립스틱 할 인쿠폰, 정품여부가 긍정감성에 강한 영향을 주는 것으로 확인되었다. 제품향기는 관련 키워드가 ‘향기가 좋다, 향 기가 나쁘다’와 같은 일반적인 정보외에 향기를 특정할만 한 단어가 없었다. 포장상태의 강한긍정도 마찬가지지만, 직관적으로 포장상태가 파손되지 않으면 긍정적일 것이 고, 제품향기도 일반적으로 느끼기에 좋은 느낌이면 긍정 적, 불쾌한 느낌이면 부정적이라고 볼 수 있다. 이밖에 의 미가 뚜렷하게 구분되는 약한부정이나 무감성에 해당하 는 키워드는 없었고, 약한긍정으로는 응대태도, 할인, 시 제품 제공이 나타났다. 이 의미는 응대태도나 할인, 시제 품 제공이 제품이나 상황에 따라 사용자의 긍정적 반응을 얻을 수 있다는 것을 의미한다. <Table 10>은 로션 제품 에 대한 내용이다.

    로션 제품은 BB쿠션의 결과와 대부분 유사하지만 사 용느낌에 대해 긍정적인 요소가 촉촉함 하나로 좀 더 단 순하다. 하지만 약한긍정과 약한부정, 무감성이 더 다양 하게 나타났는데, 약한긍정은 ‘응대태도, 고급화, 스프레 이 용기’, 약한부정은 ‘끈적임’, 무감성은 ‘과일향, 시제 품 제공’이다. 이를 약한긍정부터 차례로 살펴보면, 응대 태도나 고급화, 스프레이 형태의 용기는 제품이나 상황 에 따라 사용자에게 긍정적 반응을 얻을 가능성이 있다. 그리고 끈적이는 느낌은 기름진 느낌보다는 상대적으로 덜하지만, 마찬가지로 제품이나 상황에 따라 부정적 반 응에 직면할 수 있다. 마지막으로 과일향이나 시제품이 제공될 경우, 섣불리 사용자 감성을 예측할 순 없지만 많 이 언급될 가능성이 높다.

    마지막으로 개별제품의 상대적 경쟁력은 <Figure 6>과 같이 강한긍정과 강한부정 키워드의 엘라스틱넷 회귀계 수 비교를 통해 파악할 수 있다.

    <Figure 6>에서 나타난 키워드들은 강한긍정과 강한부 정 키워드이므로 모든 제품에서 출현한 키워드들이다. 키 워드들을 엘라스틱넷 회귀계수를 참조하면, 제품별로 긍 정감성에 대한 상대적 영향력을 알 수 있다. 예를 들어 가 격과 관련한 ‘적당한(affordable)’ 키워드를 살펴보았을 때, 회귀계수가 가장 높은 제품은 LACOSIN, 가장 낮은 제품 은 CHIORURE이다. 이는 LACOSIN이 제품의 가격관련 요소에서 다른 제품들에 비해 긍정적 영향력이 강하다는 의미이고, CHIORURE 제품은 상대적으로 긍정적 영향력 이 약하다는 의미이다. 실제로 LACOSIN 제품의 가격은 39위안으로 비교 제품들 중 가장 저렴했고, CHIORURE는 99위안으로 가장 높았으며, 다른 키워드들도 같은 방법으 로 비교할 수 있다.

    5. 결 론

    본 연구는 설문 조사 외의 방법으로 사용자 핵심 요구 사항을 파악하기 위해 온라인 사용자 구매 후기를 분석 하여 정보추출을 진행하는 ‘텍스트 마이닝을 활용한 사 용자 핵심 요구사항 파악 방법론’을 제안하였다. 방법론 의 목적은 설문 조사의 일부 한계점을 보완하면서 기업 의사결정 지원이 가능한 수준의 정보를 추출하는 것이 며, 이를 위해 제품요소에 대해 사용자가 느끼는 감성과 제품의 상대적 경쟁력을 파악하고자 했다. 그리고 사례 적용을 통해 실제 유용성과 타당성을 확인하였다.

    본 연구의 시사점은 다음과 같다. 첫째, 조사자의 사전 설계 없이 정보추출이 가능함을 시사하였다. 둘째, 사전 지식 없이 정보추출이 가능함을 시사하였다. 셋째, 제품 의 상대적 경쟁력을 정량적으로 파악하여 정보활용성을 제고하고자 하였다.

    다만 한계점으로는 첫째로 기 구축된 감성사전을 사 용하므로 감성 분류의 정확도에 한계가 있다는 점, 둘째 는 자연어처리 과정에서 문장구조가 고려되지 않은 점, 마지막으로 이미 충분한 사전정보를 갖고있는 조사자에 겐 정보의 질이 다소 만족스럽지 못할 수 있다. 그 이유 는 핵심 요구사항 파악은 가능하지만, 세부적으로 얼마 나 가격이 저렴해야하는지, 또는 제품의 적정용량은 어 느 정도인지에 대해선 파악하기 어렵기 때문이다. 그래 서 사전정보나 자원이 풍부한 기업에겐 정보의 질이 다 소 만족스럽지 못할 수 있지만, 사전정보가 부족한 사업 분야나 중소기업 등에서는 효과적으로 활용할 수 있을 것으로 기대된다. 향후 연구에서는 위와 같은 본 연구의 한계점을 고려하여 정보의 질과 수준을 향상시키는 방법 이 진행되어야 할 것이다.

    Acknowledgement

    This work was supported by the research fund of Hanyang University(HY-2020-G).

    Figure

    JKISE-44-2-66_F1.gif

    The Details of Methodology by Steps

    JKISE-44-2-66_F2.gif

    Visual Change of Network Size Reduction by Keywords Filtering

    JKISE-44-2-66_F3.gif

    Keywords Attributes Diagram

    JKISE-44-2-66_F4.gif

    The Example of the Result through Step 3

    JKISE-44-2-66_F5.gif

    Social Network Analysis and Modularity Analysis Visualization : HEXZE

    JKISE-44-2-66_F6.gif

    Individual Product’s Relative Competitiveness through Coefficient Comparison Example

    Table

    Kano Model Quality Attributes

    Keywords Attributes Feature

    The Example of the Keyword which has Different Sentiment in Each Product

    Target Products Description

         (Units : RMB, 10000 Sales), 2016/06/27

    Pre-Processing Result (Units : the number of letters in a document)

    Sentiment Analysis Result

    Keywords which has Different Sentiment

    Keywords which has Different Sentiment in BB Cuhsion Product

    Customer Core Requirements for BB Cuhsion Products

    Customer Core Requirements for Lotion Cuhsion Products

    Keywords Classification Result List : BB Cuhsion

    Keywords Classification Result List : Lotion

    Reference

    1. Blondel, V.D., Guillaume, J.L., Lambiotte, R., and Lefebvre, E., Fast Unfolding of Communities in Large Networks, Journal of Statistical Mechanics : theory and Experiment, 2008, No. 10, pp. 10008.
    2. Clauset, A., Newman, M.E., and Moore, C., Finding Community Structure in Very Large Networks, Physical Review, 2004, Vol. 70, No. 6, pp. 066111.
    3. Godbole, N., Srinivasaiah, M., and Skiena, S., Large- Scale Sentiment Analysis for News and Blogs, ICWSM, 2007, Vol. 7, No. 21, pp. 219-222.
    4. Grobelnik, M., Mladenic, D., and Milic-Frayling, N., Text Mining as Integration of Several Related Research Areas : Report on KDD’s Workshop on Text Mining 2000, ACM SIGKDD Explorations Newsletter, 2000, Vol. 2, No. 2, pp. 99-102.
    5. Hanneman, R.A. and Riddle, M., Introduction to Social Network Methods, Riverside, CA : University of California, 2005.
    6. Hu, M. and Liu, B., Mining and Summarizing Customer Reviews, In Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004, pp. 168-177.
    7. ITU : International Telecommunication Union, Internet users per 100 inhabitants 1997 to 2007, 2015, http://www.itu.int/ITU-D/ict/statistics/ict/.
    8. ITU : International Telecommunication Union, Key 2005~ 2016 ICT Data for the World, by Geographic Regions and by Level of Development, ICT STATISTICS, 2015.
    9. Kano, N., Seraku, N., Takahashi, F., and Tsuji, S., Attractive Quality and Must-be Quality, Hinshitsu (Quality, The Journal of Japanese Society for Quality Control), 1984, Vol. 14, pp. 39-48
    10. Kelley, K., Clark, B., Brown, V., and Sitzia, J., Good Practice in the Conduct and Reporting of Survey Research, International Journal for Quality in Health Care, 2003, Vol. 15, No. 3, pp. 261-266.
    11. Kim, Y.H., Articles : Structural Power and Network Centrality in Social Network Analysis, The Journal of the Humanities, 1987, Vol. 58, pp. 141-163.
    12. Kotonya, G. and Sommerville, I., Requirements Engineering : Processes and Techniques, Wiley Publishing, 1998.
    13. Leonard, J., Systems Engineering Fundamentals, Virginia : Defense Systems Management College, 1999.
    14. Lipsman, A., Online Consumer-Generated Reviews Have Significant Impact on Offline Purchase Behavior, Com Score, 2007, http://www.comscore.com/por/Insights/Press_Releases/2007/11/Online_Consumer_Reviews_Impact_Offline_Pur chasing_Behavior.
    15. Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., and Byers, A.H., Big Data : The Next Frontier for Innovation, competition, and Productivity, McKinsey Global Institute, 2011.
    16. Pang, B. and Lee, L., Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval, 2008, Vol. 2, No. 1-2, pp. 1-135.
    17. Robson, C., Real World Research : A Resource for Social Scientists and Practitioners-Researchers, Massachusetts : Blackwell Pushers, 1993.
    18. Somprasertsri, G. and Lalitrojwong, P., Extracting Product Features and Opinions from Product Reviews Using Dependency Analysis, In FSKD, 2010, pp. 2358-2362.
    19. Tibshirani, R., Regression Shrinkage and Selection Via the Lasso, Journal of the Royal Statistical Society, Series B(Methodological), 1996, pp. 267-288.
    20. Wan, X., Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis, In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2008, pp. 553-561.
    21. xRobson, C., Real World Research : A Resource for Social Scientists and Practitioners-Researchers, Massachusetts : Blackwell Pushers, 2002.
    22. Yang, J.-Y., Myung, J.S., and Lee, S.-G., A Sentiment Classification Method Using Context Information in Product Review Summarization, Journal of KISS : Databases, 2009, Vol. 36, No. 4, pp. 254-262.
    23. Yune, H.J., Kim, H.-J., and Chang, J.-Y., An Efficient Search Method of Product Reviews using Opinion Mining Techniques, Journal of KIISE : Computing Practices and Letters, 2010, Vol. 16, No. 2, pp. 222-226.
    24. Zou, H. and Hastie, T., Regularization and Variable Selection Via the Elastic Net, Journal of the Royal Statistical Society : Series B(Statistical Methodology), 2005, Vol. 67, No. 2, pp. 301-320.