Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.43 No.3 pp.112-121
DOI : https://doi.org/10.11627/jkise.2020.43.3.112

Analysis of User Requirements Prioritization Using Text Mining : Focused on Online Game

Mi Yeon Jeong*, Sun-Woo Heo*, Dong Hyun Baek**
*Department of Management Consulting, Graduate School of Hanyang University
**Department of Business Administration, Hanyang University
Corresponding Author : estarbaek@hanyang.ac.kr
07/09/2020 20/09/2020 21/09/2020

Abstract


Recently, as the internet usage is increasing, accordingly generated text data is also increasing. Because this text data on the internet includes users’ comments, the text data on the Internet can help you get users’ opinion more efficiently and effectively. The topic of text mining has been actively studied recently, but it primarily focuses on either the content analysis or various improving techniques mostly for the performance of target mining algorithms. The objective of this study is to propose a novel method of analyzing the user’s requirements by utilizing the text-mining technique. To complement the existing survey techniques, this study seeks to present priorities together with efficient extraction of customer requirements from the text data. This study seeks to identify users’ requirements, derive the priorities of requirements, and identify the detailed causes of high-priority requirements. The implications of this study are as follows. First, this study tried to overcome the limitations of traditional investigations such as surveys and VOCs through text mining of online text data. Second, decision makers can derive users’ requirements and prioritize without having to analyze numerous text data manually. Third, user priorities can be derived on a quantitative basis.



텍스트마이닝을 활용한 사용자 요구사항 우선순위 도출 방법론 : 온라인 게임을 중심으로

정 미연*, 허 선우*, 백 동현**
*한양대학교 일반대학원 경영컨설팅학과
**한양대학교 경상대학 경영학부

초록


    Hanyang University
    HY-2019-G

    1. 서 론

    기업에서는 사용자의 요구사항을 분석할 때 주로 설 문조사나 수집된 VOC(voice of customer)데이터를 이용 한다. 이는 사전 설계된 응답지에 사용자들이 응답하기 때문에 적극적으로 의견을 남긴 소비자들의 의견만 반영 한다는 한계가 존재한다. 따라서 기존의 설문조사 위주 의 수동적인 요구사항 뿐만 아니라 전반적인 사용자 요 구사항을 도출할 수 있는 멀티채널 분석이 필요하다.

    최근, 인터넷 사용량이 급증하며 텍스트 데이터의 생 산량도 많아졌다. 인터넷 텍스트에는 사용자 의견이 포 함되어 있는데, 크롤링 기법을 통해 대량의 텍스트 데이 터 수집이 원활하게 되었다[14]. 웹상의 데이터를 활용할 경우 더 효율적이고 본질에 가까운 의견을 얻을 수 있다.

    기존의 텍스트마이닝은 내용 분석 및 분석기법 개선에 초점이 맞추어졌으나 근래에 들어 리뷰(review)를 이용하여 제품의 감성분석을 하는 등의 다양한 연구가 늘어나고 있다. 설문지법 대신 텍스트마이닝을 예비조사 방법론으 로도 활용 중이라는 연구도 존재한다[6]. Bickart 등[3]에 따르면 고객이 의견을 자발적으로 게재하기 때문에 신뢰 성 있고 유효한 정보를 얻을 수 있어 온라인 리뷰의 활 용성이 늘어나고 있고, 분석 기법이 발달하면서 텍스트 마이닝의 활용가치가 높아지고 있다[3]. 그러나 텍스트 데이터를 활용한 요구사항 분석, 도출 방법론에 대해서 는 연구가 아직 많이 미흡하다. 따라서 텍스트마이닝을 통해 얻을 수 있는 고객 요구사항 방법론에 대한 다각화 및 가이드라인이 필요하다.

    본 연구의 목적은 제품이나 서비스에 대한 고객의 의 견을 인터넷에서 크롤링 한 뒤 텍스트마이닝 기법을 통 해 고객의 요구사항을 추출하고, 요구사항의 우선순위 도출 및 요인분석을 진행하여 고객 요구사항의 근본적인 내용이 무엇인지 파악하는 새로운 고객 요구사항 도출 방법론을 제안하는 것이다. 본 연구에서 제안하는 방법 론은 사용자 요구사항 도출 및 우선순위 계산에서 텍스 트마이닝 기법과 전통적인 품질관리 기법을 접목하는 새 로운 학문적 시도를 하였다.

    본 연구에서 제안하는 방법론은 설문조사나 VOC 대 신 온라인 텍스트 문건 통해 사용자 입장에서의 요구사 항을 파악함으로써 기존의 수동적인 조사의 한계점을 극 복하고, 도출된 요구사항에 따른 요인을 특성요인도로 시각화하여 문제를 한 눈에 파악할 수 있도록 한다. 이를 통해 제품이나 서비스 개발에 대한 효과적인 의사결정을 할 수 있도록 지원한다. 제안하는 방법론의 성능을 검증 하기 위하여 인터넷 게임사인 블리자드 사의 특정 게임 에 대한 사용자 커뮤니티 및 게시판에 게시된 약 15만 건의 텍스트데이터를 분석하고 결과를 제시하였다.

    2. 이론적 배경

    2.1 텍스트 마이닝

    텍스트 마이닝은 자유롭거나 비구조적인 텍스트로부 터 흥미롭고 일상적이지 않은 지식을 발견, 추출하는 과 정을 말한다[13]. 단어 사용의 통계적 규칙성으로부터 사 람들이 말하고자 하는 것을 찾아내는 것을 의미하기도 한다[21]. 텍스트 마이닝의 주된 기법으로는 빈도분석, 클러스터링, 문서 분류, 문서 요약, 감성분석 등이 있다. 이를 이용하여 다양한 분야의 연구에서 활용되고 있다. Fabrizio[8]가 연구한 자동 문서 분류에 의하면 노동력 측 면에서 절감이 가능하고 다양한 도메인에 바로 접근할 수 있다는 장점을 언급하였다.

    본 연구에서는 문서 내에서 키워드들을 바탕으로 주제 를 찾아내는 텍스트 마이닝 기법으로 Blei 등[4]의 LDA (Latent Dirichlet Allocation)를 활용하였다. LDA는 주로 주어진 문서 별로 어떤 주제들이 존재하는지 단어들의 분 포를 찾아보는 확률 모델링 기법이다. Park 등[19]은 문서 를 토픽의 확률적 혼합체로 나타내고, 그렇게 나타내는 토픽을 단어의 분포로 표현함으로써 문서의 구조를 예측 하는 방법이라고 LDA를 정의하고 있다.

    LDA의 과정은 다음과 같다. 첫째, 디리클레 분포를 따르는 말뭉치의 토픽 분포를 도출한다. ϕk는 k번째 토 픽에 해당되고 하이퍼파라미터 β의 영향을 받는다. 둘 째, 문서마다 디리클레 분포를 따르는 각 문서의 토픽 비 중을 도출한다. θd는 d번째 문서가 가진 토픽 비중에 해 당되고 하이퍼파라미터 α의 영향을 받는다. 셋째, 각 문 서들과 단어마다 단어 토픽의 결합확률을 도출한다. 넷 째, 각 문서들과 각 단어마다 관찰된 단어들을 도출한다.

    토픽의 단어분포와 문서의 토픽분포의 결합으로 문서 내 단어들이 생성된다고 가정하기 때문에, 이 두 분포의 결합 확률이 커지게 만들어야 확률 과정이 말뭉치를 설 명한다고 말할 수 있을 것이다. 따라서 이 확률을 최대로 만드는 p값을 최대화 하도록 만드는 변수들을 찾는 과정 이 LDA라고 볼 수 있다.

    2.2 품질관리 기법

    품질관리 기법은 품질관리를 위해 Ishikawa[10]는 7가 지 품질관리 기법을, 일본과학기술연맹은 신 7가지 품질 관리 기법을 개발하면서 산업에서 유용하게 쓰이고 있다. 품질관리 기법은 제조업, 서비스업 등에서 문제 해결을 위한 도구로 주로 사용되며[22], Montgomery[16]는 품질 과 연관되어 이슈를 해결하는 과정에서 가장 효과적인 기 법 세트라고 언급하기도 했다. 본 논문은 이러한 품질관 리 기법 중 매트릭스 데이터 해석도와 특성요인도를 활용 해 사용자의 요구사항 우선순위를 도출하고자 하였다.

    매트릭스데이터 해석도는 일본과학기술연맹이 개발한 신 품질관리 기법 중의 하나로, 매트릭스형 데이터를 비 교할 수 있게 그림으로 나타낸 것이다. 실제 마케팅 분야 에서도 제품 혹은 서비스 포지셔닝을 결정하는데 자주 사용한다[1].

    특성요인도는 Ishikawa가 개발한 7가지 품질관리 기법 중 하나로, 결과에 원인이 어떻게 관계하고 있는지 작성 하는 그림이다[10]. 결과를 발생시키는 원인을 요인별로 그려내 문제의 근본적인 원인을 파악한다. 특성 요인도 를 그리면 문제에 기인하는 요인에 대해서 파악이 쉽다 는 특징이 있다.

    3. 사용자 요구사항 우선순위 도출 방법론

    사용자 요구사항 우선순위 도출 방법론은 텍스트마이 닝 기법을 활용하여 웹 데이터에서 사용자의 요구사항을 추출하고, 요구사항의 우선순위를 도출하여 기업이 먼저 해결해야 할 요소들의 우선순위를 정해주는 것이다. 본 연구에서 제안하는 방법론은 <Figure 4>와 같이 서비스/ 제품 선정 및 자료 수집, 자료 전처리, 요구사항 추출, 요 구사항 우선순위 도출, 요구사항 세부요인 분석 등 5단 계로 이루어져 있다.

    3.1 서비스/제품 선정 및 자료수집

    첫 번째 단계인 서비스/제품 선정 및 자료수집 단계에서 는 분석할 서비스 및 제품을 선정하고, 선정된 서비스/제품 에 대한 텍스트 형태의 사용자 의견을 웹에서 수집한다.

    3.2 자료 전처리

    두 번째 단계인 자료 전처리 단계에서는 문서 토큰화, 명사형 추출, 불용어 처리 등 3단계를 거쳐 텍스트 마이닝 분석을 위한 자료를 준비한다. 텍스트마이닝을 실행할 때 전처리 작업이 의미하는 것은 텍스트 데이터를 정형화된 형식으로 바꾸는 것을 말한다. 텍스트마이닝의 결과는 전 처리 작업의 상태에 크게 의존하므로 정확한 결과를 얻기 위해서는 정교한 전처리 작업이 선행되어야 한다[9].

    3.3 요구사항 추출

    세 번째, 요구사항 추출 단계에서는 문서 내 요구사항 을 도출하기 위해 LDA 방법론을 사용한다. 이를 통해 각 단어들이 하나의 주제로 모이는 것을 사용자 요구사 항으로 정의할 수 있으며, 연구자 임의로 주제의 개수를 선정하여 토픽의 양상을 확인해볼 수 있다.

    이때, 주제의 개수는 사용자가 지정해야 하는 하이퍼파 라미터이므로 원하는 대로 토픽의 개수를 나타낼 수 있지 만 너무 적으면 하드 클러스터링이 되고, 너무 많으면 서 로 포함관계가 되어 구분이 어려워지게 된다. 토픽은 일 관성 있고 사람이 해석이 가능하도록 계산해야 한다[17]. 기존 연구에서는 학습이 잘 되었는지 파악하는 Perplexity 를 주로 사용하여 값이 가장 낮은 지점의 토픽 개수를 선 정하였으나[5], 본 연구에서는 사람의 해석 가능성에 초 점을 두어 Topic Coherence를 사용한다. 분석에는 Python 3.6에서 제공하는 Gensim 패키지를 사용하였다. 계산 기 법 중에 가장 최신이고 해석이 가능한 대답을 내놓는 것 이 장점이며, 계산 프레임워크는 다음과 같다.

    첫째, 단어 세트 t를 단어의 부분집합 S가 되도록 분할 한다. 이 때 부분집합 S는 만들어진 단어 세트 중에서 하 나를 선택하도록 만든다. 둘째, 주어진 단어에 대한 확인 의 척도로 참조 말뭉치 기반으로 단어의 확률 P를 계산 한다. 단어 간의 코사인 유사도를 측정한다. 셋째, 부분 집합 S와 P를 연산하여 전체 부분집합의 확인 점수를 낸 다. 넷째, 이 점수들의 기하평균인 일관성 점수 c를 낸다. 다섯째, 점수가 가장 높은 개수로 토픽을 선정한다.

    토픽이 선정되었으면, 해석이 용이하도록 각 토픽에 이름을 붙인다. 이를 토픽 네이밍이라 하며, 사람이 직접 출현한 단어들을 보고 그에 따라 이름을 붙이게 된다[2]. 혹은 토픽을 구성하는 단어들의 의미를 고려하면서 적절 하게 명명해야 하는데, 관리 가능하면서도 해석 가능한 수준으로 이름을 붙여야 한다[15].

    일반적으로는 키워드를 보고 그 집합을 포괄하는 이 름을 붙이는 게 원칙이나 추론이 어려운 경우 기여 백분 율을 확인하여 주어진 토픽이 가장 많이 기여한 문서를 찾아서 이름을 추론한다. 기여 백분율이란 주어진 문서 에서 토픽이 차지하는 비율을 의미한다. 백분율이 높을 수록 해당 문서 내에 해당 키워드들이 많이 속해있을 수 있다.

    Python 3.6의 Gensim에서는 <Figure 6>과 같이 다양한 기능을 제공한다. 1번은 토픽 번호를 선택하는 버튼이다. 2번은 relevance metric으로, Sievert[20]에 의하면 lambda 값이 1이면 해당 토픽에서 나타나는 단어들로 구성된다. lambda 값이 0일 경우 해당 토픽에서 잠재적으로 나타나 는 단어들만 나오게 된다. 따라서 lambda 값이 커지면 커질수록 해당 토픽들의 단어만 나오고, 작으면 전체의 토픽 단어 대비 특이한 단어들이 많이 나올 수 있다. 본 논문에서는 기본적으로 lambda값을 1로 두고 분석하고 자 한다.

    3.4 요구사항 우선순위 도출

    네 번째, 요구사항 우선순위 도출 단계에서는 3단계에 서 추출한 요구사항을 빈도분석과 새로 정의한 매트릭스 데이터 해석도에 매핑하여 변화의 추이를 파악하고, 우 선순위 점수를 도출한다.

    토픽 모델링 결과에 대해 빈도분석을 하는 이유는 추 출한 토픽의 현황을 파악하기 위해서다. 전체 문서가 각 각의 토픽에 얼마나 할당되었는지 확인해야 사용자의 요구사항에 대해서 개략적으로 상황을 확인할 수 있다. 기간별, 토픽별, 계절별 등 연구 목적에 따라 다양한 관 점에서의 빈도분석이 가능하다. 따라서 우선순위를 도출 하기 위해 각 분기별 빈도수와 문서 증감율을 계산해야 한다.

    매트릭스데이터 해석도의 개념과 Covey[7]가 언급한 우선순위 매트릭스를 결합하여 요구사항 우선순위 매트 릭스를 만든다. X축을 중요성, Y축을 긴급성으로 정의하 는 Covey의 우선순위 매트릭스는 시간관리 시에 많은 활동들과 해결점들에 대한 대안을 좁힐 때 유용하다[12]. 이 매트릭스를 통해 우선순위를 개략적으로 파악하고, 우선순위 점수를 계산하여 순위를 매겨 어느 것을 먼저 해야 할지 알려주는 단계이다.

    실행 순서는 1사분면, 4사분면, 2사분면, 3사분면으로 N 의 모양을 띄고 있다. 1사분면은 우선적으로 추진해야 할 사항들이다. 2사분면은 전략적으로 시행함으로써 이 일을 하기 위해 따로 시간을 만들어야 한다. 3사분면은 중요성 도 낮고 긴급성도 낮으므로 일에서 최대한 배제하도록 한 다. 마지막으로 4사분면은 운영적으로 시행함으로 시행은 하되 다른 이에게 위임하는 방안을 고려해보아야 한다.

    앞서 언급한 요구사항 우선순위 매트릭스의 경우 시 각적으로는 확인이 가능하나 각 사분면 내에서의 우선순 위는 도출하기 어렵다. 이에 중요성과 긴급성을 곱하여 우선순위 점수를 새로 계산해낼 수 있다. 우선순위 점수 가 높은 순으로 요구사항 순위를 매긴다. <Table 1>은 각 중요성과 긴급성을 곱하여 우선순위 점수를 계산하 고, 매핑된 사분면을 참고하여 요구사항의 우선순위를 파악하는 예시이다.

    3.5 요구사항 세부요인 분석

    다섯 번째, 특성요인도를 이용하여 추출된 요구사항의 세부요인을 정리, 분석하고 결과를 시각화한다. 특성요 인도를 그릴 때는 최대한 요인이 분리되도록 그려야 결 과를 유의하게 해석할 수 있다. 기본적으로 특성요인도 의 경우 브레인스토밍을 함께 하며 그리지만 본 연구에 서는 정의된 토픽들의 키워드와 본문 내용을 함께 참고 하면서 그릴 수 있다.

    4. 사례 적용

    4.1 서비스 선정 및 자료수집

    데이터 분석은 게임회사 블리자드 엔터테인먼트(주)에 서 서비스하는 온라인 게임 ‘히어로즈 오브 더 스톰’에 대해 언급하고 있는 커뮤니티 글들을 대상으로 한다. 기 존 연구에서 게임 플랫폼에 남긴 리뷰에 대한 감성분석 을 통해 사용자의 의견을 분석하고 있어, 사용자 의견은 기업 입장에서 게임을 지속 가능하게 하는데 있어서 중 요한 자원임을 알 수 있다[11, 18]. 플랫폼과 마찬가지 로, 게임 커뮤니티의 경우 게임을 하고 있는 사용자들이 활동하며 게임에 관련된 직접적인 의견들을 많이 나누 기 때문에 적절한 온라인 피드백 데이터로 사용이 가능 하다.

    커뮤니티 및 게시판 선정 기준은 사용자들이 활발하 게 이용하는 사이트로, 본 연구에서는 블리자드 엔터테 인먼트 히어로즈 오브 더 스톰 공식 홈페이지의 ‘피드백 게시판’과 한국의 게임 사용자들이 가장 많이 이용하는 인벤 히어로즈 오브 스톰에서 글 수가 가장 많고 다양한 의견을 나누는 자유 게시판을 선정하여 진행하였다.

    자료 수집은 2017년 8월 1일부터 2018년 9월 8일까지 사용자가 게시판에 직접 업로드한 글들을 대상으로 하였 다. Python을 이용하여 공식 홈페이지 내 5,670건, 인벤 커뮤니티에서 152.823건을 수집해 총 158,493건의 텍스 트 데이터를 수집하였다.

    4.2 자료 전처리

    전처리 목적은 크게 세 가지다. 첫 번째는 수집한 문 서들을 분석할 수 있도록 형태를 바꿔야 한다. 두 번째, 수집한 문서들이 분석 목적, 기간에 맞지 않을 때 조절한 다. 마지막으로 게시판에 문서를 도배하여 단어의 빈도 가 과대해지는 것을 방지할 수 있다.

    첫 번째로 게임/게시판 운영자가 직접 쓴 글은 제거하 였다. 대부분 공지사항을 언급하고 있기 때문에 사용자의 의견과는 관계가 없다고 판단하였다. 두 번째로는 1차적 인 불용어 처리를 진행하였는데, 특수문자와 주소 형태 (URL)을 제거하였다. 이들은 문서의 내용과는 아무 관계 가 없으므로 불용어로 인식한다. 세 번째로는 도메인 지 식이 내포된 단어들을 사용자 단어 사전에 추가한다. 본 연구에서는 85개의 추가적인 단어를 사용하였다. 게임 내 캐릭터들의 이름이 생소하여 분석기가 인지하지 못할 수 있으므로 ‘영웅 이름’과 ‘게임 이름’을 함께 사전에 추가 하였다.

    이후로는 형태소 분석기 mecab-ko-dic 0.996를 사용하 여 토큰화 작업과 한국어 명사형 단어만 추출한다. 단 2 음절 이상의 단어들만 추출하도록 하였다. 한 음절의 경 우 토픽모델링을 실행했을 때 분석에 의미가 없고 단어 하나는 어떤 의미인지 해석이 불분명하다.

    마지막으로 2차 불용어 처리를 진행하였다. 형태소 분 석기에서 명사형으로 추출했으나 ‘있겠습니다’. ‘때문에’ 등의 의미가 없는 단어가 나올 수 있으므로 결과에서 불 용어를 제외하고, 고빈도인 ‘영웅’은 자주 나오므로 해석 에 의미가 없다. ‘히오스’ 또한 해당 게임을 의미하는 것 이므로 제대로 된 결과를 얻을 수 없다. 전처리 결과는 다음 아래 표와 같다.

    4.3 요구사항 추출

    토픽모델링을 위한 최적의 토픽 개수를 처음에는 알지 못하므로, 본 연구에서는 토픽 개수를 20개로 임의로 설정 하여 모델링을 시작하였다. 주제는 PCA 처리되어 있어 각 토픽의 주성분 분석 분포와 상대적인 거리차이를 다차원 척도 기법으로 활용가능하다. 나온 토픽들의 거리가 가까 울수록 유사한 의견이고, 멀수록 의미가 다르게 해석될 수 있는 여지가 있다. 그림에서는 서로 포함된 관계가 있으므 로 최적의 토픽 개수를 찾는 것이 중요하다.

    <Table 3>을 참고하여, 일관성 점수가 0.6149로 제일 높은 10개가 최적의 토픽 개수로 선정되었다. 이 개수보다 적으면 하드 클러스터링이고 반대로 클 경우 토픽이 너 무 세분화 되어 있거나 서로 포함관계에 있을 수 있다. 각각의 토픽에는 키워드와 본문을 함께 참조하여 이름을 붙인다. 키워드로부터 잘 도출되지 않는 경우에는 할당 본문을 같이 참고하여 이름을 붙인다. 이름은 최대한 배 타적으로 붙여야 한다. 토픽 네이밍 결과, <Table 4>와 같이 붙여진다.

    4.4 요구사항 우선순위 추출

    요구사항이 시간의 흐름에 따라 어떠한 변화가 있는지 알아보기 위하여 전체 분석대상 기간을 4개의 토픽 기간 으로 구분하여 분석하였다. 토픽 기간별 해당 문건의 빈 도분석 결과는 <Table 5>와 같다. 기간 2가 가장 많고 그 다음으로는 기간 1, 기간 3, 기간 4 순으로 나타났다. 기 간 2의 경우 2017년 12월 14일 대규모 패치를 진행함으로 써 사용자들이 게임에 관심을 많이 가져 사용자들이 글을 많이 작성했다는 것을 짐작할 수 있다. 반면에 기간 4의 경우 업계 경쟁이 심하고 해당 게임 서비스의 인기가 계 속 하락하면서 문서수도 함께 줄어들은 것으로 추정된다. 실제 2018년 12월 14일 기준으로 블리자드는 히어로즈 오브 더 스톰의 프로 리그를 운영하지 않겠다고 밝혔다.

    토픽별 문서빈도 상위 3개는 캐릭터 추천, 캐릭터 밸런 스 불만, 매치메이킹 불만 순으로 나타났다. 게임 커뮤니 티에서 수집한 자료이기 때문에 캐릭터를 잘 알고 있어야 게임 플레이가 원활하기에 제일 많이 나온 것으로 보인 다. 캐릭터 밸런스 불만은 토픽 키워드에서 출현한 영웅 ‘노바’나 ‘바리안’등에 대해 개선이 시급하다는 의미로 해 석할 수 있다. 매치메이킹 불만의 경우 분석 대상 게임은 사용자간의 대전 게임으로 게임 매칭 속도가 느리거나 상 대가 잘 맞지 않는 경우를 의미할 수 있다. 반면에 빈도수 하위 3개는 게임 방송 의견, 회사 내 타 게임 의견, 암살 군 패치 요청이다. 하위 2개는 감정이 없는 사용자들 간 의 잡담 공유로 의견 정도를 파악할 수 있으나 ‘암살군’ 만 한해 패치 요청 토픽이 나왔다는 것은 암살군이 게임 을 하는데 있어서 사용자들에게 재미나 게임의 판도 등 영향을 가장 크게 끼치는 부문으로 파악할 수 있다.

    <Figure 10>을 보았을 때, 전반적으로 토픽은 기간별 로 비슷한 흐름의 양상을 보인다. 눈에 띄는 점은 캐릭터 밸런스 불만 토픽은 기간 1, 2, 3에서 높은 빈도를 보였 으나 기간 4에서는 다른 토픽에 비해 빈도량이 적다. 이 는 다른 토픽이 기간 4에 커져서 상대적으로 낮게 측정 된 것일 수도 있다. 비교 대상으로 신고 시스템 불만의 경우 앞 기간에서도 상위에 속하기는 했으나 기간 4에서 다른 토픽들에 비해 월등히 높은 빈도를 보인다.

    우선순위 매트릭스(1차)를 그린 <Figure 11>을 보면 1 사분면에는 매치메이킹 불만, 신고 시스템 불만, 캐릭터 리워크 요청, 2사분면에는 암살군 패치 요청, 게임 방송 의견이고 3사분면에는 게임 플레이 방안, 회사 내 타 게임 의견, 4사분면에는 캐릭터 추천, 게임 이벤트 불만, 캐릭 터 밸런스 불만 순으로 나타났다.

    <Table 6>을 참고하면, 매치메이킹 불만의 우선순위 점 수가 1.46으로 가장 높게 나타났다. 그 다음으로는 신고 시스템 불만, 캐릭터 리워크 요청 순이다. 가장 우선순위 가 낮은 것은 게임 방송 의견으로 나타났다. 여기서 주목 해볼 점은 암살군 패치 요청의 경우 2사분면에 위치해 있 어 4사분면보다 우선순위를 낮게 볼 수도 있으나, 암살군 패치 요청만큼은 시간을 따로 내어 시급히 개선해야 한다 고 해석할 수 있다.

    동일한 방법으로 각 기간 별 요구사항 우선순위를 3차 에 걸쳐 도출한 뒤, 종합적으로 전체 우선순위를 비교하기 위해 <Table 7>과 같이 각 차수별로 우선순위 점수를 합하 여 최종 점수를 도출했다. 최신 경향에 좀 더 가중치를 두 고자 연구자가 임의로 1차 0.2, 2차 0.3, 3차 0.5로 가중치 를 부여하고 각 차수에 나온 점수를 곱하여 최종 점수를 계산하였다. 기간별 가중치는 상황에 따라 조정할 수 있 다. <Table 7>의 맨 우측 열에 있는 것처럼 우선순위를 도 출한 결과, 1위가 신고 시스템 불만(2.38점), 2위가 매치메 이킹 불만(1.56점), 3위가 캐릭터 추천(1.05)순으로 나타났 다. 가장 적은 점수는 회사 내 타 게임 의견(0.67점)이다.

    4.5 요구사항 세부요인 분석

    도출된 각각의 요구사항은 특성요인도를 사용하여 요 구사항의 세부요인을 나누고 원인을 분석할 수 있다. 본 논문에서는 특성이 강한 상위 2개 위주로 서술한다.

    첫 번째로 개선해야 할 신고 시스템 불만에 대한 특성 요인도를 그려본 결과는 <Figure 12>와 같다. 세부요인은 크게 운영, 욕설 신고 시스템, 트롤 신고 시스템 3가지로 분류되었다. 운영 측면에서는 운영자가 사용자가 신고하 는 의견에 관심이 없고, 개선 의지가 없고, 신고 대처가 늦는다는 의견들이 대부분이었다. 욕설 신고 시스템 측면 에서는 욕설과 관련 없는 단어를 사용했는데 신고를 당했 다거나, 신고를 해도 특별한 제재가 없다는 의견이 있었 다. 트롤 신고 시스템에서는 트롤 패널티가 따로 없고, 타 게임 대비 트롤이 많아서 불편을 느낀다는 의견이 있었다.

    두 번째로 개선해야 할 매치메이킹 불만에 대한 특성요 인도를 그려본 결과는 <Figure 13>과 같은데, 매칭의 속도, 매칭의 공정성, 영웅 리그 모드, 매칭 서비스 운영 4가지 요인으로 분류되었다. 매칭의 속도는 매칭이 잡히지 않거 나, 느리거나, 매칭 알고리즘이 의심된다는 의견이 있었 다. 매칭의 공정성은 트롤 사용자(게임을 안 하는 사용자) 매칭, 매칭 시 티어가 맞지 않는 경우, 영웅 조합이 맞지 않고 매치메이킹 점수가 안 맞는 경우가 해당 요인에 속했 다. 영웅 리그 모드 요인에서는 일반전에서 나오는 점수를 리그에 산정시키는 불완전성이나, 모드 별로 매칭이 다른 것 같다는 것을 도출하였다. 마지막으로 매칭 서비스 운영 의 경우, 운영자가 개선 의견에 관심이 없거나 매칭 서비 스 패치 자체를 안 한다는 의견들이 있었다.

    5. 결 론

    본 연구는 텍스트마이닝 기법을 활용하여 사용자 요 구사항과 요구사항들의 우선순위를 도출하는 방법론을 제안하였다. 방법론의 타당성을 검증하기 위해 게임 커 뮤니티를 대상으로 1년간의 약 15만 건에 대해 사례를 적용하여 사용자의 요구사항을 추출하고, 1년을 3개월씩 4개의 기간으로 나누어 중요성과 긴급성을 계산하여 우 선순위를 도출하였다.

    본 연구에서 제시하는 방법론은 설문조사나 VOC 대 신 온라인 텍스트 문건 통해 사용자 입장에서의 요구사 항을 파악함으로써 기존의 수동적인 조사의 한계점을 극 복하고, 도출된 요구사항에 따른 요인을 특성요인도로 시각화하여 문제를 한 눈에 파악할 수 있도록 만들어준 다. 이는 도메인 지식이 없는 의사결정자 입장에서 많은 문건을 읽지 않고도 효율적인 의사결정을 할 수 있도록 도움을 줄 수 있다.

    그러나, 토픽 모델링의 경우 확률에 근거한 모델링이 기 때문에 추출된 키워드들의 연관성이 다소 떨어질 가 능성이 존재한다. 따라서 이 경우에는 연구자가 원 문서 내용을 참고하면서 해석을 하는 데 많은 시간이 소요될 수 있다. 이는 한국어 문법의 어려움과 현재 형태소 분석 기의 불완전성 등 자연어처리의 한계점에서 기인한 것으 로 한국어 문법이 잘 고려된 형태소 분석기 개발이 필요 함을 시사한다.

    이와 같은 한계점을 보완하고 좀 더 나은 문서 요약, 추출 기법이 제시된다면 기업의 의사결정에 더욱 더 효 과적인 도움을 줄 수 있을 것으로 기대한다.

    Acknowledgement

    This work was supported by the research fund of Hanyang University(HY-2019-G).

    Figure

    JKISE-43-3-112_F1.gif

    Topic Modeling Algorithm

    JKISE-43-3-112_F2.gif

    Example of Matrix Data Analysis

    JKISE-43-3-112_F3.gif

    Example of Cause and Effect Diagram

    JKISE-43-3-112_F4.gif

    Methodology Framework

    JKISE-43-3-112_F5.gif

    Coherence Score Calculation Framework

    JKISE-43-3-112_F6.gif

    Example of Topic Modeling Deliverables

    JKISE-43-3-112_F7.gif

    Modified Requirements Priority Matrix

    JKISE-43-3-112_F9.gif

    Topic Frequency Analysis-Number of Documents by Topics

    JKISE-43-3-112_F10.gif

    Topic Frequency Analysis-Periodic Trend

    JKISE-43-3-112_F11.gif

    Requirement Priority Matrix(First Attempt) (Period-1 and Period-2)

    JKISE-43-3-112_F12.gif

    Reporting System Dissatisfaction Cause and Effect Diagram

    JKISE-43-3-112_F13.gif

    Reporting System Dissatisfaction Cause and Effect Diagram

    Table

    Example of Priority Score

    Change in Data after Preprocessing

    Topic Coherence Score

    Result of Topic Naming

    Topic Frequency Analysis-Number of Documents by Period

    Priority Score(First Attempt)

    C = A×B

    Requirements Prioritization

    D = 0.2 A+0.3 B+0.5 C

    Reference

    1. Bae, K.T., Quality management is competitivenessquality control tools in work place, Ceramist, 2008, Vol. 11, No. 5, pp. 161-166.
    2. Baldi, P., Lopes, C., Linstead, E., and Bajracharya, S., A Theory of Aspects as Latent Topics, In OOPSLA, 2008.
    3. Bickart, B. and Schindler, R.M., Internet forums as influential sources of consumer information, Journal of Interactive Marketing, 2001, Vol. 15, No. 3, pp. 31-40.
    4. Blei, D.M., Ng, A.Y., and Jordan, M.I., Latent dirichlet allocation, The Journal of Machine Learning Research, 2003, Vol. 3, pp. 993-1022.
    5. Chang, J., Gerrish, S., Wang, C., Boyd-Graber, J.L., and Blei, D.M., Reading tea leaves : How humans interpret topic models, In Advances in Neural Information Processing Systems, 2009, pp. 288-296.
    6. Covey, S., The 7 Habits of Highly Effective People, Free Press, 1989.
    7. Cho, S.H., Kim, B.S., Park, M.S., Lee, G.C., and Kang, P.S., Extraction of satisfaction factors and evaluation of tourist attractions based on travel site review comments, Journal of the Korean Institute of Industrial Engineers, 2017, Vol. 43, No. 1, pp. 62-71.
    8. Fabrizio, Machine learning in automated text categorization, ACM Computing Surveys, 2002, Vol. 34, No. 1, 2002, pp. 1-47.
    9. Feldman, R. and Sanger, J., The text mining handbook : advanced approaches in analyzing unstructured data, Cambridge University Press, 2007.
    10. Ishikawa, K., Guide to Quality Control, Tokyo : Asian Productivity Organization, 1968.
    11. Jeong, J.Y., Jeon, Y.S., and Cho, N.W., Analysis of game product review using topic modeling and emotional analysis, Proceedings of the Korean Operations Research and Management Science Society, Yeosu, Korea, 2017, pp. 5692-5703.
    12. Jyothi, N.S. and Parkavi, A., International conference on research advances in integrated navigation systems (RAINS-2016), 2016.
    13. Kao, A. and Poteet, S.R., Natural language processing and text mining, London : Springer, 2007.
    14. Kim, N.G., Lee, D.H., Choi, H.C., and Wong, W.X., Investigations on techniques and applications of text analytics, The Journal of Korean Institute of Communications and Information Sciences, 2017, Vol. 42, No. 2, pp. 471-492.
    15. Lim, J.H. and Lee, H.C., Comparison of service quality recognition between FSC and LCC using text analysis, Proceedings of Aviation management Society of Korea, 2018, pp. 216-220.
    16. Montgomery, D.C., Introduction to statistical quality control, John Wiley & Sons., Inc., 2007.
    17. Newman, D., Lau, J.H., Grieser, K., and Baldwin, T., Automatic evaluation of topic coherence, In Human Language Technologies : The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp. 100-108), Association for Computational Linguistics, 2010.
    18. Oh, Y.J., Jeong, J.Y., and Cho, N.W., Analysis of Game Review Using Word2Vec and LDA, Proceedings of the Korean Operations Research and Management Science Society, Gyeongju, Korea, 2018, pp. 2344-2349.
    19. Park, J.H. and Song, M., A study on the research trends in library and information science in korea using topic modeling, Journal of the Korean Society for Information Management, 2013, Vol. 30, No. 1, pp. 7-32.
    20. Sievert, C. and Shirley, K.E., LDAvis : A method for visualizing and interpreting topics, Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces, 2014, 63-70.
    21. Turney, P.D. and Pantel, P., From frequency to meaning : Vector space models of semantics, In Journal of Artificial Intelligence Research, 2010, Vol. 37, pp. 141-188,
    22. Yun, T.H., Kim, C.Y., and Byun, J.H., A study on implementing the QC tools for systematic problem-solving, Journal of the Korean Society for Quality Management, 2009, Vol. 37, No. 2, pp. 68-77.