1. 서 론
기업 입장에서 자신의 제품 또는 서비스에 대한 고객 의 평가는 향후 제품 또는 서비스를 새로 설계하거나 개 선하는데 대단히 중요한 정보를 제공한다[5, 8]. 일반적 으로 이러한 평가는 고객들에 대한 설문조사나 포커스 그룹 인터뷰 등을 통해 수집되어 사용자의 니즈 또는 제 품의 요구사항을 도출하는데 활용되어 왔으나 비용이 많 이 발생할 뿐만 아니라 분석에 명백한 한계를 가지고 있 다. 설문조사의 경우 사전 준비된 한정된 질문에 대한 기 준이 모호한 수치 정보만을 제공하고 포커스 그룹 인터 뷰의 경우 평가자의 주관적인 견해가 반영되어 다소 편 향된 결과를 도출하는 단점이 있다[6].
최근 인터넷 댓글 활성화 및 사회 관계망 서비스(SNS) 의 확산으로 온라인에는 특정 제품, 장소 및 서비스에 대 한 무수히 많은 개인의 의견 및 평가가 텍스트 형태로 존 재한다. 인터넷 상에서 사람들은 수많은 제품, 사람, 서비 스에 대한 많은 자신의 평가를 블로그, 커뮤니티 게시판, 사회 관계망 서비스에 텍스트 형태로 작성하여 업로드 한다. 사실, 이러한 텍스트는 작성자의 제품 또는 서비스에 대 한 중요한 평가를 담고 있어 경우에 따라서는 설문 조사 또는 인터뷰보다 통찰력 있고 중요한 정보를 제공할 수 있다. 그러나, 이러한 텍스트 기반 정보들은 비정형일 뿐 만 아니라 정량적으로 수치화하기 어려워 제품 설계 및 개선을 위한 수학적 모형이나 최적화 문제에 적용이 어 렵다는 한계를 가지고 있다. 다시 말해, 이러한 리뷰 또는 댓글 들은 작성자의 대략적인 생각이나 대상에 대한 대 체로의 선호를 파악할 수는 있지만 그 제품을 얼마나 좋 아하고 싫어하는지 정량적으로 평가할 수 없는 단점이 있다. 이와 같은 텍스트 기반 비정형 데이터를 정량화하 는 방안으로 텍스트 마이닝을 고려할 수 있다. 텍스트 마 이닝은 텍스트 형태의 정보로부터 작성자의 의견이나 포 함된 정보를 추출하는 과정으로 단어 빈도수, 패턴 인식, 텍스트 클러스터링, 개념 추출 등의 기법으로 사람들이 작성한 글에 나타난 특정 주제나 대상에 대한 그 작성자 의 주관적이고 감정적인 의견을 분석하는데 사용될 수 있다[1, 15].
따라서, 본 연구에서는 인터넷 또는 온라인에 존재하 는 수많은 텍스트 기반 정보를 활용하여 특정 제품이나 서비스에 대한 사용자 의견이나 선호도를 정량적으로 추 출하는 방안을 제안한다. 먼저, 특정 주제에 대한 사용자 의 텍스트 기반 정보를 수집하고 이를 각 단어로 분해하 고, 각 단어를 긍정, 부정으로 분류하여 최종적으로 해당 정보의 긍정률을 계산하여 사용자의 의견을 정량화하는 방안을 고려한다. 또한, 제안되는 방안의 적용 방안과 그 효과성을 입증하기 위하여 영화 리뷰와 영화 평점 평가 를 활용한 사례 분석을 실시한다.
본 논문의 구성은 다음과 같다. 먼저, 제 2장에서는 텍 스트 마이닝이 활용된 선행 연구에 대해서 설명하고, 제 3장에서는 텍스트 기반 정보의 정량화 방안을 제안한다. 그리고 제 4장, 제 5장은 제안한 방안을 영화리뷰에 적 용한 사례 분석을 실시하고, 마지막으로 제 6장에서는 결론 및 향후 연구에 대하여 논한다.
2. 텍스트 마이닝을 활용한 비정형 데이터 분석
인터넷과 사회연결망 서비스(Social Network Service : SNS)의 발달로 방대한 양의 비정형 데이터들이 생산되 고 있다. 비정형 데이터란 그림이나 영상, 음성, 문서처 럼 구조화되지 않은 데이터로 최근 전 세계 기업에서 생 성, 저장, 재사용하는 정보 중 80%는 복합문서(xls, ppt, doc, pdf)와 인터넷 페이지(html) 등의 비정형 데이터로 구성되어 있다고 알려져 있다[3]. 또한, IBM은 전 세계 데이터의 90%는 지난 2년 동안 생성되었고 신규 데이터 의 80%는 비정형 데이터로서 정형 데이터의 2배에 달하 는 속도로 증가하고 있다고 발표하였다[4]. 이와 같은 비정형 데이터 형태인 문서는 많은 유용한 정보를 포함 하고 있으며 이 문서로부터 유효한 정보를 추출하고 가 공하는 기술에 대한 요구가 점차 높아지고 있는 상황이 다[3, 15].
텍스트 마이닝은 텍스트 형태로 이루어진 비정형 텍 스트 데이터들을 자연어 처리 방식(Natural Language Processing)을 이용하여 가치와 의미가 있는 정보를 찾 아내는 기술이라고 할 수 있다. 사용자는 텍스트 마이닝 기술을 통해 방대한 정보 뭉치에서 의미 있는 정보를 추출해 내고, 단어의 출현빈도, 단어 간 관계성 등 단순 한 정보검색 그 이상의 결과를 얻어낼 수 있다[13]. 또 한, 텍스트 마이닝 기법 중 하나인 감성분석(Sentimental Analysis)은 사용자가 작성한 문서에서 사용자의 감성과 관련된 텍스트 정보를 추출하여 문서를 작성한 사람이 어떠한 감성을 가지고 있는가를 판단하여 분석하는 기술 로 비정형 데이터로 기술된 기사, 문서, 또는 자료 등에 서 작성자들의 특정 주제나 제품에 대한 평가를 추출하 는데 활용된다[9, 11].
Kam과 Song은 텍스트 마이닝을 활용하여 경향시문, 한겨레, 동아일보 세 개의 신문기사의 내용 및 논조 차이 점을 단순 빈도 분석과 군집 분석, 분류 분석의 결과 비 교를 통해 설명하였다[7].
제품 사용자의 주관적 의견을 자동으로 분류할 수 있 는 감성분석 알고리즘은 상품에 대한 속성과 감성단어들 에 대한 데이터베이스가 이미 구축되어 있다고 가정하고 이를 바탕으로 온라인 쇼핑몰에 등록된 한글 상품평에 대해서 전체 혹은 각 속성별로 긍정 또는 부정 의견인지 판단하였다[2]. 그러나, 이 연구는 상품평의 점수를 계산 하기 위한 데이터베이스가 이미 구축되어 있는 것을 가 정하고 있으며 온라인 리뷰에서 많이 사용되고 있는 인 터넷 언어 혹은 신조어를 고려하지 않은 한계를 가지고 있다.
따라서, 본 연구는 SNS 텍스트를 기반으로 감성분석 을 실시하여 비정형 데이터를 통하여 사용자 또는 생성 자의 의견 또는 감성을 도출하는 방안을 개발한다. 인터 넷으로부터 수집된 SNS 텍스트에 대하여 기존 단어 사 전과 자체 개발한 형태소 사전을 활용하여 텍스트 마이 닝을 분석하고 그 결과를 바탕으로 감성 분석을 실시하 여 의미 있는 분석 결과를 제시하고자 한다. 특히, 자체 개발한 형태소 사전은 분석의 정확도를 높이기 위해 구 어체 및 댓글체도 고려하여 설계되었다.
3. 비정형 데이터 정량화 프레임 워크
본 장에서는 사용자가 작성한 비정형 데이터로부터 사용자의 감성 또는 평가를 수치화를 위해 <Figure 1>과 같은 텍스트 마이닝 기반의 비정형 데이터 정량화 프레 임 워크를 제안한다.
제안되는 시스템은 먼저 비정형 데이터 수집하는 단 계로 시작된다. 이 단계는 기존에 수집되어 있는 데이터 를 활용할 수도 있고 크롤링(Crawling) 기법 등을 활용 하여 인터넷에서 해당 데이터를 수집할 수도 있다. 특 히, 인터넷에 많은 데이터 활용을 위한 크롤링 기법은 Web Scraping Technology를 이용하여 HTML 기반 웹사 이트에 저장되어 있는 텍스트를 수집하는 과정으로 이 를 반복, 수행하여 방대한 양의 비정형데이터를 획득할 수 있다.
비정형의 텍스트 정보가 수집되고 나면 이 후에 그 다 음 단계로 수집한 텍스트에 대하여 결과에 영향을 주지 않는 불필요한 문자들(예) \/.,’”; 등의 기호들)을 제거하 는 전처리 과정을 실행한다. 데이터 클린징이라고도 불 리는 이 과정은 분석에 큰 영향을 주지 않는 조사 및 동 사의 제거도 포함될 수 있다.
다음 과정으로는 한국어 정보처리를 위한 파이썬 패키 지 코엔엘파이(KoNLPy)를 이용하여 수집된 정보를 형용사, 명사, 부사 등으로 분해하고 분해된 형태소별 단어를 긍 정 또는 부정으로 분류한다. 이러한 분류를 위해 서울대 학교언어학과 컴퓨터 언어학 연구실에서 개발한 KOSAC (Korean Sentiment Analysis Corpus) 감성 사전이 사용된 다. KOSAC은 유일한 한국어 감성사전으로 총 1,600개의 주요 단어를 긍정, 부정으로 분류하고 있다. 앞서 분해된 단어를 이 단어 분류에 따라 긍정 또는 부정으로 분류하 고 해당 문서 또는 데이터의 긍정 단어 수와 부정 단어 수를 계산한다. KOSAC에 포함된 1,600개의 단어는 댓글 체, 급식체 등으로 대변되는 온라인 댓글 문화를 적절히 반영하기에 다소 제한적이므로 본 연구에서 KOSAC에 포함되지 않는 주요 단어를 대상으로 긍정 또는 부정으로 분류하는 3개의 추가 보완 목록(형용사, 명사, 댓글)을 구 축하여 적용하였다. 마지막으로 주어진 문서 또는 비정형 텍스트 데이터에 대한 긍정률은 다음 식에 의해 계산될 수 있다.
앞서 설명은 전체 프로세스를 적용하여 주어진 문서에 대하여 이 긍정률을 계산되고 이는 해당 문서에 포함된 작성자의 감성 또는 의견이 판단하는 근거로 활용된다.
4. 사례 연구 : 영화 리뷰(댓글) 감성 분석
4.1 분석 개요
앞서 제안된 비정형 데이터 정량화 방안의 유효성을 확인하기 위하여 A포털사이트 영화 리뷰를 활용하여 사 례연구를 실시한다. 특히, A포털사이트는 영화 리뷰와 함께 일반인(네티즌)들의 수치 기반 정보를 함께 제공 있는데 이는 본 연구에서 제안된 비정형 데이터 정량화 방안의 결과의 정확도를 확인하는 데 활용될 수 있다. 분 석을 위해 2017년부터 2018년 상반기까지 개봉하여 상 영이 끝난 영화 중 30개의 영화를 무작위로 선정하여, 이 영화들에 대한 온라인 리뷰를 분석하였다.
먼저, 온라인 리뷰를 포털사이트로부터 네티즌들이 작 성한 온라인 리뷰를 수집하기 위해 Python 기반 beautifulsoup과 request 라이브러리를 이용하여 크롤러(Crawler)를 개발하였다(<Figure 2> 참조). 이 크롤러를 활용하여 각 영화당 1,000개의 댓글과 평점을 수집하였고 댓글은 감 성 분석을 위한 원 데이터로 평점은 산술 평균하여 감성 분석 결과와 비교하는 데 활용하였다.
수집한 리뷰 분석에는 온라인 리뷰에서 흔히 나타나는 띄어쓰기 오류에 덜 민감한 한글 형태소 분석기인 꼬꼬마 형태소 분석기(Kkma, Kind Korean Morpheme Analyzer) 을 사용하였다. 이 과정에서 문법적 오류가 심하거나 한 글자 표현 등의 이유로 형태소 분석기가 분석하지 못하는 단어들은 제외되고 적합한 형태소를 추출한다. 이렇게 추 출된 형태소 단위의 단어들은 KOSAC 감성 사전과 추가 보완 목록을 활용하여 긍정, 부정으로 분류되고 평가 대 상인 비정형 데이터 또는 댓글에 대한 긍정 및 부정 단어 수를 계산한다. 이 단어 수들은 식 (1)에 의해 해당 댓글 의 긍정률로 계산되고 이를 네티즌 평점과 비교하여 그 정확도를 측정한다.
4.2 감성 사전 보완 목록
앞서 언급한 바와 같이 KOSAC는 주요 1,600단어를 긍 정, 부정으로 분류한 목록을 제공한다. 일부 단어의 경우 두 목록에 모두 포함되는 경우도 허용한다. 그러나 인터넷 댓글이나 리뷰 등으로 대표되는 비정형 텍스트 정보는 KOSAC이 분류한 1,600개보다 훨씬 많은 단어들이 포함된 다. 따라서, 본 연구에서는 이러한 KOSAC의 한계를 극복 하기 위하여 다음 3가지의 보완 목록을 제안한다. 첫 번째 는 KOSAC에 포함되지 않은 형용사들에 대한 목록이다. 형용사가 텍스트 작성자의 감성을 잘 나타낼 것으로 예상 됨으로 이에 대한 보완 목록을 고려한다. 두 번째 목록은 그 대상을 명사로까지 확대하여 형용사와 명사에 대한 보 완 목록을 구성한다. 마지막은 사용된 형태소 분석기로 명사 또는 형용사로 분류되지 않은 신조어를 포함한 보완 목록을 구성한다. 이 목록은 Wikipedia에 명시된 ‘대한민국 인터넷 신조어’와 온라인 리뷰를 참조하여 구성하였다[14].
4.3 예제
KOSAC 감성 사전과 3개의 보완 목록이 어떻게 사용 되는 지 다음 예제 댓글을 활용하여 설명한다.
“정말 재미없었습니다. 오늘 아침에 보고 왔는데 민 망하기만 하네요 배우 분들은 좋으나 스토리 전개 코미디 모두 최하점 입니다. 올해 들어 최악의 영화 네요. 너무 실망스럽네요.”
먼저, 분해된 형태소를 KOSAC을 이용하여 긍정 및 부정으로 분류하면 다음과 같다.
이에 따라 긍정률을 계산하면 5/(5+5) = 0.5가 된다. ‘-다’ 의 경우 생략되어 형태소로 분해되고, KOSAC만 이용할 경우 의미 있는 단어를 포함하지 않아 의미 없는 단어만 나타내는 경향이 있다.
두 번째로 형용사 보안 목록 리스트에 따른 분석 결과 는 1개의 부정 형태소{‘재미없’}가 추가로 검출되었다. 이 를 바탕으로 긍정률을 계산하면 5/(5+6) = 0.455가 된다.
다음으로는 형용사와 명사를 추가한 목록을 사용할 경우 다음과 같이 더 많은 감정 관련 단어가 추출된다. 4 개의 긍정 형태소{‘코미디’, ‘스토리’, ‘정말’, ‘모두’)와 3 개의 부정 형태소(“최악”, “실망”, “민망”)가 추가로 추출 되었다. 이를 바탕으로, 긍정률을 계산하면 9/(9+9) = 0.5 가 된다.
마지막으로 “형용사+명사+댓글체(신조어)” 목록의 경우 예시에서는 새로운 댓글체(신조어)가 사용되지 않아 긍 정률은 이전과 같다. 하지만, 다음과 같은 단어를 추가하 였다.
한글이 쓰이는 환경(인터넷)을 고려하여 영화 댓글의 생성과정 중 새로이 생기는 단어들을 감안하고 형용사, 명사, 댓글체(신조어) 이 세 가지에 포함되는 요소를 모두 추출하였다. 이와 같이 인터넷 언어를 이용한 온라인 리 뷰에 대한 효과적인 분석을 위해 추가 보완 목록에 대한 연구 및 개발이 필요하다.
5. 실험 결과
제안된 비정형 데이터의 정량화 방안에 대한 검증을 위해 A포털사이트에서 2017년부터 2018년 상반기까지 개봉한 영화 중 30개를 임의로 선정하고 각 영화에 대한 댓글 1,000개씩을 수집하여 분석하였다. 수집된 댓글을 앞 장에서 설명한 3개의 보완 목록을 각각 KOSAC에 적 용하여 분해하고 각각의 긍정률을 계산하였다. 각 목록의 유효성을 판단하기 위하여 각 영화에 대한 네티즌 평점과 상관분석을 실시하였다. 본 연구에서는 대체로 사용자들 이 자신의 감성 및 의견에 따라 적절히 평점을 산정했다 는 가정하에 검증을 실시하였고 추후 이 네티즌 평점의 정확성에 대한 별도의 논의가 필요하다고 판단한다.
<Table 1>은 선정된 영화에 대한 3가지 평가 방법으로 계산된 점수와 네티즌 평점의 평균값을 보여준다. 높은 평점의 영화는 3가지 평가 방안으로도 높은 값을 가지고 반대의 경우도 마찬가지이다. 따라서, 본 연구에서 제안 된 단어 기반 긍정률 계산이 유효한 것으로 판단될 수 있 다. 더 자세히 분석을 위해 각 방안에 따른 긍정률과 사용 자 평가 점수에 대한 상관 분석(Correlation Analysis)을 실 시한 결과는 <Figure 3>, <Figure 4>, 그리고 <Figure 5> 와 같다. 먼저, <Figure 3>에서 보는 바와 같이 사용자 평 가 점수와 “KOSAC+형용사” 목록에 의한 점수의 상관 계 수(Correlation coefficient)는 0.392845로 뚜렷한 양적 선형 관계를 가진다고 할 수 있다[10]. 두 번째로 “KOSAC+형 용사/명사” 목록에 의한 점수와의 상관관계는 <Figure 4> 에 나타내고 있으며 해당 상관계수는 0.769151로 강한 양 적 선형 관계를 가진다고 할 수 있다[10]. 이는 영화 리뷰 텍스트 분석에서 형용사와 명사를 모두 고려한 평가 점수 가 사용자 평점에 보다 유사하다고 할 수 있으며 사용자의 감성을 잘 반영한다고 할 수 있다. 마지막으로 “KOSAC+ 형용사/명사/신조어(댓글체)” 목록의 경우 가장 높은 0.797238 의 상관계수값을 보이고 있으며 이는 텍스트를 분석할 때 특히 인터넷 텍스트 데이터를 분석할 경우 일상에 쓰이는 표준어 외에도 인터넷이라는 특수한 상황 속에서 쓰이는 단어를 고려해야 함을 시사한다.
6. 결 론
사회 관계망 서비스, 블로그, 댓글 문화의 확산으로 인 터넷에는 엄청난 양의 비정형 데이터가 생성, 저장되고 있다. 사실, 이러한 데이터는 사용자 또는 작성자의 의견 이나 감성을 포함하고 있는 유용한 정보로 고려될 수 있 으며 향후 제품 설계, 마케팅, 서비스 개발과 같은 주요 의사결정에 활용될 수 있다. 따라서, 본 연구에서는 이러 한 비정형 데이터를 향후 의사 결정 문제에 활용하기 위 하여 정량화하는 방안을 제안한다. 수집된 인터넷 문서 또는 댓글과 같은 텍스트 기반의 비정형 데이터를 형태 소 분석기를 이용하여 최소 단위의 단어로 분해하고 이 를 기존 감성 사전인 KOSAC을 이용하여 긍정률을 계산 하여 얼마나 긍정적인 데이터인지를 평가한다. 이러한 긍정률 계산에서의 정확도를 향상시키기 위한 3개의 보 완목록 (1) 형용사, (2) 형용사+명사, (3) 형용사+명사+댓 글체(신조어)를 제안 적용하였다.
제안된 방안의 검증을 위해 임의 선정된 30개 영화에 대한 1,000개씩의 댓글을 수집, 분석하였고 그 결과를 포 털사이트에 함께 제공된 평점과 비교를 하였다. 형용사로 만 이루어진 첫 번째 목록의 경우 평점과 약 39%로 낮은 상관성이 나타낸 반면, 형용사+명사를 고려한 2번째 목록 의 경우 76%의 상관성을, 품사의 형태가 다양하게 고려한 3번째 목록은 평점과 약 79%의 높은 상관성을 보여 댓글 의 긍정도를 잘 평가하고 있은 것으로 판단할 수 있다.
이와 같이 본 연구에서 제안하는 비정형 텍스트 데이 터 분석을 위한 정량화 방안은 온라인 댓글뿐만 아니라 블로그, 카페, 뉴스 기사, 기술 문서 등의 다양한 텍스트 데이터로부터 주요 의사결정에 필요한 정보를 추출하는 데 효과적으로 사용될 수 있다. 본 연구는 최소 단위로 분해된 형태소가 갖은 의미를 바탕으로 전체 텍스트가 갖는 의미를 정량화하고 있다. 그러나, 일반적인 경우 텍 스트의 경우 단어들의 순서나 조합이 갖는 별도의 의미 가 존재하는 만큼 향후 이러한 부분을 고려한 감성 분석 방향에 대한 연구가 필요하다[12].