1. 서 론
사회가 디지털화되면서 처리하는 데이터의 양이 급격히 증가하게 되었고 이러한 대용량의 데이터를 1990년대부터 “빅 데이터”라고 부르기 시작하였다[29]. 빅 데이터는 구체 적으로 데이터를 양(volume), 입출력 속도(velocity), 다양성 (variety)의 세 요소로 분류하는데 학문 분야에서도 학술 연구 활동이 왕성해지고 텍스트 형태의 연구 성과들이 누적 되면서 방대한 양의 학술 자료들이 데이터베이스에 축적되 었다.
1958년에 국내 최초로 한양대학교에 신설된 공업경영 학과는 인간, 설비, 자재를 통합한 시스템에 과학적 원리 를 도입하여 체계적인 경영을 연구하는 전공으로서 1970 년대 후반에는 학과명이 산업공학과로 변경되었다. 최근 에는 4차 산업혁명과 대학 전공의 융합 움직임에 따라 전 공 영역이 전통적인 산업공학 분야에 국방, 서비스, 금융, 정보통신, 공공 행정 등으로 꾸준히 확장되고 있다. 1965 년 산업공학과 관련한 최초의 학회인 한국공업경영학회를 설립, 한양대 중심으로 산업공학 초창기의 발전기반을 다 져가다 법인 등록한 한국공업경영학회는 2000년에 한국 산업경영시스템학회로 명칭 변경되었다. 1974년 대한산업 공학회가 설립되어 산업공학 분야의 주력 연구학회 역할 을 하고 있으며, 1982년 대한인간공학회가 설립되어 인간 공학에 관한 학술과 기술 진흥을 도모하고 있다. 이 밖에 산업공학 관련 학회로는 품질관리학회, 경영과학회, 군사 OR 학회 등이 있어, 기존의 학회와 보완관계를 유지하면 서 산업공학의 발전 및 실용화를 꾀하고 있다.
한국산업경영시스템학회는 43년의 역사가 되었으나 학 회지에 게재된 연구 논문 주제를 구체적으로 분석한 연구 는 현재까지 진행되지 않았다. 학회지를 탐색한 결과 1999 년까지 게재된 논문은 형식 측면에서 논문 제목, 초록, 키 워드, 본문, 참고문헌 등의 완벽한 학술연구지의 형식에 미흡한 것으로 나타났다. 본 연구는 우선 1999년 이전에 게재된 본 학회지의 연구 논문들에 대하여 논문 제목과 초록을 대상으로 각각 토픽모델링 알고리즘을 활용하여 심도 있는 주제 분석을 함으로써 향후 학회지의 위상과 연구 발전에 기여하고자 한다.
제2절에서 이론적 배경인 토픽모델링의 의미와 알고리 즘을 비교하고 토픽모델링을 적용한 선행연구에 대하여 살펴본다. 제3절에서는 본 학회지에 게재된 논문의 주제 분석을 위한 연구개요와 구체적인 절차에 대하여 서술한 다. 제4절에서는 본 학회지에 게재된 논문의 제목과 초록 을 대상으로 토픽모델링 알고리즘을 적용하여 시각화 기 법을 포함한 주제 분석을 실행하며, 분석 결과를 비교하고 요약한다. 마지막으로 제5절은 본 연구의 의미와 한계 그리 고 향후 연구 방향에 대하여 서술한다.
2. 이론적 배경
2.1 토픽모델링
텍스트마이닝(text mining)이란 비정형 자료(unstructured data)인 텍스트 데이터로부터 특징을 추출하여 가치 있 는 정보를 발견하는 기술이고, 토픽모델링은 여러 문서들 로부터 주제를 찾기 위하여 텍스트마이닝을 구체적으로 실현한 기법이다. 즉, 토픽모델링은 확률적 개념을 도입하 여 여러 문서에서 많이 나타나고 유의미한 단어들의 연관 성을 찾아내고, 단어들 조합의 결과를 제시하여 그 분석 결과인 단어의 조합이 함의하는 잠재적인(latent) 의미인 주제(topic)를 찾는 컴퓨팅 기법이다.
토픽모델링은 자연어(natural language) 연구에서 출발 하였는데 주로 언어, 심리, 사회, 컴퓨터학자들이 인간이 사용하는 단어와 단어의 구성체인 문장과의 의미를 인식 (acquisition of recognition)하는 과정을 연구하면서 시작되 었다[15, 26].
2.2 토픽모델링 알고리즘의 비교
많은 토픽모델링 기법 가운데 대표적인 알고리즘을 살 펴본다. 문헌의 주제를 찾는 기법인 토픽모델링의 기본적 인 가정은 문헌은 여러 주제로 구성되고, 각 주제는 여러 단어로 구성된다는 점이다.
문헌들의 공통 주제들을 찾기 위하여 문헌의 개수와 주요 단어의 개수를 행 또는 열로 정하고, 각 문헌에서 나타나는 주요 단어의 빈도를 행렬의 원소로 하여 행렬을 구성한다. 이렇게 구성된 행렬의 차원을 축소하기 위하여 특이값분해 (singular value decomposition)를 한 다음, 주제를 결정하는 단어들의 조합으로서 축소된 행렬의 행 또는 열의 원소들을 제시하는 알고리즘이 잠재의미분석(LSA: Latent Semantic Analysis or LSI: Latent Semantic Indexing)이다[25, 38]. LSA 의 장점은 선형대수의 특이값분해를 사용함으로써 행렬의 차원을 줄이고 계산비용을 절약할 수 있으나, 주제의 수가 늘어날 경우에는 각 주제에 중요 단어들이 중복으로 나타나 서 주제 의미부여가 어려운 단점이 있다. LSA를 개선하기 위하여 확률적 추론의 개념을 도입한 알고리즘이 확률적 잠재의미분석(Probabilistic Latent Semantic Analysis)이다 [16]. 이 방법은 LSA 보다 주제 검색에는 우수하지만 다중 차원의 벡터생성으로 말미암아 연계된 네트워크 모델과의 추가적인 해석이 필요하다.
토픽모델링에 가장 많이 활용되는 알고리즘은 잠재디 리클레할당(LDA: Latent Dirichlet Allocation)이다[4]. LDA 는 인간이 문장을 구성할 때 주제를 결정하고, 주제에 포 함될 단어들을 선택하는 과정을 모방하여 확률분포로 모 형화한다. 문헌에 나타나는 어떤 주제들이 디리클레 (Dirichlet) 분포를 하고, 선정된 주제에 나타나는 단어들 은 다항(Multinomial)분포를 하는 것으로 가정한다. 그러 면 여러 문헌 가운데 선택된 한 문헌에서 나타난 단어의 확률은 선택된 그 문헌이 주어졌을 때 나타나는 주제의 조건부 확률과 그 문헌과 주제가 주어졌을 때 나타나는 단어의 조건부 확률의 결합 확률로 표현된다. 이 결합 확 률분포는 켤레사전(conjugate prior)분포로서 주제들의 분 포인 디리클레분포와 가능도(likelihood)함수로서 단어들 의 분포인 다항분포를 곱하는 베이스정리(Bayes’ theorem) 를 적용하여 구할 수 있고, 이 결합 확률분포의 모수 들의 최대값은 깁스샘플링(Gibbs sampling)으로 추정할 수 있다. 이와 같이 추정하여 선택한 단어들의 조합을 제 시하는 알고리즘이 잠재디리클레할당이다. 그리고 위와 같은 문헌과 주제와 단어의 분포를 계층 구조로 만든 알 고리즘이 계층적 디리클레 프로세스(Hierarchical Dirichlet Process)이다[42]. 토픽모델링에 활용되는 대표적인 알고 리즘과 알고리즘을 실행하는 도구를 <Table 1>에 요약하 였다[1, 3, 32, 43].
2.3 학술 분야의 활용
텍스트마이닝 또는 토픽모델링을 적용하여 연구 문헌 의 중요한 정보를 추출하는 연구는 2010년에 들어서면서 다양한 학문 분야에서 활발히 진행되었다. 우선 산업공학 분야와 관련된 선행연구부터 살펴본다.
텍스트마이닝을 이용한 산업공학의 논문 주제어들의 상관성 연구로서 Cho and Kim[8]은 1969년 이후 43년간 국제학술지 IIE Transactions의 2,527개 논문에서 10회 이 상 출현하는 주제어들 가운데 48개 단어를 선정하여 K-평 균군집분석(K-means clustering algorithm)을 수행한 결과, “Quality and Reliability Engineering”, “Design and Manufacturing”, “Operations Engineering and Analysis”, “Scheduling and Logistics”의 4개 군집으로 분류하였다. 그 리고 넷마이너를 활용하여 관련성이 큰 주제어를 연결한 사회연결망(social network and modularity analysis)을 제시 하였다. Cho et al.[6]은 2000년부터 2012년까지 대한산업 공학회지, IE Interfaces, 한국산업경영시스템학회지, 한국 경영과학회지의 3,875편 논문에서 저자가 작성한 주제어 를 수집한 다음, 산업공학용어사전을 기준으로 최종 선정 한 38개의 주제어들을 대상으로 단순 빈도분석, K-평균 군 집 분석, 연관성 분석을 하고, 연구기법의 변화 추이를 보 였다.
토픽모델링을 활용한 산업공학 분야의 실질적인 연구 로서 Jeong and Lee[18]는 2001년부터 2015년까지 대한산 업공회지와 IE Interfaces의 논문 1,242편의 영문 제목 및 초록을 자료로 활용하여 LDA 분석을 하였다. 출현확률이 높은 단어들로 구성된 상위 50개 토픽을 도출하고 5년 단 위로 나눈 각 구간에 대한 상위 10개 토픽을 제시하였는데 최근 주목받는 유망한 주제들은 “Technology management”, “Financial engineering”, “Data mining: supervised learning”, “Efficiency analysis”임을 보였다. 광범위한 산업 공학의 토픽모델링 연구로서 Kim and Jang[22]은 2004년 부터 2015년까지 Industrial Engineering & Management Systems, 대한산업공학회지, IE Interfaces, 한국SCM학회 지, 한국경영공학회지, 지능정보연구, 한국산업경영시스 템학회지, 한국품질경영학회지의 3,251개 논문 초록을 대 상으로 R을 이용한 LDA 분석을 하였다. 도출한 20개 연 구 주제 가운데 “헬스케어”, “금융공학”, “기업성과”, “텍 스트마이닝”, “의사결정 시스템”, “데이터마이닝”의 활발 한 연구가 진행되고 있음을 보였다.
산업공학의 세부 분야로서 제품서비스시스템(PSS: product service system)의 토픽모델링 연구도 진행되었다. Seo and Lee[40]는 2017년에 데이터베이스로부터 제품서비스시스 템에 관한 1,229편의 논문을 수집하여 관련성이 큰 주제어 들의 네트워크를 작성하고, LDA 분석으로 10개의 주제를 도출하였다. 주제 가운데 “PSS for sutainability”는 쇠퇴하 는 반면, “PSS business model for value co-creation”, “Industrial PSS”, “PSS framework and methodology”는 부 상하는 주제임을 보였다. 품질경영 분야에 대한 토픽모델 링 연구는 아직까지 활발하지 못한 실정이다. 한국품질경 영학회 창립 50주년을 맞이하여 품질경영과 관련된 논문 106편을 수집하고 “품질경영 이론”, “품질경영 실증연구”, “품질경영상 연구”, “품질경영 기타연구”, “ISO 인증시스 템”, “품질보증”의 6개 분야로 나누어 리뷰하거나, 논문 초록에 나타난 최다출현 단어들의 단순 빈도분석만 수행 되었다[11, 28].
산업공학 외에 다양한 학술 분야에서도 토픽모델링 연구가 활발히 진행되었다. 수학, 문헌정보학, 기록 관리 학, 언어치료, 재난 및 안전관리, 한국문화정책, 대학구조 개혁평가의 쟁점 분석, 청소년 문제, 게임 및 뷰티, 컨설 팅, 과학 논문 등의 분야가 연구되었다[7, 17, 19, 20, 21, 23, 34, 37, 44]. 위의 연구를 수행하기 위한 자료들은 직 접 크롤링(crawling)하거나 웹 스크래핑(web scraping) 프 로그램으로 논문 제목, 초록, 주제어 등을 수집하였다. 대표되는 주제를 찾기 위해서는 LDA 분석이, 세부 주제 별 미시적 핵심 키워드 도출에는 HDP 분석이 효과적임 을 보였다[36]. 주제 발견에 이어서 연도별 추이, 활성화 된 연구주제, 주제-방법 간의 네트워크를 제시하고, R, Mallet, R-Studio 프로그램 등을 사용하여 분석하였다[9, 27, 35].
3. 연구 프레임워크
3.1 연구개요
연구 프레임워크는 <Figure 1>과 같이 네 단계로 구성 된다: 자료의 수집과 파일변환, 탐색적 자료 분석, 전처리, 토픽모델링과 시각화. 한국산업경영시스템학회지에 게재 된 논문들을 수집하여 파일을 변환한 다음, 논문 제목과 초록을 대상으로 전처리 작업을 하여 코퍼스(corpus)를 완 성한다. 여기서 코퍼스란 수집한 논문의 제목과 초록에 수 록된 단어들이 전처리 작업이 끝난 상태일 때 이들의 집합 을 의미한다. 코퍼스를 입력하여 토픽모델링 알고리즘으 로 분석하고, 분석 결과의 시각화를 통하여 출현확률이 높 은 단어들의 의미를 종합적으로 검토하여 가장 적합한 연 구 주제를 부여한다.
3.2 자료의 수집과 파일변환
주제 분석을 위해 1차적으로 학회 창립 이후 논문 제목 과 초록만을 갖춘 전반기 22년간의 논문을 수집한다. 2절 에서 살펴본 바와 같이 타 연구의 경우에는 “사용자 리뷰” 나 “쉽게 수집 가능한 텍스트”들은 “크롤링” 또는 “웹 스 크래핑” 프로그램을 실행하여 수집하였다. 그러나 본 연구 의 경우에는 그러한 실행이 불가능하여 학회 홈페이지의 “학술 논문” 내의 “학회지 서비스”에 접속하여 연도별 게 재 논문을 각각 수집하였다.
1978년부터 1999년까지 수집한 총 971편의 논문은 pdf 파일 형식이었으나 파이썬에서 읽어 들일 수 없었다. text 파일 형식도 토픽모델링 작업이 가능하지만, 데이터 프레 임(data frame) 형식을 갖추고 행과 열로 구성되어 컴퓨팅 작업에 편리한 csv(comma separated values) 파일 형식으로 변환하였다. 그러나 파일변환 과정에서 단어들의 깨짐 현 상이 많이 발생하여 단어들을 일일이 확인하며 파일변환 을 완성하였다.
3.3 탐색적 자료 분석
탐색적 자료 분석은 토픽모델링에 필수적인 부분은 아 니지만, 학회지의 전반기 역사를 확인한다는 관점에서 전 반적인 학회지의 연도별 논문게재 현황을 제시한다. 그리 고 분석할 자료에 대한 기본적 이해를 위하여. 게재 논문 의 제목과 초록에 나타난 문장, 단어, 문자들과 관련된 값 들의 기술 통계량 값을 계산하고, 그 값들의 분포를 그래 프로 작성한다.
3.4 전처리
토픽모델링은 전처리가 완성된 코퍼스로부터 통계적 방법으로 찾아낸 단어들의 조합에 잠재적 의미를 갖는 주 제를 유추하는 문제이기 때문에 주제 발견에 방해가 되는 요소들을 제거하고 결과에 결정적인 영향을 미치는 전처 리(preprocess)과정을 세밀하게 진행해야 한다. 자연어 처 리를 위한 구체 적인 전처리 과정이 있으나, 논문의 주제 를 찾기 위한 일반적인 전처리 과정은 다음과 같다[31]:
-
∙ 토큰화(tokenization): 문서를 단어로 나누는 것 (breaking documents into term components);
파일변환과정을 통하여 논문의 주제와 초록의 문장 에서 단어들을 수정하고 보완한다.
-
∙ 구두점 제거(discarding punctuation): . , : ; / ‘ ’ ′ & % < > ( ) [ ] * _ - 등을 제거한다.
-
∙ 불용어 제거(filtering out stop words): 논문에 관용적으로 사용되며 주제 의미와 관련 없는 단어로서 주어, 서술어, 일반 동사, 명사, 형용사, 접속 사, 전치사, 아라비아 숫자들은 불용어로 취급하여 제거한다. 예를 들면 다음과 같다;
a, an, the, I, my, we, us, this, that, then, can, be, would, do, where, which, and, or, for, in, under, among, over, firstly, very, so, simple, general, part, main, same, current, suggest, develop, perform, conduct 등
-
∙ 최다 출현단어 제거(removing highly frequent terms): 산업공학의 모든 주제에 공통으로 나타나는 단어로 서 주제 결정에 혼란스런 단어들을 제거한다. 예를 들면 다음과 같다;
system, model, analysis, method, design, performance, technique, management 등
-
∙ 희소 출현단어 제거(removing infrequent terms (relative pruning)): 토픽모델링 분석과 pyLDAvis 시각화 결과, 제시되는 핵심 30개 단어에 가끔 출현하지만, 주제 결정에 기여 하지 않으며 빈도수가 상대적으로 적은(약 3∼4개 이하) 단어들을 제거한다. 예를 들면 다음과 같다;
tendency, progressive, grip, nausea, brain, overload, satisfactory, double, seoul 등
-
∙ 어간(stemming)과 표제어추출(lemmatization): 본 연구에서 어간과 표제어추출은 해당이 없어 생략 하였다. 예를 들면 “organized”의 어간은 “organ”, 표 제어는 “organize”가 되는데 모든 단어에 어간과 표 제어를 생성하면 기존의 단어와 중복되어 오히려 주 제 결정에 혼란을 일으키므로 생략한다. 그러나 분 석 결과, 제시되는 단어들의 조합에서 같은 단어의 단수와 복수형태가 나타나는 것을 방지하기 위하여 정제화(cleaning)한다. 예를 들면 “decisions”을 “decision” 으로 변환한다.
실제 알고리즘 실행 후에도 주제 결정에 방해되는 무의 미한 단어들의 조합이 반복적으로 나타나는 상황이 발생 할 수 있으므로 전처리 과정은 알고리즘 실행과 함께 충분 히 반복하여 완성한다. 참고로 코퍼스의 단어들에 대한 bar chart를 작성하고 빈도를 확인하여 제거할 단어를 판단 할 수 있다. 전처리 과정이 모두 끝나면 코퍼스 단어들의 word cloud를 작성하여 전체 단어들의 구성을 확인할 수 있다.
3.5 토픽모델링과 시각화
오픈소스 기반의 웹 애플리케이션인 쥬피터 노트북(Jupyter Notebook version 6.0.1)에서 파이썬(python 3.7.4)언어로 토픽모델링을 한다. 쥬피터 노트북의 강점은 코드 작성과 실행 결과를 즉시 확인할 수 있는 상호작용(interactive)기 능과 결과에 대한 시각화가 매우 편리하기 때문이다. 전처 리가 완성된 코퍼스를 입력 자료로 사용하여 2절에서 살 펴본 LSA, HDP, LDA, LDA Mallet(Mallet으로 실행한 LDA) 알고리즘을 실행한다.
시각화에 가장 많이 활용되고, 토픽과 토픽의 구성 단어들 을 쉽게 파악할 수 있는 pyLDAvis는 오픈소스의 파이썬 라이브러리로서 쥬피터 노트북에서 LDA 분석 결과를 보여 주는 도구이다[41]. 그 밖에 각 토픽의 단어와 토픽을 각각 행과 열로 구성한 표를 제시하고, 주제에 속한 단어의 중요도 를 다양한 원의 크기로 나타내는 Termite가 있다[10].
토픽모델링 분석 결과로부터 나오는 단어들의 조합은 결정적(deterministic)이 아니라, 통계적 모형에 근거한 확 률적(stochastic) 계산의 결과이므로 주제를 정확히 결정하 기 위해서는 산업공학 변화의 흐름에 대하여 경륜을 가진 전문가의 지식과 경험이 필수적이다[31].
4. 토픽모델링
4.1 게재 논문의 현황
22년간 수집한 논문의 연도별 현황을 <Figure 2>에 선 그래프로 작성하였다. 그림에서 점선과 숫자는 학회 홈페 이지에서 수집한 연도별 게재 논문 수로서 총 971편을 의 미한다.
총 971편 가운데 초록이 없는 논문과 csv 파일로 파일변 환이 불가능한 논문을 제외한 총 868편의 논문은 실선과 숫자로 나타내었다. 파일변환과정에서 깨짐 현상이 발생 한 문자들을 모두 수정하였고, 토픽모델링을 위한 코퍼스 의 입력 자료로 논문 제목과 초록을 사용하였다.
1978년부터 1993년까지는 연 1∼2회 논문을 출간하여 논문 편수가 적은 편이지만 점진적으로 증가하고 있고, 1994년부터는 연 4∼5회 출간함에 따라 논문 편수가 급격 히 증가함을 볼 수 있다. 22년간 게재 논문 편수는 전체적 으로 증가추세에 있음을 알 수 있다.
4.2 탐색적 자료 분석
868편의 논문 제목과 초록을 구성하는 문장, 단어, 문자 개수의 구체적인 분포를 알기 위하여 <Figure 3>과 <Figure 4>와 같은 바이올린 플롯(violin plot)으로 제시하 였다. 바이올린 플롯은 상자 그림(box plot)과 비교할 때 자료 전체 분포를 확률밀도 형태로 보여줌으로써 최빈값 을 포함하여 자료들이 몰려있는 봉우리의 위치와 각 자료 들의 흩어진 상태를 쉽게 확인할 수 있다. <Figure 3>과 <Figure 4>에서 수평으로 보이는 세 개의 선분은 각각 최 대값, 평균값, 최소값을 나타낸다.
<Figure 3>의 (a)는 논문 제목을 구성하는 단어(vocabulary) 개수의 분포로서 평균 단어의 수는 약 14개이고, (b) 는 제목을 구성하는 단어들의 문자(character) 개수의 분포 로서 봉우리가 2개이고 평균 문자의 수는 약 6개임을 보여 준다. <Figure 4>의 (a)는 논문 초록을 구성하는 문장 (sentence) 개수의 분포로서 각 논문의 초록에 포함된 평균 문장의 수는 약 6개이고, (b)는 논문 초록을 구성하는 단어 (vocabulary) 개수의 분포로서 각 논문의 초록을 구성하는 평균 단어의 수는 약 143개임을 알 수 있다.
전처리가 완료된 코퍼스내 단어들을 word cloud로 시각 화함으로써 주제 분석에 활용될 단어들을 사전에 확인할 수 있다. <Figure 5>의 (a)와 (b)는 각각 논문 제목과 초록 에 대하여 전처리 과정을 마친 코퍼스내의 471개, 957개 단어로 생성된 word cloud의 형상이다. 그림에 나타난 단 어의 크기는 코퍼스내 단어의 출현 빈도에 비례한다.
논문 제목의 코퍼스에서 가장 많이 나타난 상위 5개 단 어는 quality(58개), algorithm(54개), production(44개), scheduling(41개), cost(41개)임을 <Figure 5>의 (a)에서 확 인할 수 있고, 논문 초록의 코퍼스에서 가장 많이 나타난 상위 5개 단어는 cost(435개), quality(320개), algorithm(284 개), product(234개), production(227개)임을 그림 (b)에서 볼 수 있다.
<Figure 5>의 (a)와 (b)로부터 단어와 크기와 색상이 서 로 상이하기 때문에 육안으로 각 단어들을 대조하여 비교 하는 것은 어렵지만, 크게 보이는 일부 단어들을 살펴볼 때 두 word cloud안에서 동일한 단어들이 동시에 나타나 는 것을 확인할 수 있다.
4.3 주제의 개수 및 의미 결정 시 고려사항
전처리 다음으로 중요한 과정은 주제의 개수와 의미를 결정하는 문제이다. 이때 고려해야 할 기준을 우선순위에 따라 열거하면 다음과 같다:
-
① 대한산업공학회, 한국경영과학회, 한국연구재단 학 술연구의 아래의 분류기준에 따라 결정한다; 확률/통계분야, 품질/신뢰성/품질경영분야, 최적화/ 휴리스틱스분야, 생산/물류/재고분야, 인간/안전/인 지공학분야, 컴퓨터/ICT분야, 경영공학/금융공학/경 제성공학분야, 기술경영/서비스경영/R&D분야, 4차 산업혁명/인공지능관련분야, 산업/공공/국방분야, 기 타 응용분야 등
-
② 한 주제의 핵심단어들이 여러 주제에 출현할 때 중 첩되는 단어가 최소가 되도록 결정한다; 주제 개수가 작으면 각 분야의 키워드들이 한 주제 에 몰려서 나타나고, 주제 개수가 많으면 한 주제의 주요 키워드가 의미 없는 단어와 함께 여러 주제에 나타날 수 있다.
-
③ LDA분석의 경우 pyLDAvis 시각화 결과에서 각 주 제를 의미하는 여러 개의 원들의 중첩이 최소가 되 도록 결정한다.
-
④ 토픽모델링 결과, 평가 측도를 참고하여 결정한다;
그러나 여러 토픽모델링 실험 결과, 위 측도들의 계산 결과 값들이 좋게 나오더라도 반드시 주제 개수와 의미부여 시 바람직한 결과를 주는 것이 아니므로 휴리스틱 접근법이 필요하다[2, 43].
따라서 학회의 분류 기준을 충분히 만족하도록 주제 개 수를 5∼15개로 정하고, 2.3절의 학술분야의 활용에서 주 제를 결정하는 단어의 수를 통상 상위 5개 이상을 취하므 로 본 연구에서는 상위 10개로 결정하였다. 여러 차례 알 고리즘을 수행하고 비교한 결과, 주제의 개수가 8개 일 때 가장 적절하게 주제를 표현할 수 있었다. 2절로부터 LDA 가 가장 바람직하다고 알려져 있으나 알고리즘 비교를 위 하여 파이썬에서 지원하는 LSA, HDP, LDA, LDA Mallet 의 Gensim 라이브러리를 사용하여 논문 초록과 제목의 코 퍼스에 대하여 분석하였다. 초록의 코퍼스 단어가 957개 로서 제목의 코퍼스 단어 471개 보다 많으므로 먼저 초록 에 대하여 분석하고 제목의 분석 결과와 비교한다.
4.4 초록에 의한 토픽모델링 분석 결과
4.4.1 LSA 분석
LSA 알고리즘은 868편의 문헌을 행, 957개의 단어를 열로 하는 행렬을 특이값분해로써 차원을 축소하여 가중 치가 큰 상위 단어들의 조합으로 주제를 결정하는 과정이 다. 분석 결과 상위 10개 단어로 구성된 8개 주제는 <Table 2>와 같고, Topic 1의 10개 단어들이 다른 Topic에도 나타 나는 경우에는 진하게 표시하였다. 8개 주제에서 공통으 로 중복하여 발견되는 단어들이 지나치게 많으므로 각 주 제에 적절하고 안정된 의미를 부여할 수 없었고, 주제 분 석 방법으로 LSA가 적절하지 않음을 확인할 수 있다.
4.4.2 HDP 분석
HDP는 상위 Dirichlet process와 하위의 Dirichlet process 를 구성하여 동시에 출현확률이 높은 상위의 단어의 조합 으로 주제를 구성하는 방법으로서 분석 결과는 <Table 3> 과 같다.
알고리즘들을 비교할 때 다른 알고리즘에서는 coherence값이 약 0.30∼0.39인 반면, HDP에서는 0.60∼0.69로 매우 큰 값을 보였다. 그리고 LDA 또는 LDA Mallet 분석 에는 잘 나타나지 않았으나 HDP 분석에서는 주제 의미 결정에 매우 구체적인 소수의 단어들이 등장하여 <Table 3>에 진하게 표시하였다. 예를 들면 Topic 1의 capability (품질), Topic 2의 metal(생산/물류), Topic 3의 echelon(생 산/물류), Topic 4의 depreciation(경제성공학), Topic 5의 ks(산업), fortran(컴퓨터/ICT), makespan(생산/물류), Topic 7의 carlo(컴퓨터/ICT), squared(확률/통계), Topic 8의 dea (휴리스틱스), scrap(생산/물류) 등이다.
즉, 주제의 의미를 반영할 수 있는 지나치게 구체적인 소수의 단어들이 주제 의미를 잘 결정할 수 없는 다수의 단어들과 함께 나타나므로, 각 Topic의 주제의 의미를 결 정하기가 어려웠다. 따라서 본 연구의 주제 분석에는 적절 하지 않은 방법으로 판단된다.
4.4.3 LDA와 LDA Mallet 분석
문헌과 주제가 주어질 때 나타날 단어의 확률을 최대로 하는 LDA와 Java 기반의 LDA Mallet으로 분석한 결과를 <Table 4>에 정리하였다. LDA를 비롯한 알고리즘은 확률 적(probabilistic) 모형이므로 알고리즘을 실행할 때마다 출 현단어와 확률이 약간씩 차이가 난다. LDA와 LDA Mallet의 coherence 값은 각각 0.323과 0.356으로 매우 유사하였다.
<Table 4>의 LDA 분석에서 출현확률에 따라 나타난 상위 10개 단어(Top 10 key words)를 주제의 의미를 결정하기 위한 변별력을 갖춘 키워드로 간주하여, 대한산업공학회, 한국경영과학회, 한국연구재단 학술연구의 분류기준에 따 라 단어의 연관성을 충분히 검토하여 주제의 이름(Topic name)을 결정하였다.
<Table 4>의 LDA 분석에서 상위 10개 단어의 출현확률 의 크기에 따라 <Figure 6>에 word cloud를 작성하였다.
파이썬에서 숫자의 연산은 0부터 시작하므로 <Figure 6> 의 Topic 0은 <Table 4>의 Topic 1을 의미한다. 예를 들면, <Table 4>의 Topic 1에서 최상위 단어인 “production”은 <Figure 6>의 Topic 0의 word cloud에서 가장 크게 나타났다. <Figure 7>은 토픽과 토픽의 구성 단어들을 쉽게 파악할 수 있도록 <Table 4>의 LDA결과를 pyLDAvis를 이용하여 시각화한 그림이다. LDA 분석에서 찾은 주제들이 그림 (a) 의 왼편에 보이는 주제거리지도(Intertopic Distance Map)에 8개의 원(Bubble)으로 표시되었다.
원이 클수록 주제의 비율이 크고, 원들이 겹치지 않고 떨어져 있을수록 주제 의미가 서로 상이함을 의미한다. 현 재는 마우스를 그림 (a)의 Bubble 4(<Table 4>의 LDA결과 에서 Topic 1을 의미)에 위치하였으므로 <Table 4>의 Topic 1을 구성하는 10개의 단어를 포함한 상위 30개 단어 (Top-30 Most Salient Term)가 빈도순으로 붉은 색의 Bar chart로 표시된 것을 확인할 수 있다. 이와 같이 마우스를 그림 (a)의 다른 Bubble로 옮기면 주제를 구성하는 30개 단어들이 변화하며 새로운 Bar chart가 작성되는 것을 볼 수 있다.
<Figure 7>의 그림 (b)에서 오른편 가장 위쪽에 있는 단 어 “quality”에 마우스를 위치하면 왼편의 Bubble 2(<Table 4>의 Topic 3)만 크게 나기 때문에 단어 “quality”가 속한 Topic 3의 주제는 “품질”을 반영함을 알 수 있다. 즉, 오른 편의 여러 개의 핵심단어들에 마우스를 이동해 보면 그 단어가 함의하는 주제들이 왼편의 하나 또는 여러 개의 원으로 나타나서 단어와 관련된 주제의 의미를 유추할 수 있다.
<Table 4>의 LDA 분석의 결과에 따라 Topic 1부터 8까 지(파이썬에서는 0부터 7까지) 상위 3개의 단어들만 포함 한 각 주제들을 <Figure 8>에 Bar chart로 작성하였다. Bar chart에 나타난 8개 주제에 의미를 부여하면 생산/물류와 재고(95개, 11%), 신뢰성(81개, 9%)과 품질과 컴퓨터/ICT 와 인간공학/안전(156개, 18%), 확률/통계(115개, 13%), 경 영공학과 산업(104개, 12%), 경제성공학(77개, 9%), 신뢰 성과 확률/통계와 최적화(92개, 11%), 휴리스틱스와 생산/ 물류(148개, 17%)로 요약할 수 있다. 4.3절의 학회 및 학술 연구의 분류 기준에서 산업공학의 주제는 많으나 주제 개 수를 8개로 제한하였으므로 분석 결과, Topic안에 몇 개의 주제가 중복되었다.
여러 차례 LDA 알고리즘을 실행한 결과, 단어의 수를 10개, 주제의 개수를 8개로 하였을 때가 주제 의미를 부여 하기가 가장 적합하였다. 주제의 수를 7개 이하, 9개 이상 으로 했을 때는 특정 주제를 의미하는 핵심단어들이 그 주제와 관련이 적은 평이한 단어들과 함께 여러 주제에 중복 발견되어 학술연구 기준에 적합한 주제를 찾는데 어 려움이 있었다.
<Table 4>의 LDA Mallet의 주제 분석 결과에서 보듯이 Java 기반으로 계산되는 알고리즘일 뿐, LDA 결과와 비교 에서 큰 차이가 없음을 알 수 있다. LDA Mallet은 Jupyter Notebook에 설치도 어려우므로 온라인과 GitHub에서 오 픈소스로 활용할 수 있는 라이브러리가 풍부한 LDA의 활 용을 더 권장한다.
4.5 제목에 의한 LDA와 LDA Mallet 분석 결과
논문 제목의 코퍼스 단어 471개를 사용하여 앞과 같은 방법으로 LDA와 LDA Mallet으로 분석한 결과는 <Table 5>와 같다. LSA와 HDP 분석은 초록의 분석과 유사한 결 과가 나타나서 생략하였다. LDA와 LDA Mallet의 분석에 서 coherence값은 각각 0.625과 0.670으로서 소수점 둘째 자리에서 근소한 차이가 나타났다. 이 값은 논문 초록을 이용하여 분석한 <Table 4>에서 계산된 0.323과 0.356보다 월등히 큰 값이지만 분석 결과 나타나는 상위 10개의 단어 로부터 주제의 의미를 찾는데 특별한 장점을 발견할 수 없었다. 이는 4.3절에서 언급한 coherence값이 크더라도 반드시 바람직한 결과는 아니라는 연구의 내용과 일치하 였다[2, 43].
논문 제목을 활용하여 LDA와 LDA Mallet로 분석한 경 우에도 주제의 수를 7개 이하 또는 9개 이상으로 했을 때 적절한 결과를 얻지 못하였고, 8개일 때 가장 적합한 주제 들을 결정할 수 있었다.
주제 분석의 타당한 근거를 찾기 위하여 868편의 논문 제목을 한 개씩 읽고, 주제를 결정하였다. 그리고 논문 주 제(Topic)의 이름과 논문 편수(Frequency)를 <Table 6>에 정리하였다. 4.4.3절의 논문 초록을 활용하여 LDA와 LDA Mallet으로 분석한 결과인 <Table 4>와 4.5절의 논문 제목 을 활용하여 LDA와 LDA Mallet으로 분석한 결과인 <Table 5>에서 주제의 이름(topic name)이 있는 경우 <Table 6>의 해당 주제에 부호로 표시하였다. 여기서 부호 ●, ◎, ○, ×는 분석 결과, 주제의 이름이 각각 세 번, 두 번, 한 번, 0번 나타났음을 의미한다.
<Table 6>으로부터 본 연구에서 결정한 바와 같이 단어 의 개수를 10개, 주제의 개수를 8개로 정했을 때 토픽모델 링을 위해 사용한 자료가 초록 이든 제목이든 주제 이름을 결정하는데 있어서 큰 영향을 받지 않으며, 사용한 알고리 즘인 LDA와 LDA Mallet에도 큰 영향을 받지 않는 것을 확인할 수 있다.
5. 결 론
5.1 분석 결과의 요약
4절의 토픽모델링에서 논문의 초록과 제목을 주제 분석 을 위한 입력 자료로 사용하여 LSA, HDP, LDA, LDA Mallet으로 분석하였다.
LSA 알고리즘은 첫 번째 주제에 해당하는 10개 단어의 조합이 나머지 주제에 지나치게 많이 중복되어 주제의 의 미를 결정하기가 어려워서 주제 분석에 적절하지 않았다. HDP 알고리즘은 분석 결과의 평가 측도인 coherence 값은 크게 나왔으나, 특정한 주제를 정확하게 반영하는 단어들 이 매우 적게 나타나는 반면, 산업공학에서 언급되는 일반 적인 다수의 단어들과 함께 나타나서 최적의 방법은 아니 라고 판단된다.
<Table 4>와 <Table 5>의 분석 결과를 바탕으로 작성한 <Table 6>으로부터 LDA와 LDA Mallet이 논문 초록 또는 제목을 활용한 토픽모델링에 적합한 방법으로 판단된다. 주제의 정확하고 합리적인 의미를 부여하기 위하여 4.3절 에서 서술한 기존의 산업공학 관련학회와 한국연구재단 학술연구의 11개 기준을 근거로 하였다. 분석 결과 적절하 게 나타난 8개 주제를 요약하면 “생산,물류,재고” / “신뢰 성” / “품질” / “확률,통계” / “경영공학,산업” / “경제성공 학” / “인간,안전,컴퓨터,ICT” / “휴리스틱스,최적화”로 정 리할 수 있었다.
그리고 <Figure 7>의 pyLDAvis는 LDA 분석 결과를 평 가할 수 있는 효용성이 매우 큰 기법임을 확인하였다. <Figure 6>의 주제별 word cloud와 <Figure 8>의 주제별 Bar chart도 토픽모델링의 결과를 요약할 수 있는 적절한 시각화 방법으로 보인다. 그러므로 주제 분석에 적절한 알 고리즘으로 온라인 상에서 오픈소스로 활용할 수 있는 라 이브러리가 풍부한 LDA를 추천한다.
5.2 연구의 의의 및 제한점
본 연구는 그동안 한국산업경영시스템학회지에 게재된 연구 논문들의 주제를 살펴보기 위한 기초 연구로서 학회의 전반기인 78년부터 99년까지 22년간 논문의 초록과 제목을 이용하여 네 개의 토픽모델링 알고리즘을 여러 차례 수행하 고 최종적인 주제 분석 결과를 제시하였다. 특히, LDA 방법 이 여러 논문에서 사용되고 있으나 분석 시작부터 마지막 요약까지 구체적인 절차를 세밀하게 서술한 연구는 찾을 수 없었다. 본 연구를 통하여 토픽모델링의 연구자들이 다 양한 실무 분야에 활용할 수 있으리라 생각된다.
본 연구의 제한점으로는 학회의 전반기 22년간의 주제 분석만 진행하였다. 최근 인공지능을 포함한 4차 산업의 발전에 따라 산업공학 분야도 다양한 학문과 융합하고 있 다. 향후 연구로서 2000년 이후 현재까지 한국산업경영시 스템학회에 게재한 연구 논문도 본 연구에 추가하여 주제 별 추이, 주제별 클러스터링, 활발한 연구 주제와 쇠퇴하 는 연구주제의 변화 등에 관한 종합적인 연구가 진행되어 야 할 것으로 판단한다. 그리고 본 연구에서 추천한 LDA 알고리즘의 파라미터 값, 주제 발견을 위한 단어 조합의 개수, 주제의 개수의 변화를 더욱 정교하게 조절하여 학회 지의 주제 분석을 제시한다면 본 학회지의 위상을 높이는 데 일조해야 할 것으로 사료된다.