1. 서 론
21세기에 들어서면서 빅데이터의 출현과 함께 대용량 데이터의 진보된 분석기술의 필요성과 요구에 대한 수요가 증가되기 시작하였다. 빅데이터의 활용분야는 매우 광범위 하여 자율주행을 목표로 하는 자동차산업, 의료정보를 분석 하여 진단하는 의료산업, 핀테크를 활용한 금융업, 운동선수 기량 향상을 위한 스포츠산업, 불량률 감소 및 시설유지 보수를 위한 제조업 등에 적용할 수 있다[13,22,23].
빅데이터는 크게 정형(structured)자료와 비정형(unstructured) 자료로 분류하고 비정형자료로서는 텍스트, 음성, 영상 자료 등이 포함된다. 특히 텍스트를 분석하는 자연어 처리(Natural Language Processing)의 연구 가운데 문헌들로부터 공통으로 나타나는 주제어들의 조합을 찾고 주제(topic)를 결정하는 분야가 토픽모델링(Topic Modeling)에 속한다[36].
토픽모델링은 언어학, 사회학, 심리학 분야에서 자연어인 단어들의 의미를 인식하는 과정에서 구체적인 연구가 시작되었다[14,25,31]. 초기의 토픽모델링은 선형대수의 특이값 분해(Singular Value Decomposition)와 비음수 행렬 분해(NMF: Non-negative Matrix Factorization)방법을 활용 하여 문헌과 주제어로 구성된 매우 큰 차원의 행렬을 충분한 의미를 갖는 주제어들로 구성된 축소된 차원의 행렬로 분해하여 문헌들의 주제를 결정하였다. 이러한 기법을 각각 잠재 의미 분석(LSA: Latent Semantic Analysis 또는 LSI: Latent Semantic Indexing)과 NMF라고 부른다[10,24].
토픽모델링에 확률적 개념을 도입한 연구도 활발히 진행되었다. 문헌에는 중요한 주제가 있고 그 주제에는 주제를 결정하는 중요한 주제어로 구성된다는 점에 착안하여 문헌과 주제와 주제어들의 관련성을 베이즈정리, 차원축소기법, 군집분석 등의 통계적 방법에 컴퓨팅 기법을 접합 시켜 문헌들이 함의하고 있는 주제를 찾는 방법들이 연구 되고 있다[13]. 이와 같이 토픽모델링으로 발견한 주제들의 관련성을 볼 수 있는 2차원 지도와 유사성을 확인할 수 있는 계층적 군집분석 결과와 주제들의 시간적 변화를 보여주는 다양한 시각화 방법들도 연구되고 있다[18,30].
토픽모델링은 산업공학 분야에도 적용되어 산업공학의 주요 연구주제들을 찾기 위한 노력이 있었다. 우선 국내 산업공학 관련 학회를 살펴보면 산업공학의 주력 연구학회인 대한산업공학회를 비롯하여 한국산업경영시스템학회, 한국경영과학회, 한국품질경영학회, 한국산학기술학회, 대한인간공학회, 한국경영공학회, 군사OR학회 등이 있고 이들 학회에서 발행하는 학술지를 통하여 산업공학 관련 연구가 지속적으로 발전하고 있다. 한편 산업공학관련 국내 최초 학회인 한국공업경영학회는 1965년 법인등록 후 2000년에 한국산업경영시스템학회로 명칭을 변경하였다. 1978년부터 학술지를 발행한 한국산업경영시스템 학회는 1978년부터 2023년 현재까지 45년간 학술지를 출간하였다.
본 소고는 국내에서 가장 오랜 역사를 지닌 한국산업경영시스템학회가 미래 산업공학 연구자들의 참여와 학술연구의 다양화 및 활성화를 추구하기 위하여 토픽모델링을 통하여 본 학회에 게재된 연구논문을 심층적으로 분석하고 학회의 위상을 제고하는데 그 목적이 있다. 학회 역사의 전반기에 해당하는 1978년부터 1999년까지 22년간 논문제목과 초록을 이용한 토픽모델링 연구는 이미 완수하였다[28]. 본 논문은 그 후속 연구로서 2000년 이후 2022년까지 한국산업경영시스템학회에 게재된 논문을 활용하여 주요 연구주제를 발견하고 시각화를 통하여 연구주제들의 관련성과 시간대별 연구주제의 동향을 분석하고자 한다.
논문의 구성은 제2장에서 선행연구와 현재까지 토픽 모델링에 가장 많이 활용되는 잠재 디리클레 할당(LDA: Latent Dirichlet Allocation)과 최신 주목받고 있는 버토픽(BERTopic)에 대하여 상술한다. 제3장에서는 토픽모델링을 위한 연구방법과 절차에 대하여 서술한다. 제4장에 서는 LDA와 버토픽 알고리즘을 적용하여 주제 분석 결과와 시각화 결과를 비교한다. 제5장은 본 연구의 의미와 한계점과 향후 연구 방향에 대하여 서술한다.
2. 이론적 배경
2.1 선행연구
자연어처리에서 시작된 토픽모델링 연구는 문헌정보 분야, 소셜 네트워크 서비스, 디지털콘텐츠, 정보과학분야로 확대되고 있다. 예를 들면 문헌정보 관련 학술지의 주제 분석, 트위터 데이터 분석, 애플리케이션 기반의 상품 및 동영상 추천, 언어모델을 활용한 챗봇 개발까지 이르게 되었다[16,19,21,27,29].
산업공학 분야의 토픽모델링 연구는 2012년에 들어서서 시작되었다. 기초적인 연구사례로서 1969년부터 2012년까지 IIE Transactions의 2,527편 논문에서 10회 이상 출현한 48개 주제어(keywords)를 K-평균군집으로 분석한 결과 ‘품질과 신뢰성공학’, ‘설계와 제조’, ‘운용공학과 분석’, ‘일정계획과 물류’의 4개 군집으로 형성됨을 밝혔다[5]. 산업공학 관련 국내 학술지 연구로서는 2000년부터 12년간 대한산업공학회지, IE Interfaces, 한국산업경영시스템학회지, 한국경영과학회지의 논문 3,875편으로부터 수집한 38개 주제어들의 빈도와 연관성을 분석하였다[6].
산업공학 분야의 체계적인 토픽모델링 연구는 2016년에 등장하였는데 2001년부터 2015년까지 대한산업공회지와 IE Interfaces 1,242편 논문의 영문 제목 및 초록을 LDA 알고리즘으로 분석하여 50개 주제를 도출하였고 최근 많은 관심을 갖는 주제는 ‘기술경영’, ‘금융공학’, ‘데이터 마이닝’, ‘지도학습’, ‘효율성 분석’임을 확인하였다[17]. 같은 해인 2016년에 2004년부터 2015년까지 8개 산업공학 관련 학술지(Industrial Engineering & Management Systems, 대한산업공학회지, IE Interfaces, 한국SCM학회지, 한국경영공학회지, 지능정보연구, 한국산업경영시스템학회지, 한국품질경영학회지)에 게재된 3,251편의 토픽모델링 연구에서 20개 주제를 도출하였다. 특히, ‘기업성과’, ‘텍스트마이닝’, ‘데이터마이닝’, ‘금융공학’, ‘헬스 케어’, ‘의사결정 시스템’ 의 주제는 주목받는 연구 분야임을 보였다[20].
품질분야의 토픽모델링 연구에서는 2018년에 국제학술지인 The International Journal of Quality & Reliability Management, The TQM Journal, Total Quality Management & Business Excellence로부터 1990년부터 2014년까지 4,412 편의 논문 초록을 군집분석 한 결과 6개 주요 연구주제로서 ‘Control’, ‘Service Quality’, ‘TQM’, ‘ISO’, ‘Innovation’, ‘Customers’로 요약하였다[4]. 국내 품질분야의 연구는 1977년부터 2018년까지 영문초록 주제어들의 빈도분석 결과 최다 출현단어는 ‘process’, ‘system’, ‘model’, ‘service’임을 보였으나 체계를 갖춘 토픽모델링 연구는 현재까지 등장 하지 않고 있다[32]. 제품서비스시스템(PSS: product service system)에 대한 연구에서는 ‘지속가능성을 위한 PSS’는 쇠퇴하는 주제이고 ‘가치공동창조를 위한 PSS 사업모델’, ‘산업 PSS’, ‘PSS 프레임워크와 방법론’은 상승하는 주제임을 보였다[33].
전술한 문헌들을 토픽모델링 분석기법 측면에서 살펴 보면 프로그래밍 언어는 R 또는 Python을 사용하였고 알고리즘은 LDA를 주로 활용하였다. 프로그래밍 수행 대신 Rapid Miner와 같은 토픽모델링 툴을 활용하기도 하였다. 박동준 외 3인[28]은 1978년부터 1999년까지 한국산업경영시스템학회지의 주제 분석을 위하여 Python으로 네 가지 알고리즘 LSA, HDP(Hierarchical Dirichlet Process), LDA, LDA Mallet을 사용하여 토픽모델링하였다. 분석 자료의 유형으로는 영문제목과 영문초록을 각각 사용하였으나 연구결과 자료의 유형에 관계없이 도출된 주제들과 주 제 결정을 위하여 선정된 단어들은 큰 차이가 없었다. 분 석 알고리즘 비교에서는 LSA와 HDP보다는 LDA와 LDA Mallet이 주제 결정에 의미 있는 정확한 단어들을 제시하여 우수한 결과를 보였고 LDA와 LDA Mallet 비교에서는 유의미한 차이를 보이지 않았다.
2.2 LDA와 BERTOPIC
텍스트로 구성된 문헌에 내재된(latent) 주제를 효과적으로 추출하기 위하여 토픽모델링 알고리즘의 지속적인 연구가 있었다. 가장 오래된 LSA 연구에 이어 pLSA, HDP, LDA, NMF가 등장하였고 이들의 단점을 보완하고 의미적 유사성이 높은 단어들의 조합으로 주제를 제시하는 Top2Vec과 버토픽이 활용되기 시작했다. 각 알고리즘 에는 장단점이 있으나 최근에 여러 알고리즘 가운데 버토픽이 많은 주목을 받고 있다[1,2,3,8,10,11,15,35].
LDA는 확률분포를 이용하여 인간이 문장을 구성할 때 주제를 결정하고, 주제에 포함될 단어들을 선택하는 과정을 다음과 같이 모형화한다[3]. M 개 문헌의 주제를 찾기 위하여 K개의 토픽을 가정하고 코퍼스에는 N 개의 단어로서 토픽을 결정한다고 가정하자.
여기서 Dir은 디리클레(Dirichlet)분포, Multi는 다항 (multinomial)분포, α와 β는 모수를 의미한다.
그러면 선택된 문헌이 주어졌을 때 출현하는 주제의 확률 P (Zj,t | θj)과 그 문헌과 주제가 주어졌을 때 출현하는 단어의 확률 P (Wj,t | ϕi, Zj,t)을 고려하면 임의로 선택된 한 문헌에서 단어들의 출현 확률은 이들의 결합 확률로서 표현된다:
즉, LDA는 베이즈정리(Bayes’ theorem)와 깁스샘플링 (Gibbs sampling)으로 추정한 이 결합 확률분포의 추정값과 단어들의 조합으로 문헌에 내재된 토픽을 찾는 알고리즘이다. 앞에서 설명한 문헌과 주제와 단어들의 관련성을 확률분포와 함께 그림으로 나타내면 <Figure 1>과 같다.
한편 최근에 가장 주목받는 알고리즘으로 버토픽이 있다[2]. 버토픽은 종합적인 토픽모델링 과정으로서 토픽을 구성하는 단어들을 군집화(clustering)한 다음 가장 가중치가 큰 단어들의 조합으로 구성된 클러스터로서 토픽을 찾는 알고리즘이다. 그리고 토픽모델링을 실행한 다음 간단한 명령문으로서 ‘주제간 거리지도’(intertopic distance map), ‘주제 구성 단어들의 가중치 분포’(bar chart), ‘주제들의 유사도 행렬’, ‘시간별 주제 동향’ 등 시각화를 한 번에 해결할 수 있는 매우 효율적인 알고리즘이다.
버토픽 토픽모델링 과정을 열거하면 우선 주제를 찾으려는 문헌들의 단어를 벡터화하는 임베딩(embedding)을 실행한다. 문헌을 행, 단어를 열로 구성한 행렬은 대부분의 원소가 0인 sparse한 행렬이 되므로 차원을 축소하는 가장 효율적인 알고리즘인 UMAP(Uniform Manifold Approximation and Projection)을 이용한다[9].
축소된 공간의 값들을 단일 연관 클러스터링(single linkage clustering)방법으로 계층구조(hierarchy)를 형성하는 여러 방법들 가운데서 자료들의 밀도(density)에 기반한 클러스터링 알고리즘인 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)으로 클러스터링한다.
마지막으로 클래스 기반 단어빈도-역문서빈도 C-TFIDF( Class-based Term Frequency Inverse Density Frequency)를 이용하여 클러스터 안에서 상대적으로 중요한 단어 들을 찾는다. 여기서 클래스(Class)는 클러스터를 의미하는데 단어빈도는 해당 단어가 특정문헌에 자주 등장하는 비율, 역문서빈도는 전체 문헌에서 특정단어가 나타난 문서의 비율의 역수를 나타낸다. 이 방법은 클러스터들 간의 구분을 명확히 식별하기 위하여 가중치를 계산하는 방 법이다. 클래스의 단어 가중치는 식 (2)와 같이 클래스의 단어 빈도와 클래스 당 단어들의 평균값을 모든 클래스에 있는 단어의 빈도로 나눈 값에 1을 더한 로그 값을 곱한다 [7]:
여기서
-
Wx , c: 클래스 C 안에 있는 단어 X의 가중치
-
tfx ,c: 클래스 C 안에 있는 단어 X의 빈도
-
A : 클래스 당 단어들의 평균값
-
fx : 모든 클래스에 있는 단어 X의 빈도
위의 버토픽의 토픽모델링 단계와 모델설정 후 시각화와 탐색 방법은 <Figure 2>와 같다.
3. 연구방법
3.1 연구개요
토픽모델링은 다음 과정으로 진행하였다. 우선 본 학회의 홈페이지로부터 pdf 형식의 논문을 다운로드하여 Python에 서 읽을 수 있도록 csv(comma separated values)파일로 변환하였다. 쥬피터 노트북(version 6.5.2)에서 Python(version 3.10.9)으로 LDA를 실행하였고 구글 코랩(Google Colab)에 서 Python으로 버토픽을 실행하였다. 알고리즘의 실행 결과 생성된 가중치와 단어들의 조합을 일일이 확인하여 산업공학 분야 전문가(domain expert)들이 주제 이름을 결정하였다. 마지막으로 버토픽의 결과를 시각화하고 탐색 절차를 진행 하였다. 이를 간략히 요약하면 <Figure 3>과 같다.
3.2 전처리(preprocess)
알고리즘 실행 후 출력결과로부터 정확한 주제를 결정 하기 위해서는 필요하다면 N-gram의 단어들을 Unigram화 하고 표제어 추출(lemmatization)과 불용 단어(stop words)를 제거하는 전처리(preprocess) 작업을 정교히 진행하여 입력을 위한 코퍼스(corpus)를 완성한다. 알고리즘 실행 후 같은 단어가 여러 주제에 지나치게 많이 등장하거나 주제와 무관한 단어들이 많이 나타나지 않도록 알고리즘의 파라메터를 조정한다. 분석 결과로부터 나오는 단어들의 조합은 확률적(stochastic) 결과이므로 전처리, 파라메터 조절, 알고리즘을 반복 실행하여 명확한 주제를 찾는다. 전 처리 과정을 서술하면 다음과 같다.
1) 단어의 Unigram화:
N-gram이란 ‘N개의 연속단어들의 나열’을 의미한다. Bigram 또는 Trigram(2개 또는 3개의 연속단어)의 Unigram (1개 단어)화가 반드시 필요한 것은 아니지만 2개 또는 3개의 연속단어들이 하나의 주제를 함의하는 경우에는 Unigram화 하면 정확한 주제결정에 기여할 수 있다. 만약 Unigram화 하지 않을 경우에는 Bigram 또는 Trigram일 때 의미를 갖는 단어들이 각각의 단어로 분리되고 알고리즘 실행 후 여러 주제에 흩어져 나타나서 주제이름의 결정에 장애가 될 수 있다. 불필요 문자 제거 시 의미 있는 단어의 손실을 막고 주제결정이 훨씬 용이하도록 Unigram한 단어들의 일부를 <Table 1>에 제시하였다.
2) 표제어 추출(lemmatization)
표제어 추출은 ‘기본 사전형 단어’를 찾는 것을 의미한다. Python 작업 시 자연어처리(NLTK: Natural Language Toolkit) library 가운데 하나인 WordNetLemmatizer를 import하여 실행하면 명사의 경우 ‘복수’에서 ‘단수’로 변화 시킬 수 있으므로 유용하게 사용할 수 있다. 예를 들면 ‘factors’가 ‘factor’, ‘differences’가 ‘difference’로 수정된다.
3) 불필요한 구두점, 부호, 문자제거
. , : ; / ‘ ’ ′ & % < > ( ) [ ] * _ -
4) 불용단어 제거
논문에서 관용적으로 사용되고 주제결정에 불필요한 단어들을 제거한다. 정관사와 부정관사(a, an, the,...), 명사 (case, approach, method, way, determination, contribution,...), 전치사(under, over, concerning, considering,...), 접속사(and, but,...), 형용사(simple, general, main, same, current,....), 동사 (suggest, develop, perform, conduct, have,...) 등은 주제결정과 무관하므로 제거한다.
그러나 두 개 또는 세 개의 단어가 연속해서 나타날 때 주제의 의미가 명확해지고 각각의 단어로 분리할 경우 자칫 주제의 의미가 상실되는 경우로서 예를 들면 ‘Information Systems’는 ‘infosym’으로 <Table 1>과 같이 축약하여 Unigram화 하였다.
3.3 시각화
오픈소스 라이브러리인 pyLDAvis를 실행하면 LDA를 실행한 후 주제들을 2차원으로 표현할 수 있다. 그리고 주제들의 분포와 각 주제 안에서 차지하는 단어들의 상대적 크기를 확인할 수 있다. 그러나 버토픽은 버토픽의 실행 과정에서 간단한 명령문으로 주제들의 분포를 비롯한 다양한 그래프를 작성할 수 있다.
4. 연구결과
4.1 연구논문 현황
본 학술지는 2000년에 한국산업경영시스템학회지로 개명한 다음 2006년에 한국학술진흥재단 등재지가 되었다. <Figure 4>는 1978년 학술지 발행 이후부터 2022년까지 45년간 게재된 논문의 연도별 현황을 나타내고 등재지가 된 2006년을 붉은색 동그라미로 표현하였다. 2002년에 비로소 모든 논문들이 제목, 초록, 키워드, 연구내용, 참고문헌 등 완전한 논문의 형식을 갖추어 연 4회 발간하게 되었다.
2000년부터 2022년까지 매년 평균 약 76편을 게재하고 있고 2003년에는 다소 논문게재가 부진하였으나 지속적인 성장으로 2012년에는 113편이 게재되었다. 최근 3년간 다소 감소한 측면이 있으나 최근 23년간 게재 논문 수는 연간 약 60∼80편이며 안정된 추세를 보인다. 본 연구에서 는 2000년부터 2022년까지 23년간 발간된 학술지의 1,742 편 논문에 대하여 토픽모델링을 실행하려고 한다.
4.2 LDA와 BERTOPIC의 튜닝과 주제 개수의 결정
LDA와 버토픽을 실행할 때 알고리즘의 파라메터를 조절하고 토픽모델링을 위한 주제의 개수를 사전에 결정하면 보다 정확한 주제를 결정할 수 있다. 이를 위한 구체적인 방법을 살펴본다.
1) LDA의 파라메터 조절
Gensim LDA는 오픈소스 Python 라이브러리 가운데 구글링을 통하여 많은 예제를 찾아볼 수 있다는 장점이 있다 [12]. 이를 참고하여 Gensim의 LDA안에서 유의미한 주제를 찾기 위하여 다음의 파라메터를 고려하였다:
본 연구에서는 1,742편의 논문이 있으므로 학습에 필요한 논문의 수인 chunksize를 전체의 1/2인 871개, passes를 2회, iterations는 10회 반복시켜 주제를 찾는 결합확률분포에 수렴하도록 하였다.
2) BERTopic의 파라메터 조절
버토픽을 처음 실행하면 주제에 정확하게 속하지 않는 많은 outliers들이 생성된다[10]. 버토픽의 매뉴얼에 따르면 outliers를 감소시키는 대표적인 네 가지 전략으로 ‘토픽-문헌의 확률’, ‘근사 분포’, ‘c-tf-idf’, ‘embeddings’와 이 외에 몇 가지 방법을 제시한다. 여기서 ‘토픽-문헌의 확률’ 은 2.2절에서 소개한 HDBSCAN으로 soft-clustering을 사용하여 outliers에 속한 각각의 문헌을 버토픽이 학습하여 찾은 주제의 의미와 가장 일치하는 주제에 할당하는 방법이다. 위의 네 가지 방법을 모두 실행하였으나 ‘토픽-문헌의 확률’ 방법으로 찾은 주제 구성 단어들이 주제의미를 추론하는데 가장 적합한 토픽모델링 결과를 제시하여 이 방법을 선택하였다.
3) 주제 일관성(topic coherence) 측도의 활용
도출된 주제에 속한 상위단어들이 의미론적(semantic) 으로 일관성이 있는가를 보여주는 측도로서 주제를 구성하는 단어들의 코사인 유사도(cosine similarity)를 계산하는 C_v 값을 일반적으로 많이 사용한다[26,34]. 이 값은 0과 1사이 값을 가지며 1에 가까울수록 주제에 속한 단어들이 일관성이 있음을 의미한다.
산업공학 관련 학술지의 토픽모델링 선행연구에서 최소 20개부터 최대 50개까지 주제를 도출하였다[17,20]. 그리고 버토픽을 최초 실행한 경우 outliers를 포함하여 최대 38개까지 주제를 찾았기 때문에 주제의 개수를 최소 20개 부터 최대 40까지 범위로 정하고 LDA와 버토픽을 실행하여 C_v값을 계산하여 그 결과를 <Figure 5>에 제시하였다. 연구에 의하면 0.55 이상인 C_v 값이 나오는 경우 주제의 일관성 측도가 대체로 양호한 것으로 나타났다[34].
<Figure 5>에서 두 알고리즘이 전 구간에서 모두 0.57 이상의 값을 보이는 것을 알 수 있다. LDA는 전체적으로 0.6 전후에 가까운 값을 보이는 반면 버토픽은 주제 개수 가 20인 경우 약 0.63에서 하락하여 주제가 38개 이상 경우에는 0.57로 최소가 되었다. 버토픽의 C_v 값이 감소하는 주된 이유는 HDBSCAN을 실행하여 클러스터를 세분화하기 때문으로 판단된다. 따라서 0.57로 최소가 되기 전 마지막으로 정점을 보이는 C_v 값에 해당하는 36개를 주제 개수로 결정하고 두 알고리즘의 실행결과를 비교한다.
4.3 LDA 분석 결과
<Figure 5>와 같이 주제 개수를 36개로 결정하고 LDA를 실행한 결과를 8개 주제를 <Table 2>에 제시하였다. 표에서 괄호 안의 숫자와 번호는 주제의 번호, 그 주제를 의 미하는 가중치와 핵심단어들의 조합을 의미한다. 주제의 번호는 랜덤으로 추출하는 대신 4 또는 5 또는 6의 간격으로 추출하였다(systematic sampling). 이것은 4.4.1절의 버토픽의 결과와 대조해 볼 때 LDA 결과가 주제 이름을 결정하기 어려운 주제들을 많이 제시하고 또한 지면의 제한으로 LDA의 결과로 나타난 36개 주제를 모두 제시하는 대신 샘플링한 8개의 주제만 <Table 2>에 제시하였다.
<Figure 6> (a)는 pyLDAvis로 작성한 주제간 거리지도 이다. 그림 왼편에 36개 주제들이 논문에서 차지하는 비율에 따라 서로 다른 크기의 원으로 나타났고 2차원 평면에 골고루 산포되어 있음을 볼 수 있다. 왼편의 빨간색 Bubble 1에 마우스를 놓으면 Bubble 1을 구성하는 핵심단어들이 빨간색 막대그래프로 나타난다. 이 핵심단어들의 조합은 <Table 2>의 (주제 21)과 일치한다. 다른 주제들도 같은 방법으로 주제를 구성하는 핵심단어들을 탐색할 수 있다.
<Figure 6> (b)의 오른편 위에서 두 번째 단어인 ‘smallmedsized’에 마우스를 놓으면 그 단어를 포함하는 Bubble들이 각 주제에서 그 단어가 차지하는 비율에 따라 크기가 다르게 나타난다. 예를 들어 <Figure 6> (c)의 오른 편 위에서 첫 번째 단어인 ‘service’에 마우스를 놓으면 ‘service’를 포함하는 여러 개의 주제들이 나타나고 Bubble 13이 가장 크게 나타난다. 이 결과는 <Table 2>의 (주제 0)에 해당한다. 그리고 ‘service’가 여러 주제에 중복되어 나타나는 것을 확인할 수 있다.
<Table 2>에 각 주제별로 가중치가 큰 상위 10개의 단어를 제시하였고 하위 단어 방향으로 대략 상위 5개 단어 의 의미를 연상하면 주제 이름을 추론할 수 있다. 표에서 주제 이름과 연관성이 큰 상위 단어들을 진하게 표시하였고 주제 이름을 추론하여 다음과 같이 결정하였다. (주제 0)은 ‘Service Science’, (주제 11)은 ‘Clustering’, (주제 21) 은 ‘Business Innovation’, (주제 25)는 ‘Business Strategy’, (주제 31)은 ‘Scheduling’으로 추론할 수 있으나 (주제 5), (주제 15), (주제 35)는 주제를 상징하는 핵심단어들이 한 주제 안에 여러 개가 섞여 있어서 주제 이름 결정이 애매하고 쉽지 않은 것을 확인할 수 있다. 이것은 <Figure 5>에 서 LDA의 일관성 측도가 약 0.59로 상당히 높은 값임에도 불구하고 주제 이름 결정이 쉽지 않다는 것을 입증한다.
4.4 BERTopic 분석 결과
4.4.1 분석 후 주제 이름의 결정
<Figure 2>의 과정에 따라 버토픽을 실행한 결과 각 주제의 상위 5개 핵심단어를 <Table 3>에 제시하였다. 주제 이름은 최근 IEMS, 대한산업공학회지, 한국경과학회지, 한국산업경영시스템학회지, 한국품질경영학회지, IE Interfaces 등의 학술지와 한국연구재단의 학술연구 분류 기준을 참고하여 주제이름을 정하였다.
LDA 실행결과 36개 주제들 가운데서 일부를 추출한 8개 주제의 구성 단어를 제시한 <Table 2>와 버토픽 실행결 과 36개 주제를 모두 제시한 <Table 3>의 비교에서 버토픽 이 주제 이름을 추론하기가 훨씬 쉬운 것을 확인할 수 있다. 예를 들면 4.3절의 마지막 문단에서 <Table 2>의 (주제 5), (주제 15), (주제 35)에 대한 주제 이름의 추론은 모호한 측면이 있으나 <Table 3>의 (Topic 0)의 구성 단어가 scheduling, geneticalgorithm, algorithm, flowshop, parallel 이므로 주제 이름은 ‘Scheduling’으로, (Topic 1)의 구성 단어가 service, servicequal, customer, factor, user이므로 주제 이름을 ‘Service Science’로 추론하는 것이 상대적으로 쉬운 것을 확인할 수 있다. 이러한 결과는 LDA는 문헌과 주제와 단어들의 확률적 관계로 단어를 추출하는 반면 버토픽은 여러 연산 과정을 통하여 일관성이 높은 주제 구성 단어들을 제시하기 때문에 일관성 측도가 LDA보다 약 0.585정도로 약간 낮은 값에도 불구하고 우수한 주제 이름을 결정할 수 있는 토픽모델링 방법임을 입증한다.
4.4.2 주제별 핵심 단어의 분포와 주제간 거리지도
버토픽 실행결과 <Table 3>의 주제번호와 주제별 상위 5개 핵심단어들의 막대그래프는 <Figure 7> (a)와 같다. 36 개의 그래프가 있으나 지면의 제한으로 Topic 0부터 7까지만 제시하였다.
<Figure 7> (a)의 각 막대그래프에 표현된 Topic 번호와 상위 5개 단어들은 <Table 3>의 Topic 번호와 5개 핵심단어와 서로 동일하다. 그림으로부터 막대의 크기로서 단어들이 주제에 차지하는 비중을 짐작할 수 있으나 마우스를 해당 단어에 가져가면 정확한 가중치를 숫자로 확인할 수 있다. LDA에서는 <Table 2>와 같이 각 주제와 주제를 구성하는 단어들과 가중치들의 결합식으로 제시했으나 버토픽에서는 시각화를 통하여 단어들의 가중치를 간편하게 확인할 수 있다는 장점이 있다.
이제는 각 주제들의 관계를 확인할 수 있는 주제별 시각화 방법을 살펴본다. 우선 pyLDAvis와 같은 주제간 거리지도가 <Figure 7> (b)와 같이 2차원으로 작성된다. 36 개의 주제는 각각의 원으로 나타나고 각 원의 크기는 문헌 전체에서 그 주제가 차지하는 비중을 나타낸다. 그림과 같이 마우스를 원에 가져가면 주제의 이름과 주제를 구성하는 상위 5개 단어와 그 주제에 속한 논문 편수를 ‘size’로 확인할 수 있다. 그리고 <Figure 7> (b)의 그림 아래에 Topic번호가 나타난 스케일의 원을 마우스로 잡고 오른쪽으로 이동하면 번호에 해당되는 Topic들이 주제거리지도에서 빨간색으로 나타난다. 버토픽의 주제간 거리지도도 2차원으로 흩어져 나타나는데 각 주제들은 대략 6개의 군집을 형성하며 매우 중첩된 형태를 보여서 pyLDAvis로 작성된 <Figure 6> (a)와 <Figure 7> (b)는 차이가 있음을 볼 수 있다. 이러한 차이는 LDA와 버토픽에서 설정한 주제의 개수는 36개로 같으나 서로 다른 알고리즘으로부터 주제가 생성되었고 주제를 구성하는 단어들도 상이하여 주제 간 거리지도도 다른 양상을 보이는 것으로 판단된다.
4.4.3 주제들의 군집분석과 유사도
버토픽은 이외에도 주제들의 분포와 주제들의 유사도를 나타내는 다양한 시각화 방법을 제공한다. <Figure 8> 은 36개 주제에 대한 ‘계층적 문서와 토픽분포’(hierarchical documents and topics), ‘계층적 군집분석’(hierarchical clustering), ‘유사도 행렬’(similarity matrix)을 각각 나타낸다.
<Figure 8> (a)는 버토픽의 예비적인 토픽모델링 단계로 서 임베딩만 실행한 다음 한 논문이 복수의 클러스터(주제) 에 포함될 수 있도록 소프트 클러스터링한 결과를 2차원으로 제시한 ‘계층적 문서와 토픽분포’를 나타낸다. 버토픽의 모든 토픽모델링 과정을 마친 결과는 <Table 3>과 같이 36개의 주제로 완성되었으나 <Figure 8> (a)에는 Topic 4와 24가 제외되었고 주제 구성 단어들도 약간 차이가 있으며 39개 주제가 제시되었다. <Figure 8> (a)의 ‘계층적 문서와 토픽분포’에서 보이는 39개 주제와 <Table 3>와 36개 주제 는 미세한 차이가 있음을 확인할 수 있다. <Figure 8> (a)의 ‘계층적 문서와 토픽분포’ 오른편에 Topic 14 ‘품질경영시스템’에 해당하는 ‘14_isonine_qms_qm’을 마우스로 더블 클릭하면 Y축 가장 아래쪽에 위치한 품질경영시스템에 해당하는 문서들의 집단인 보라색 점들이 점멸하는 것을 볼 수 있다.
<Figure 8> (b)는 ward연결법으로 36개 주제들의 계층 적 군집분석 결과를 트리구조로 작성한 덴드로그램이다. <Figure 8> (c)는 36개 주제들의 유사도 행렬로서 주제들 의 코사인 거리를 기반으로 작성된 히트맵(heatmap)을 의미한다. <Figure 8> (b)의 가장 위쪽의 군집인 Topic 24와 29의 유사도 점수를 확인하기 위해서 <Figure 8> (c)와 같이 마우스를 Topic 24와 29의 교차점에 놓으면 유사도 점 수 0.66을 확인할 수 있다.
4.4.4 상향주제와 하향주제
버토픽에서는 동적주제모델링(dynamic topic modeling) 을 이용해서 각 주제들이 시간대별로 얼마나 많이 변화하는가를 나타내는 ‘시간별 주제 동향’(topics over time) 그래프를 작성할 수 있다. 연구자들이 많은 관심을 가지고 꾸준한 연구가 계속되어 논문 숫자가 상승추세에 있는 주제를 상향주제(hot topic)이라 부르고 그 반대의 경우를 하향주제(cold topic)이라고 한다.
버토픽에서 작성한 시간별 주제 동향 그래프 가운데 명백한 상향추세와 하향추세를 보이는 주제들을 상향토픽과 하향토픽으로 분류하여 <Figure 9>와 <Figure 10>에 각각 제시하였다. 그림에서 X축은 연도, Y축은 논문의 개수를 의미한다.
<Figure 9>는 상향주제로서 최근까지 논문개수가 등락을 거듭하지만 시간대 전체를 고려할 때 지속적인 상승추세를 갖거나 과거에는 논문이 없으나 최근에 급격하게 논문의 증가추세를 보이는 주제로서 ‘Business Innovation’, ‘Remote Weapon System’, ‘Safety Engineering’, ‘Supply Chain Management’, ‘Deep Learning’, ‘Job Analysis’ 등이 여기에 해당한다. 이들의 주제들은 최근에 각광받는 최신 연구 분야이거나 시사적으로도 많은 관심을 받는 분야로서 버토픽을 통하여 1,742편의 논문에서 상승추세를 갖는 의미 있는 주제를 발견할 수 있었다.
그러나 이와는 반대로 <Figure 10>과 같이 최근에는 연구가 활발히 되지 않고 논문이 계속 감소하는 경향을 보이는 주제로서 ‘Queueing Theory’, ‘Cellular Manufacturing’, ‘Engineering Economics’, ‘Logistics Management’는 하향 토픽으로 드러났다.
5. 결 론
5.1 분석 결과의 요약
이전 연구인 1978년부터 1999년까지 22년의 토픽모델링에서 868편의 논문을 토픽모델링한 결과 전통적인 산업 공학분야인 ‘생산’, ‘신뢰성’, ‘품질’, ‘확률통계’, ‘경영공 학’, ‘경제성공학’, ‘인간 및 안전공학’, ‘최적화’의 8개 분야의 주제로 분류되었다[28].
후속 연구인 본 논문에서는 2000년부터 2022년까지 본 학술지에 게재된 1,742편의 논문 제목을 자료로 활용하고 LDA와 버토픽 알고리즘을 이용하여 토픽모델링을 실행하였다.
보다 정확한 알고리즘의 실행을 위해서 LDA에서는 chunksize, passes, iterations의 값을 조절하였고 버토픽에 서는 최초의 알고리즘 실행에서 기본적으로 발생하는 outliers들을 제거하기 위하여 ‘토픽-문헌의 확률’ 방법을 적용하였다. 그리고 두 알고리즘을 비교하기 위하여 주제의 일관성 측도인 C_v 값을 계산하여 주제개수를 36개로 결정하고 토픽모델링을 하였다.
LDA분석 결과 장점으로는 주제간 거리지도를 보여주는 pyLDAvis를 통하여 36개 주제들이 2차원에 비교적 고르게 분포한 것을 확인할 수 있었고 주제를 구성하는 상위 핵심단어들의 막대그래프를 통하여 단어들의 중요성을 쉽게 확인하였다. 그러나 단점으로는 토픽모델링에서 가장 중요한 부분인 주제 이름의 결정에서 주제를 구성하는 상위 핵심단어들의 조합이 무슨 주제를 의미하는지 버토픽 보다는 확실한 결과를 제시하지 못하였다.
한편 버토픽은 Embedding, UMAP, HDBSCAN, C-TF-IDF 과정을 순차적으로 실행함으로써 주제를 구성 하는 상위 핵심단어들을 LDA보다 훨씬 정확하게 제시하 였다. 그리고 버토픽의 토픽모델링 결과 발견된 36개 주제 들은 본 학술지가 지난 22년간 타 학술지와 비교할 때 손색이 없을 정도로 전통적인 산업공학 분야에 추가하여 인공지능을 포함한 4차 산업 및 국방 분야에 이르기까지 ‘Information Technology’, ‘Data Mining’, ‘Deep Learning’, ‘Supply Chain Management’, ‘Human Factors’, ‘Human Resource Managemnt’, ‘Remote Weapon System’, ‘Project Management’ 등으로 확장되고 있다는 점이다.
그리고 버토픽의 추가적인 장점으로서 시각화의 다양성을 꼽을 수 있다. 주제별 핵심단어의 분포를 보이는 ‘막대그래프’, 주제별 분포를 나타내는 ‘계층적 문서와 토픽 분포’, ‘계층적 군집분석’, ‘유사도 행렬’ 등으로 주제들의 관련성과 유사도를 쉽고도 정확하게 확인할 수 있었다. 또 한 ‘시간별 주제 동향’ 그래프를 통하여 시간의 흐름에 따른 주제변화를 확인하고 상향토픽과 하향토픽으로 분류할 수 있었다. 단지 단점으로서는 주제간 거리지도가 pyLDAvis 보다 지나치게 주제들이 중첩되는 현상을 보인 다는 점이다. 이러한 단점에도 불구하고 향후 토픽모델링 연구자들에게 간단한 명령문으로 다양한 시각화 방법과 정확한 주제 이름 결정이 가능한 버토픽 활용을 제안한다.
5.2 연구의 의의 및 제한점
2016년의 Kim and Jang[20]과 Jeong and Lee[17]의 산업 공학관련 학술지의 토픽모델링 연구에 비하면 2006년에 학술등재지가 된 이후에 본 학술지의 토픽모델링의 연구가 다소 지체된 느낌은 있으나 최근에 주목받기 시작한 버토픽을 실행하여 다양한 시각화 방법을 제시하고 기존에 널리 활용되었던 LDA와 비교했다는 점에서 연구의 의의를 찾을 수 있다. 본 연구에서 제시한 기법들을 참고한 다면 연구자들이 활용하려는 다양한 실무분야에서 토픽모델링을 적용할 수 있으리라 생각된다.
그러나 본 학술지만의 분석에 그친 것이 본 연구의 제한점으로 판단된다. 산업공학 분야의 가장 권위 있는 학술지인 대한산업공학회에서 출간하는 여러 학술지의 논문을 수집하여 분석한 토픽모델링 결과와 본 학술지의 토픽모델링 결과를 비교 대조해본다면 본 학술지의 위상을 확인 할 수 있을 뿐만 아니라 미래 산업공학 연구자들의 본 학회 참여와 학술연구의 다양화 및 활성화에 일조할 것으로 사료된다.