1. 서 론
유럽연합 집행기관인 유럽연합 집행위원회(European Commission, 이하 EC)는 세계 최초의 포괄적 AI 규제법인 유럽 인공지능법(The European Artificial Intelligence Act, 이하 AI Act)이 2024년 8월 1일 공식 발효되었음을 발표했 다[11]. AI Act의 발효는 인공지능이 적용된 시스템, 서비 스 및 분석 결과가 법적 모니터링 대상이 됨을 의미하며, 이는 인공지능 기술의 발전과 활용이 윤리적이고 책임감 있게 이루어져야 한다는 전 세계적 요구에 부응한 조치로 평가된다. AI Act와 같은 인공지능 법적 규제안은 2010년 대 후반부터[7] 국제적 협력을 통해 점진적으로 발전해왔 으며, 유럽연합은 2024년 3월 유럽 의회에서 AI Act를 채 택한 후 같은 해 5월 유럽연합 이사회에서 이를 최종 승인 하였다[10-11]. 2024년 8월 AI Act 발효 이후, 유럽연합은 AI를 활용하는 글로벌 테크기업과 이해관계자들에게 2026년 8월 2일까지 새로운 제도에 적응할 수 있는 유예 기간을 부여했다[10]. 이는 AI Act의 기준과 규범을 충분 히 이해하고, 연구개발을 통해 이를 준수하기 위한 Best Practice(모범 사례 및 실행 방안)를 마련할 시간을 제공하 기 위함이다.
유럽연합의 AI Act는 민간과 공공을 포함한 대부분의 AI 활용 사례에 법적 효력을 가지며, 법적 제약이 적용되지 않는 영역에 대해서도 AI Act의 기본 틀을 준수할 것을 강력히 권고하고 있다. 미국의 경우, 대통령 행정명령을 통해 AI Act와 유사한 AI Risk Management Framework[26] 문서를 작성하여, 자율규제(Self-Regulatory) 형태로 AI를 활용하는 주체들이 이를 자발적으로 준수하도록 요구하고 있다. 대한민국 역시 미국과 유럽연합 사례를 참고하여 19개 의 법안을 국회에 상정했으며, 2024년 11월 26일 이들 법안을 단일화하여 국회 과학기술방송통신위원회를 통과시켰다 [25]. 이는 대한민국도 AI 제도화를 본격적으로 준비해야 할 시점에 도달했음을 보여주며, 이를 뒷받침하기 위한 연구 개발과 Best Practice 탐색 노력이 필요함을 시사한다.
본 연구의 선행연구 섹션에서는 다음과 같은 순서로 주 요 연구 영역을 설명한다. 첫째, AI 제도화의 틀을 제공하 는 AI Act와 이를 준수하기 위한 세부 사항을 담고 있는 AI Risk Management Framework[15,26,28]의 기본 원리 를 다룬다. 둘째, AI Risk Management Framework를 활용 해 Best Practice를 발굴하고자 하는 대상인 공공 및 대정 부 AI 분석 시스템과 관련된 연구를 소개한다. 이 두 연구 영역의 설명은 본 논문이 다루는 주요 연구 주제가 대정부 AI 분석 시스템이며, 이 시스템에 AI를 적용하기 위한 Best Practice를 발굴하는 데 목적이 있음을 명확히 하는 데 있다.
셋째, 대정부 AI 분석 체계에 AI Risk Management Framework를 적용해 제한적 범위에서 Best Practice를 탐 색했던 선행연구들을 요약하고, 향후 개선점에 대해 논의 한다. 이와 함께, 본 연구는 대정부 AI 분석 시스템을 On-Premise(내부 서버에 시스템을 설치·운영해 보안과 제 어를 용이하게 하는 방식) 기반의 LLM 영역으로 확장하 는 데 기여하기 위해, AI Risk Management Framework의 원리를 적용한 구현 과정을 서술한다.
이후 “3. 연구 방법론” 장에서는 On-Premise 기반의 LLM을 활용해 대정부 AI 분석 시스템을 설계·구성하는 데 사용된 분석 방법론을 상세히 설명한다. “4. 분석결과” 장에서는 NTIS 데이터베이스(NTIS DB)의 양자(quantum) 분야 데이터를 제안된 방법론에 따라 분석하고, 그 타당성 을 검토한다. 마지막으로, 결론 장에서는 연구 결과를 종 합하여 논문의 논의를 마무리한다.
본 논문은 위와 같은 과정을 통해 공공 및 대정부용 AI 분석 시스템의 분석 영역을 LLM을 포함한 체계로 확대하 는 연구를 수행한다. 또한, 이러한 확대 과정이 AI Act에 서 요구하는 객관적인 체계에 부합하며, Best Practice를 발굴하는 데 기여하는 연구로서 의의를 가진다.
2. 선행연구
앞서 언급한 대로, 본 선행연구 섹션에서는 3개의 선행 연구 영역에 대해 설명한다. 첫째, AI Act와 이의 구체적 인 이행 원리를 담고 있는 AI Risk Management Framework를 소개한다. 유럽연합은 AI Act를 통해 세계 최초로 포괄적인 AI 제도화 법[10,11,12]을 발효하기 전 부터, 국제 공조를 통해 AI 제도화와 관련된 다양한 논의 와 연구를 진행해 왔다. 2018년을 전후하여 개발된 유럽연 합의 AI Act는 이후 발표된 OECD[28] 등 국제기구의 AI 제도화 표준 및 가이드라인 문서에 큰 영향을 미쳤다. AI Act와 유관 가이드라인 문서들은 AI의 위험을 등급별로 관리하는 리스크 관리 프레임워크(Risk Management Framework)를 기반으로 한다. AI Act 및 관련 가이드라인 문서들[10,11,12,26,28]은 ISO 31000[15]을 참고해 설계 된 Risk Management Framework를 바탕으로 하며, 국제 공 조와 각국의 필요에 맞춰 조정된 체계로 이해할 수 있다. ISO 31000은 위험 식별, 평가, 관리의 체계를 제공하며, 이는 유럽연합의 AI Act, 미국의 NIST Framework, 독일연 방 후원의 OECD Framework 등 다양한 관리 체계에 영향 을 주었다.
주요 내용을 구체적으로 살펴보면, 유럽연합의 AI High-Level Expert Group(HLEG)은 2018년 AI 제도화의 필 요성과 방법론을 다룬 보고서를 발표하였다[7]. 이 보고서 는 민관 협력과 국제 공조를 통해 Risk Management Framework로 구체화되는 초기 기록 중 하나로, 이후 AI Act의 철학적 기반을 형성하였다. 국제표준화기구(ISO)에 서 제시한 ISO 31000 국제표준은 Risk Management Framework의 원칙을 제공하며, 유럽연합, 미국, 독일 등의 다양한 AI 관리 체계 설계에 중요한 참고자료로 활용되었 다. 2024년 유럽의회를 통과하며 정식 발효된 유럽연합 AI Act는 Risk Management Framework를 기반으로 AI 시스템 의 위험 등급과 규제 방식을 정의하며, 법적 구체성을 갖춘 문서이다[12]. 유럽연합은 글로벌 테크 기업(OpenAI, Google, Amazon, Microsoft 등)과 협력하여 AI Act 준수를 위한 Best Practice를 개발하는 국제 모임을 구성하였고, 이 를 통해 법 발효 후 2~3년의 적응 기간 동안 기술 경쟁력을 확보하도록 유도하고 있다[10]. 2024년 8월 AI Act 발효 이후에는 Risk Management Framework와 각 등급별 대응 체계가 유럽연합 공식 홈페이지를 통해 공개되었다[11].
미국 연방정부는 백악관 행정명령(Executive Order 14110)을 통해 ISO 31000 원칙을 참고한 NIST Framework (Map, Measure, Management)를 개발하였고, 이를 AI Risk Management Framework 실행 지침으로 활용하고 있다[26]. 독일연방의 후원으로 OECD에서 발표된 AI Risk Management Framework 역시 ISO 31000을 참고하여 글로벌 AI 관리 표준화에 기여하고 있다[28].
AI Act에 따르면, AI 시스템은 네 가지 등급으로 분류된 다: 수용 불가능한 위험(Unacceptable Risk), 고위험(High Risk), 제한적 위험(Limited Risk), 최소 위험(Minimal Risk)[10,11,12]. 대부분의 AI 시스템은 제한적 위험과 최 소 위험 범주에 속하며, 이러한 시스템은 문제가 발생할 경우 추적 가능성과 투명성을 확보해야 하는 최소한의 제 도적 제약만을 받는다. 또한, AI Act는 사람이 AI 시스템 의 결과를 검토하고 최종 판단을 내릴 수 있도록 설계된 Human AI Collaboration(이하 HAIC)의 형태를 권장한다. 이는 AI의 분석 결과를 단순히 수용하는 것이 아니라, 사 람이 AI에 의한 결과를 검토하고 필요에 따라 수정할 수 있는 권한을 갖도록 함으로써, AI 활용의 책임성과 투명성 을 강화하려는 목적을 가진다.
위에서 언급된 AI Act와 이를 구현하기 위한 실행 체계 인 AI Risk Management Framework는 <Figure 1>에 요약 되어 있다. AI Risk Management Framework는 위험 식별 (Risk Identification), 위험 평가(Risk Assessment), 위험 관 리(Risk Management)의 세 가지 주요 단계로 구성된다. 위 험 식별 단계에서는 AI 시스템과 관련된 잠재적 위험 요 소를 분석하고 정의하며, 위험 평가 단계에서는 식별된 위 험의 심각도와 발생 가능성을 평가해 우선순위를 설정한 다. 마지막으로, 위험 관리 단계에서는 평가된 위험 요소 에 대해 구체적인 관리 전략을 수립하고 실행한다.
두 번째로 소개할 내용은, 위에서 정리한 AI Risk Management Framework를 활용해 Best Practice를 발굴하 고자 하는 대상인 공공 및 대정부 AI 분석 시스템에 관한 연구들이다. 세계 각국의 정부는 증거에 기반한 정보 분석 시스템을 구축하고 이를 지속적으로 고도화해 왔다. 이러 한 시스템들은 각국 정부의 연구개발 투자, 논문, 특허, 사 업화 성과 등을 포함한 방대한 데이터베이스(DB)를 기반 으로 하며, 이를 통해 증거에 기반한 정책 지원 분석 결과 를 도출하는 데 기여하고 있다.
예를 들어, 유럽연합의 EMI(European Monitor of Industrial Ecosystems) 시스템[9]은 그 전신인 ATI(Advanced Technologies for Industry)[8]와 KETs(Key Enabling Technologies) Observatory[5-6,14]를 포함한 선행 시스템들의 개선과 확장 연구를 통해 발전해왔다. EMI 시스템은 유럽 연합 내 산업 생태계를 모니터링하고, 다양한 기술과 산업 발전 동향을 파악하며, 정책 결정자들에게 유용한 데이터 분석 결과를 제공하는 중요한 역할을 한다.
이와 유사하게, 미국의 STAR METRICS(Science and Technology for America's Reinvestment: Measuring the Effect of Research on Innovation, Competitiveness, and Science) 시스템[16-17]과 대한민국의 R&D PIE(Research and Development Platform for Investment and Evaluation) [29]도 구축되었다. 특히, 한국의 R&D PIE는 OECD가 선 정한 공공 혁신 사례로 주목받았으며, 대한민국 정부의 연 구개발(R&D) 예산 배분을 위한 기초 자료로도 활용되었 다. 이러한 국내외 정부 주도의 연구들은 방대한 국가 DB 를 기반으로 증거에 기반한 정책 지원 시스템을 구축하였 으며, 최근에는 기계 학습과 자연어 처리 같은 AI 기반 분 석 방법론을 융합하여 더욱 정교하고 신뢰성 있는 대정부 분석 시스템으로 진화하고 있다[18-23,30].
세 번째로 소개할 연구 동향은, 앞서 논의한 공공 및 대 정부 분석 체계 연구들 중에서도 AI Act의 Risk Management Framework를 적용한 사례들에 대한 선행 연구들이 다. 해당 연구들[21-23]은 특히 AI를 적용할 때 사용되는 데이터의 질(quality)이 AI 기술에 적합한지 여부를 사전에 평가하는 것이 중요한 고려 사항으로 제시되었으며, 이를 평가하기 위한 다양한 방법론이 제안되었다. 예를 들어, 기계 학습과 자연어 처리와 같은 AI 기술을 적용하기 전 에, 주어진 텍스트 데이터의 분류(label 또는 class)가 기계 학습에 효과적으로 활용될 수 있는지 여부를 Accuracy 혹 은 F1 등으로 수치화하여 평가한 연구가 있다. 특히, 이러 한 연구들은 국내 R&D PIE를 대상으로 한 공공 및 대정 부 AI 분석 체계의 제도화와 관련된 내용을 다루었으며, 선행논문에는 해외 연구 사례도 참고문헌으로 포함하고 있다.
정책 현장의 분석에서 동시출현 네트워크(Co-Occurrence Network)는 증거 기반 정보 분석 방법으로 널리 활용되고 있다. 참고문헌[21]에서는 동시출현 네트워크 분석 기법과 기계 학습 기반 분석 및 해석(eXplainable AI, XAI)을 융합 하여 텍스트 데이터 내 단어 간 연계를 시각적으로 보여주 는 방법론을 제시하였다. 동시출현 네트워크 분석은 데이 터 간의 관계를 이해하는 데 효과적이지만, 내재된 인과관 계를 해석하는 데 한계가 있다. 이를 극복하기 위해, 해당 연구는 동시출현 네트워크를 작성하는 텍스트를 NTIS 텍 스트 정보와 국가과학기술표준분류(6T)로 연결하고, 이를 기계 학습 모델에 학습 및 평가하도록 설계하였다. 또한, XAI를 활용해 기계 학습 모델이 추론 과정에서 상관성이 높은 키워드들 간의 관계를 부각시키는 분석 체계를 개발 하였다. 구체적으로, 동시출현 네트워크의 복잡한 결과를 단순히 나열하는 대신, 기계 학습 모델이 중요하다고 판단 한 6T 분류와 주요 특징(feature)을 추적함으로써 핵심적 인 키워드들 간의 연계를 명확히 시각화하였다. 이러한 접 근은 데이터 간 상관성이 높은 키워드들 간의 관계를 부각 시키며, 분석자가 데이터를 보다 직관적으로 이해할 수 있 도록 지원하였다. 결과적으로, 동시출현 네트워크와 XAI 기반 결과를 융합하여 데이터 간 주요 연계성을 효과적으 로 파악할 수 있는 분석 체계를 제안하였다.
참고문헌[21]의 결과는 참고문헌[22]를 통해 동시출현 네트워크와 기계 학습 기반 분석 및 해석 체계를 다단계 네트워크(Multi-Stage Network) 분석 체계로 확장하였다. 다단계 네트워크는 기존 동시출현 네트워크의 분석 결과 를 더욱 정교화하고, 이를 기계 학습 기반의 학습, 검증, 해석 단계로 연결하였다. 이 과정에서 국가과학기술표준 분류(6T)를 활용하여 기술 키워드와 사업화 키워드 간의 관계를 시각적으로 나타내는 2단계 네트워크 분석(2-Stage Network Analysis)을 도입하였다. 이를 통해 Sankey Diagram을 활용하여 키워드 간의 계층적 관계와 연결성을 시각적으로 명확히 표현할 수 있었다.
참고문헌[23]의 연구는 Lim and Bae[21], Lim et al.[22]의 연구 결과에서 나타난 동시출현 네트워크 및 Bag-of- Words(BOW) 기반 기계 학습 모델의 한계를 보완하기 위 해 보다 진화된 접근 방식을 도입하였다. 첫째, 기존 BOW 모델 대신 텍스트 데이터를 벡터화하는 데 있어 더 높은 품질을 제공할 수 있는 SBERT(Sentence BERT) 모델을 사 용하였다. SBERT는 텍스트 데이터를 문장 단위로 임베딩 하여 보다 고품질의 데이터 벡터화를 가능하게 한다는 장 점을 가진다. 둘째, 텍스트 데이터 분석 과정에서 계층적 토픽 모델링(Hierarchical Topic Modeling)을 적용하고, 키 워드 분석 및 연관 텍스트 분석을 통합적으로 수행할 수 있도록 BERTopic 패키지를 도입하였다. 이는 다양한 분석 작업을 하나의 툴에서 연계하여 수행할 수 있는 효율적인 접근 방식을 제공한다.
주어진 데이터가 AI 기반 분석에 적합한지 여부는 분석 결과의 투명성, 객관성, 그리고 해석 가능성에 큰 영향을 미친다. 이러한 맥락에서, AI를 적용할 데이터의 적합성을 객관적으로 평가하기 위한 리스크 평가(Risk Assessment) 과정이 설정된다. 선행 연구들[21-23]에서는 데이터의 AI 적용 적합성을 기계 학습 모델의 정확도(Accuracy)를 기준으로 측정하였다. 만약 분석할 데이터가 AI 분석 방 법론을 적용하기에 적합하지 않다는 위험이 식별(Risk Identification)되면, 이 위험을 객관적 수치로 평가(Risk Assessment)한 후, 위험 관리(Risk Management) 전략을 수 립하였다. 데이터가 가진 자질이 부족한 경우, 위험 관리 전략을 통해 얼마나 개선되었는지를 측정하기 위해 Accuracy와 F1 점수와 같은 대표적인 성능 지표를 활용하 였다.
3. 연구방법론
본 연구는 앞서 소개한 선행연구들[21-23]에서 사용된 NTIS DB, SBERT, BERTopic 등을 활용한 분석 체계의 연 장선에서, On-Premise 기반의 LLM 분석 체계를 도입하여 그 기능을 확장하는 과정을 연구하였다. 이 연구는 AI Risk Management Framework에서 제시하는 관리 방안을 바탕으로 Best Practice를 발굴하고 구현하는 시도로 진행 되었다. “2. 선행연구” 섹션에서 소개된 연구들 중 아래 내 용을 “3. 연구방법론” 섹션에 정리하였다. 또한, “3. 연구 방법론” 섹션의 주요 내용이 “4. 분석결과” 섹션과 어떻게 연계되는지에 대한 설명도 포함하고 있다.
선행 연구[21]에서는 해양수산부에서 수행한 다년간의 과제 데이터를 NTIS DB의 표준과학기술 6T 분류(IT, BT, NT, ET, ST, CT) 기준에 따라 연도별로 분석한 사례가 있 다. NTIS DB에는 정부가 제공하는 다양한 국가 표준 분류 체계가 존재하지만, 이들 분류체계가 모두 기계 학습에 적 합한 특성을 가지고 있는 것은 아니다. 따라서 이러한 분 류체계를 기계 학습에 적용하기 전, 데이터의 자질을 평가 해야 한다는 점이 강조되었다. 또한, 특정한 분석을 보다 용이하게 하기 위해 기존 분류체계를 보완하는 매개 분류 체계를 생성하거나, 완전히 새로운 분류체계로 대체하는 사례들도 있었다[22].
본 연구는 참고문헌[22]과 같은 환경을 가정하고, AI 기 반 분석 지원 시스템을 구축하는 것을 목표로 한다. NTIS DB에서 “년도”는 연구 예산 및 연구 동향의 진화를 분석 하는 데 활용도가 높은 기준으로, 초기 단계에서는 “년도” 가 적절한 분류 기준으로 사용할 수 있는지를 검토하였다. 만약 “년도”를 기준으로 활용하기 어려운 경우, K-means Clustering을 통해 새로운 매개 라벨을 생성하고, 이를 LLM을 사용해 해석하는 과정을 탐구하였다. 연구 방법론 전체 과정은 <Figure 2>에 요약되어 있다. <Figure 2>에 소개된 절차들은, <Figure 1>에서 제시된 Risk Management Framework의 절차에 따라 다음과 같이 요약할 수 있다. 첫째, Risk Identification 단계는 NTIS DB의 “년도” 정보를 라벨로 사용하여 AI 기반 분석을 수행할 가능성을 검토하 는 과정이다. 이 단계는 데이터가 AI 분석에 적합한지 여 부를 객관적으로 평가하기 위해 설계되었다. 둘째, Risk Assessment 단계는 “년도” 정보를 데이터 라벨로 활용할 수 있는지를 Accuracy 및 F1 점수와 같은 성능 지표를 통 해 기계 학습적으로 평가한다. 이 단계에서는 데이터의 구 조적 자질을 분석하고, 학습 가능성을 검증하는 데 초점을 둔다. 셋째, Risk Management 단계는 수립된 전략을 기반 으로 “년도” 라벨을 직접 적용하기 어려운 경우, K-means Clustering으로 생성된 대안 라벨을 사용하여 분석을 수행 하는 과정이다. 이러한 대안 절차는 AI Risk Management Framework의 원칙에 따라 데이터의 자질을 보완하고, 신 뢰성 높은 분석 결과를 도출하는 데 기여한다.
“3. 연구방법론” 섹션의 내용이 “4. 분석결과” 섹션과 연계되는 과정을 아래와 같이 추가로 설명한다. 첫째, Risk Identification 단계에서는 NTIS DB의 “년도” 정보를 라벨 로 사용하여 AI 기반 분석을 수행할 가능성을 검토하였다. 이 단계는 데이터가 AI 분석에 적합한지 여부를 객관적으 로 평가하기 위해 설계되었다. 둘째, Risk Assessment 단계 는 Risk Identification에서 설정된 “년도” 라벨을 활용하여 데이터가 AI 분석에 적합한지를 성능 지표(Accuracy 및 F1 점수)를 통해 평가하는 과정이다. “4. 분석결과” 섹션의 <Table 1>은 이를 기반으로 AI 모델(XGBoost, LightGBM, CatBoost)을 학습 및 평가한 결과를 요약하고 있다. 단순 히 “년도” 라벨만을 사용한 경우, 그 성능이 가장 우수했 던 CatBoost 모델의 Accuracy가 약 0.15 수준에 머무르는 것으로 확인되었다. 셋째, Risk Management 단계에서는 K-means Clustering을 통해 생성된 라벨을 기존 “년도” 라 벨의 우회적 경로로 활용하여 XGBoost, LightGBM, CatBoost 모델에 학습 및 평가하였다. 생성된 라벨은 데이 터의 구조적 자질을 보완하고, 분석 신뢰성을 높이는 데 기여하였다. 결과는 “4. 분석결과” 섹션의 <Table 2~3>에 요약되어 있으며, 생성된 라벨을 활용한 분석은 기존 “년 도” 라벨만을 사용한 경우보다 Accuracy가 연도별로 1에 가까운 수준으로 크게 개선되었음을 보여준다. 마지막으로, Risk Management 단계에서 생성된 4개의 라벨(Topic_01, Topic_02, Topic_03, Topic_04)을 매개체로 활용하여 매년 데이터를 우회적으로 분석하였다. “4. 분석결과” 섹션의 <Figure 4>는 2023년 데이터를 기반으로 BERTopic의 계 층적 토픽 모델링(hierarchical topic modeling)을 통해 생성 된 라벨 간의 계층적 관계를 시각적으로 보여준다. 이러한 접근은 데이터 분석의 신뢰성을 강화하고, AI Risk Management Framework의 원칙에 따라 대안적인 분석 전 략을 구체화하는 데 기여하였다.
이상 요약하면, <Figure 1>은 연구의 전체적인 Risk Management Framework를 시각적으로 나타내며, <Figure 2>는 이 프레임워크의 실행 절차를 구체적으로 보여준다. 두 다이어그램은 연구 과정에서 데이터의 신뢰성과 분석 체계성을 확보하기 위해 설계된 도구로서, 연구 방법론과 결과 간의 연계를 설명하는 역할을 한다.
3.1 분석 데이터
본 연구에서는 NTIS(National Science & Information Service)[27] 사이트에서 수집한 “양자(quantum)” 관련 연 구개발 투자 데이터를 분석 대상으로 삼았다. 총 8,598개 의 데이터를 2024년 3월 기준으로 수집하였으며, 이 데이 터는 다양한 텍스트 필드를 포함하고 있다. 수집된 데이터 중 “과제명”과 “키워드(한글 및 영문)” 필드를 병합하여, 본 연구에 필요한 텍스트 데이터를 생성하였다. 생성된 텍 스트 데이터는 SBERT 모델[32]을 이용해 768차원의 임베 딩 벡터로 변환되었으며, 이후 BERTopic[2-3]과 같은 자 연어 처리(NLP) 분석 도구를 활용하여 다양한 텍스트 정 보를 추출하는 데 사용되었다.
3.2 지도 기반 기계학습 적용 방법
본 연구에서는 먼저 SBERT를 사용하여 주어진 텍스트 데이터를 워드 임베딩(word embedding)하여 벡터화하였 다. NTIS DB의 국가 과학기술 표준분류체계를 사용하지 않는 상황을 가정하였으며, 이와 같은 조건에서 유일하게 사용할 수 있는 라벨인 “년도(year)” 정보를 기준으로, 이 라벨이 분석에서 객관적인 기준으로 활용될 수 있는지를 우선적으로 검토하였다. 이를 위해 SBERT로 벡터화된 텍 스트 정보와 “년도” 정보를 라벨로 사용하여 XGBoost, LightGBM, CatBoost[1,13,33] 세 가지 지도 기반 기계 학습 모델을 적용해 1차 검증을 수행하였다.
이 세 가지 지도 기반 기계 학습 모델은 현장에서 효율 적인 분석을 지원할 수 있는 장점을 고려해 선정되었다. XGBoost는 다양한 데이터 구조에 대해 높은 정확도로 적 용 가능하며, 복잡한 비선형 관계를 처리하는 데 강점을 보이지만 과적합(Overfitting)의 위험이 있다. LightGBM은 빠른 처리 속도와 적은 메모리 사용량으로 대규모 데이터 셋에 적합하지만, 비선형 관계를 파악하는 데 한계가 있을 수 있으며, 과적합의 위험도 내포한다. CatBoost는 범주형 데이터를 효과적으로 처리하며, 데이터 전처리 과정이 단 순해도 우수한 성능을 발휘할 수 있지만, 고차원 연속형 데이터에서는 성능이 다소 떨어질 가능성이 있다.
세 가지 모델을 동시에 적용함으로써 각각의 모델이 놓 칠 수 있는 데이터 특성을 더 깊이 이해할 수 있으며, 분석 과정에서 누락될 수 있는 패턴을 최소화할 수 있다. 이러 한 다각적 접근 방식은 사전 정보가 부족하거나 복잡한 데이터셋을 다룰 때 유용한 인사이트를 제공하는 데 큰 도움이 된다. 본 연구에서는 세 가지 모델의 성능을 비교 검증하여 보다 합리적인 방법론을 선택하여 적용하였다.
본 연구에서는 XGBoost, LightGBM, CatBoost 모델을 특 별한 하이퍼파라미터 튜닝 없이 디폴트 설정(default settings) 을 사용하여 분석을 수행하였다. 이는 한국어에 특화 된 다국어 SBERT 모델을 활용하여 NTIS 텍스트 데이터를 고품질의 768차원 벡터로 변환하였기 때문이다[32]. 생성된 벡터 데이터의 품질은 XGBoost, LightGBM, CatBoost 모델 을 활용한 학습 및 평가 절차를 통해 검증되었으며, 결과는 “4. 분석결과” 섹션의 <Table 2>에 Accuracy와 F1 점수로 정리하여 제시되었다. 분석 결과, Accuracy와 F1 수치 모두 어느 모델을 사용하더라도 1에 근접한 높은 값을 기록하였 으며, 이로 인해 Hyperparameter Tuning의 필요성이 낮다고 판단하였다. Hyperparameter Tuning은 시간과 계산 비용이 많이 소요되는 프로세스이기 때문에, 본 연구에서는 이를 생략하고 디폴트 설정을 유지하였다.
XGBoost 모델은 디폴트 설정으로 learning_rate 0.3, max_depth 6, min_child_weight 1, subsample 1, colsample_ bytree 1을 사용하였으며, 목표 함수(objective)는 별도 지정이 없을 경우 ‘reg:squarederror’로 설정된다. 관련 세 부 사항은 XGBoost 공식 문서(https://xgboost.readthedocs. io/en/stable/parameter.html)를 참조하였다. LightGBM 모델 은 boosting_type ‘gbdt’, learning_rate 0.1, max_depth -1(제 한 없음), num_leaves 31, min_data_in_leaf 20, feature_ fraction 1.0을 기본값으로 사용하며, 목표 함수(objective) 는 별도 지정이 없을 경우 'regression'으로 설정된다. 해당 설정은 LightGBM 공식 문서(https://lightgbm.readthedocs.io/ en/latest/Parameters.html)에 명시되어 있다. CatBoost 모델 은 iterations 1000, learning_rate이 자동 설정되며, depth 6, l2_leaf_reg 3을 디폴트 설정으로 사용한다. 관련 정보는 CatBoost 공식 문서(https://catboost.ai/docs/en/references/ training-parameters/common)를 참고하였다.
NTIS 분석 자료에서는 과제 수행 연도를 분류 라벨로 사용하였으며, 학습 데이터와 검증 데이터를 8:2 비율로 나누어 학습시켰다. 그러나 “4. 분석결과” 섹션의 <Table 1> 결과에 따르면, 단순히 연도를 기준으로 분류한 데이터 는 기계 학습 분석의 기준으로 사용하기에는 객관적인 분 별력을 충분히 갖추지 못한 것으로 분석되었다. 이에 따 라, “3.3. 비지도 기반 기계학습 적용 방법”에서 K-means 클러스터링 방법을 사용하여 새로운 라벨을 생성하였으 며, 생성된 라벨의 자질을 평가하기 위해 앞서 언급한 세 가지 기계 학습 모델을 동일한 방법으로 적용하였다.
3.3 비지도 기반 기계학습 적용 방법
본 연구에서는 사전 정보 없이 새로운 분류 기준(라벨) 을 생성하기 위해 SBERT를 사용하여 벡터화된 NTIS 문 헌 데이터에 K-means 클러스터링을 적용하였다. 클러스터 의 수(K값)를 적절히 설정하기 위해 Silhouette 계수 최적 화 방법[31,34]을 사용하여 최적의 K값을 도출하였다(“4. 분석결과” 섹션의 <Figure 3>). K-means 클러스터링은 비 지도 학습 알고리즘으로, 데이터를 K개의 클러스터로 그 룹화하는 과정에서 각 데이터 포인트를 가장 가까운 클러 스터 중심(centroid)에 할당하고, 클러스터 중심은 해당 클 러스터에 속하는 데이터 포인트들의 평균 위치로 반복적 으로 업데이트된다. 이 과정은 클러스터 할당에 변화가 없 을 때까지 수행된다.
K-means 클러스터링은 연산 속도가 빠르고 대규모 데 이터를 분석하는 데 유용하지만, K값을 사전에 설정해야 한다는 한계를 가진다. 이를 보완하기 위해 본 연구에서는 Silhouette 계수를 활용하여 클러스터링의 효율성을 최적 화하였다. Silhouette 계수는 클러스터링 품질을 평가하는 지표로, 각 데이터 포인트가 해당 클러스터에 얼마나 잘 속해 있는지를 나타낸다. 이 값은 -1에서 1 사이로 나타나 며, 값이 1에 가까울수록 클러스터링 품질이 높은 것으로 간주된다[31,34]. 본 연구에서는 다양한 K값에 대해 Silhouette 계수를 계산하고, 가장 높은 점수를 얻은 K값을 최적의 클러스터 수로 선정하였다. 이 방법은 클러스터 수 를 결정하는 데 신뢰할 수 있는 기준을 제공하며, 이를 통 해 적정한 토픽 수를 도출하였다(“4. 분석결과” 섹션의 <Figure 3>). 이러한 비지도 학습 기법은 사전 정보가 부족 한 상황에서도 데이터의 패턴과 구조를 효과적으로 분석 하는 기반을 제공한다.
<Figure 3>에서 최종적으로 4개의 클러스터 수를 선택 한 이유는 본 연구의 분석 목적이 정책 현장에서 대분류 수준의 기술군을 모니터링하는 수요를 가정했기 때문이 다. 부처의 데이터 분석 요구를 지원하는 NTIS 과제 데이 터는 하나의 과제에 대해 국가과학기술표준분류의 대분 류, 중분류, 소분류 수준에서 다양한 라벨링이 이루어져 있다. 또한, 하나의 NTIS 과제에는 여러 개의 국가과학기 술표준분류가 매칭될 수 있다. 즉, 하나의 과제에 부여된 라벨의 종류나 특성이 상황에 따라 달라질 수 있지만, 이 는 모순된 결과가 아니며 모두 현실적으로 타당하다고 평 가할 수 있다. 본 연구는 주로 부처의 현장업무 지원을 연 구 배경으로 삼았으며, 부처에서는 사업단 혹은 대분류 기 술군 수준의 접근을 선호하기 때문에 이에 적합한 클러스 터 수를 분석자가 “선택”하였다.
본 연구에서 언급하는 “선택”의 의미는 선행연구 동향 을 바탕으로 설명될 수 있다. 참고문헌[22]에서는 LDA (Latent Dirichlet Allocation)를 사례로 들어, 단순히 perplexity와 같은 최적화 지표만으로는 토픽 모델링에서 적 절한 토픽 수를 결정하는 데 한계가 있음을 지적하였다. 이에 따라 분석자나 연구자의 “선택”이 토픽 수 결정 과정 에서 중요한 역할을 한다는 점이 강조되었다. “선택”이란, 예를 들어 토픽 수가 4개일 때 Accuracy가 0.91, 5개일 때 0.90, 6개일 때 0.89로 분석 결과가 도출된다고 가정할 경 우, 주어진 환경의 요구에 따라 이러한 결과 중 적합한 옵 션을 결정하는 과정을 의미한다. 분석 상황에서 더 세분화 된 분류가 필요할 경우, Accuracy가 약간 낮더라도 토픽 수가 6개인 결과를 선택하는 것이 적합할 수 있다. 반면, 최소한의 분류 기준만 요구되는 상황에서는 Accuracy가 가장 높은 토픽 수 4개의 결과를 선택하는 것이 바람직할 것이다. 따라서 “선택”은 단순히 기계적 또는 수치적으로 최적화된 결과를 추구하는 것이 아니라, 다양한 대안 중에 서 주어진 맥락과 상황에 가장 적합한 결과를 합리적으로 도출하는 과정을 포함한다. 이는 개인적 편향이나 주관성 을 의미하는 것이 아니라, 오히려 상황에 부합하는 합리적 이고 전략적인 결정을 내리는 과정을 의미한다.
참고문헌[22]에서는 이러한 과정을 HAIC(Human-AI Collaboration) 또는 “Human-In-The-Loop”로 언급하며, 이 를 LDA 기반 프로세스로 구현한 연구 사례를 제시하고 있다. 이 과정은 LDA를 통해 도출된 문헌 분석 결과를 전 문가 자문단과 협력하여 합리적인 “선택”을 도출하는 단 계를 포함한다. 필요에 따라 토픽을 병합하거나 분할하는 단계가 추가되며, 전문가의 피드백이 시스템에 반영되어 수정된 결과가 생성된다. 이러한 순환 과정을 통해 LDA 분석 결과와 전문가 의견이 조화롭게 수렴되는 연구 동향 이 소개되었다.
본 연구는 정책 현장의 업무 상황을 가정하여 기계학습 기반의 분석 모듈을 구성하는 데 초점을 맞추었으나, 이 과정에서 한계가 존재함을 밝힌다. 실무나 현장 상황에서 는 자문단과의 협의를 통해 수렴된 “선택”을 해야 할 여러 사항들(예: 분석 토픽 수)을 본 연구에서는 연구자의 “선 택”에 따라 결정하였다. 이러한 한계는 자문단 구성 및 협 의 과정을 포함하지 않았기 때문에 발생한 것이며, 본 논 문의 분석결과가 실제 현장에서의 분석 결과와 차이가 발 생할 가능성이 있음을 밝힌다.
3.4 자연어 분석
NTIS DB를 활용한 자연어 분석은 연도별 데이터의 차이점이나 변화 추이를 파악하는 데 주로 사용된다. 그 러나 “4. 분석결과” 섹션의 <Table 1>에서 확인할 수 있 듯이, 연도별 정보는 분석에 사용될 분류 기준으로 충분 한 자질을 갖추지 못한 것으로 나타났다. 이를 보완하기 위해 본 연구에서는 K-means 클러스터링을 통해 생성된 라벨을 매개체로 활용하여, 연도별 정보를 분석하는 우 회적인 방법론을 적용하였다[22]. 이 방법론을 통해 연도 별 자연어 분석을 수행하였으며, K-means에 의해 생성된 라벨이 연도별 패턴을 기계 학습적으로 감지할 수 있는 지 검증하였다.
먼저, K-means 클러스터링에 의해 생성된 라벨이 전체 데이터에 대해 해석력을 가지는지를 검증하기 위해 기계 학습 방법론을 적용하였다. 이를 위해 전체 데이터를 8:2 비율로 나누어 학습 데이터와 검증 데이터로 사용하였으 며, 앞서 언급된 XGBoost, LightGBM, CatBoost의 세 가지 기계 학습 모델을 활용하여 분류 성능을 분석하였다. 이 과정에서 도출된 결과는 “4. 분석결과” 섹션의 <Table 2> 에 정리되었다. 분석 결과, CatBoost 모델이 정확도 측면에 서 가장 우수한 성능을 보였으며, 이에 따라 CatBoost 모 델을 이후 추가 분석에 사용하였다.
다음으로, K-means로 생성된 라벨을 연도별 데이터 분 석에 적용하여, 이 라벨이 연도별 특성을 파악하는 데 적 합한지를 추가로 검증하였다. 구체적으로, K-means로 생 성된 라벨을 사용하여 2018년부터 2022년까지의 데이터 를 학습 데이터로 삼고, 2023년 데이터를 검증 데이터로 활용하여 연도별 기계 학습의 분류 성능을 평가하였다. 이 러한 방법을 반복적으로 적용하여 각 연도(2019, 2020, 2021, 2022, 2023)의 데이터를 CatBoost 모델로 분석하였 으며, 연도별 분석 패턴을 추가로 검증하였다. 이러한 결 과는 “4. 분석결과” 섹션의 <Table 3>에 요약되어 있다.
본 연구에서는 K-means로 생성된 라벨이 연도별 정보 분석에 적합한지 검증한 이후, BERTopic 패키지를 사용하 여 주어진 연도의 계층적 클러스터링을 수행하였다. 각 연 도에 대해 K-means로 생성된 분류 라벨들이 어떠한 계층 구조를 가지는지, 그리고 각 분류 라벨별로 포함된 핵심어 들을 분석하였다. 2023년의 분류 라벨에 대한 계층 구조는 “4. 분석결과” 섹션의 <Figure 4>에, 개별 분류 라벨별로 추출된 핵심어들은 “4. 분석결과” 섹션의 <Table 4>에 정리 되었다. 본 분석 과정은 BERTopic의 hierarchical_topics() 함수를 사용하여 수행되었으며, 키워드 추출에는 참고문헌 [3]에서 제시된 c-tf-idf 방식을 활용하여 N-gram 키워드(범 위: 2~5)를 도출하였다.
본 연구는 BERTopic의 기본 설정(default)을 유지한 채, 텍스트 필드로 “과제명”과 “키워드”를 활용하여 분석을 진행하였다. 한글과 영문 데이터를 모두 포함하여 다양한 언어적 특징을 반영하였으며, 이를 통해 키워드의 의미적 다양성과 연관성을 강화하고자 하였다. 분석 과정에서는 NTIS DB에서 추출된 주요 키워드 30개를 Llama 3.1 모델 을 활용하여 영어로 재정리한 뒤 추가 분석을 수행하였다. 최종적으로, BERTopic을 통해 도출된 토픽별 키워드는 “4. 분석결과” 섹션의 <Table 4>에 요약되어 있다.
참고로, 본 연구는 BERTopic에서 일반적으로 사용되는 HDBSCAN 및 UMAP을 사용하지 않았다. 이는 정부의 연 구개발 예산 배분 과정을 지원하기 위해 주어진 데이터를 최대한 객관적으로 모니터링할 수 있는 분석 체계를 구축 하려는 목적 때문이다. HDBSCAN은 데이터 분석에서 여 러 장점을 제공하지만, 본 연구에서는 일부 데이터를 노이 즈로 간주하여 누락시키는 경향이 있어 한계가 있었다. 특 히, 중요한 정부 투자 데이터가 분석에서 제외되는 위험이 있을 수 있어 HDBSCAN 대신 대안적인 방법론을 채택하 였다.
이 대안적 방법론은 한국어에 특화된 다국어 SBERT Model[32]을 활용하여 NTIS 텍스트 데이터를 768차원 벡 터로 변환한 후, K-means 클러스터링과 계층적 토픽 모델 링을 결합하는 방식으로 설계되었다. 이 접근 방식은 HDBSCAN과 달리 데이터 누락이 발생하지 않는다는 장 점을 가지며, 분석 과정에서 중요한 정보가 배제되지 않도 록 보장한다. 생성된 벡터 데이터의 품질은 XGBoost, LightGBM, CatBoost Model을 활용한 학습 및 평가 절차 를 통해 검증하였으며, 결과는 “4. 분석결과” 섹션의 <Table 2>에 Accuracy와 F1 점수로 제시되었다. 이러한 대 안적 접근 방식은 HDBSCAN의 한계를 극복하고, 연구의 분석 체계를 보다 객관적이고 신뢰성 있게 구성하기 위한 노력의 일환으로 수행되었다.
3.5 LLM 적용 방법
2023년 정보 분석의 사례로, “4. 분석결과” 섹션의 <Figure 4>는 네 개의 분류 라벨이 가지는 계층 구조를 시 각적으로 보여주며, “4. 분석결과” 섹션의 <Table 4>는 각 분류 라벨에 해당하는 핵심 단어들을 나열하고 있다. 이러 한 유형의 정보는 정책 현장에서 자주 사용되는 분석 방식 이다. 그러나, 개별적이고 분절된 정보를 단순히 나열할 경우, 분석자나 자료 검증을 맡은 전문가 자문단이 정보를 이해하고 활용하는 데 어려움을 겪는 사례가 빈번하다. 이 를 보완하기 위해 본 연구는 서로 연관성을 가지면서도 분절된 정보를 LLM을 활용해 하나의 연속된 텍스트로 재 구성하는 방식을 도입하였다.
이와 같은 분절된 정보를 LLM을 통해 통합하여 재구성 하는 과정을 CoT(Chain of Thought) 방식에 비유할 수 있 다. CoT 방식은 데이터를 순차적으로 연결하고, 연관된 정 보를 체계적으로 정리하는 과정을 포함한다. 이를 활용하 여 연도별로 분리된 자연어 분석 결과를 연결하고 통합된 연도별 정보를 생성하였으며, 그 결과는 “4. 분석결과” 섹 션의 <Table 5>에 요약되었다. 본 연구에서는 논문 지면의 제한을 고려하여 2019년부터 2023년까지의 5개 연도에 대 한 정보를 정리하였다.
또한, “4. 분석결과” 섹션의 <Table 5>에 정리된 5개 년 도에 걸친 네 개의 토픽 요약문을 LLM을 사용해 추가적 으로 분석하였으며, 각 토픽에 대한 2019~2023년 동안의 내용을 다시 요약하여 “4. 분석결과” 섹션의 <Table 6>에 정리하였다. 이 통합 과정에는 Llama 3.1 8B Instruction Model[24]을 사용하였다. 해당 모델은 약 80억 개의 파라 미터를 가진 모델로, 외부 네트워크와의 정보 교환이 필요 없는 On-Premise 환경에서 요약 작업을 수행하였다. On-Premise란 클라우드나 외부 서버가 아닌 연구센터 내 부의 물리적 서버 또는 자체 IT 인프라 환경에서 데이터를 처리하고 관리하는 방식을 의미한다. 이를 통해 외부 네트 워크로의 데이터 유출 가능성을 원천적으로 차단하고, 기 밀 데이터의 보안을 강화할 수 있다. 본 연구에서는 이러 한 On-Premise 환경을 활용하여 LLM 기반 분석의 안전성 과 신뢰성을 강화하는데 기여하였다.
NTIS DB의 일부 데이터 필드는 대외 공개가 제한되 며, 내부적으로도 접근이 제한될 수 있다. 특히, 부처의 연구개발 예산 배분을 지원하기 위한 데이터는 대외비로 관리된다. 이러한 데이터의 기밀성과 보안을 유지하면서 도 분석 작업을 안정적으로 수행하기 위해 본 연구는 On-Premise 환경에서 구동 가능한 Llama 3.1 모델을 선택 하였다. Llama 3.1은 논문 작성 당시 On-Premise 환경에서 활용할 수 있는 최신 LLM 모델로, 기밀 데이터를 외부 네 트워크에 노출시키지 않고 내부적으로 처리할 수 있는 안 전한 환경을 제공하였다. 본 연구에서는 과학기술혁신본 부를 지원한 실제 데이터를 직접적으로 사용하지 않았음 을 명확히 밝혔다. 대신, 연구 방향성과 한계 상황을 재현 하기 위해 구성된 데이터를 활용하였다. 이는 데이터 보안 과 연구 기밀성을 유지하기 위한 학술적 접근으로, 실제 현장 환경과 유사한 맥락에서 분석을 수행하기 위한 목적 이었다.
이 과정에서 사람이 개별 정보를 이해하고 연결하는 데 어려움을 겪을 수 있는 반면, LLM은 분절된 정보를 효과 적으로 처리하고 통합하여 분석할 수 있는 강점을 가진 것으로 판단되었다. 특히, 본 연구에서는 BERTopic 패키 지를 활용하여 중간 산출물을 검증 가능하고 구조화된 형 태로 분할 출력하였다. 이를 통해 AI Act에서 요구하는 데 이터의 투명성과 검증 가능성을 충족시키고자 노력하였 다. 이러한 접근 방식은 데이터 분석 및 해석 과정에서 Chain of Thought(CoT)와 유사한 방식을 채택하여, LLM 을 활용해 정보의 흐름을 자연스럽게 연결하고 통합하는 방법을 제안하였다.
4. 분석 결과
본 연구에서 수행한 년도분석은 정책 현장에서 가장 빈 번하게 요구되는 분석 유형 중 하나로, 특수 문헌의 특성 을 고려하여 년도 정보를 주요 라벨링 요소로 분석하였다. 이를 위해 XGBoost, LightGBM, CatBoost 모델을 활용하 여 학습 및 평가를 8:2의 비율로 수행하였다. 이 과정에서 년도별 정보 간의 패턴을 식별하고, 분석에 필요한 데이터 의 구조적 특성을 확인하는 것이 주된 목표였다.
그러나 “4. 분석결과” 섹션의 <Table 1>에서 확인할 수 있듯이, 년도 정보를 라벨로 사용하여 기계 학습 모델들을 학습한 결과, 유의미한 패턴을 발견하기 어려웠다. 각 모 델의 Accuracy 값은 약 0.15 수준에 머물렀으며, 이는 분석 에 필요한 데이터 자질이 부족함을 나타낸다. 모델별 F1 값은 다음과 같다. XGBoost 모델은 2023년에 0.16, 2022년 에 0.10, 2021년에 0.02, 2020년에 0.01, 2019년에 0.02로 나타났다. LightGBM 모델은 2023년에 0.21, 2022년에 0.09, 2021년에 0.01, 2020년에 0.01, 2019년에 0.03을 기록 하였다. CatBoost 모델은 2023년에 0.26으로 상대적으로 가장 높은 성능을 보였지만, 2022년에는 0.16, 2021년에는 0.02, 2020년에는 0.01, 2019년에는 0.05로 측정되었다.
이러한 결과는 Accuracy와 F1 값을 기준으로 보았을 때, 기계 학습 기반 분석에 활용하기에는 데이터 자질이 부족하다는 점을 분명히 보여준다. 특히, 기존의 “년도” 라벨만을 사용한 분석에서는 충분히 신뢰할 만한 결과를 도출하기 어렵다는 한계를 시사한다. 이는 년도 정보를 단독으로는 분석에 필요한 구조적 패턴을 제공하지 못하 며, 추가적인 라벨링 또는 대체적 분석 방법이 필요함을 의미한다.
따라서, 변별력 있는 분석 기준을 마련하기 위해 우회적 인 방법론으로 NTIS 양자 정보 전체에 대해 K-means 클러 스터링을 적용하였다. 클러스터의 수(K값)는 2에서 10까 지 순차적으로 늘려가며, 각 클러스터 구간에서 Silhouette 계수를 계산하여 가장 적합한 값을 도출하였다. Silhouette 계수는 클러스터링 품질을 평가하는 지표로, 값이 높을수 록 데이터의 분류가 명확하고 내부적으로 응집력이 높은 것으로 평가된다. <Figure 3>에 제시된 결과에 따르면, Silhouette 계수가 높은 구간 중에서도, 적정한 토픽 수와 분석의 실용성을 동시에 고려하여 클러스터 수 4개를 최 종적으로 선택하였다. 클러스터 수를 4개로 설정한 이유 는 Silhouette 계수가 비교적 높으면서도, 정책 현장에서 활용하기 적합한 대분류 수준의 기술군을 포함할 수 있다 는 점을 반영한 것이다. 이와 같은 과정으로 생성된 클러 스터는 이후의 년도별 분석에서 매개 라벨로 활용되었으 며, 각 라벨은 데이터를 보다 체계적으로 분류하고 분석의 신뢰성을 높이는 데 기여하였다.
신규 생성된 4개의 클러스터 라벨의 분류 성능을 평가 하기 위해 기계학습 Model(XGBoost, LightGBM, CatBoost) 을 사용하여 학습과 평가를 8:2의 비율로 진행하였다. 본 분석의 주요 목표는 생성된 라벨을 활용하여 데이터 간 분석 가능한 패턴이 존재하는지를 확인하는 것이었다. <Table 2>에 따르면, 사용된 기계학습 Model(XGBoost, LightGBM, CatBoost)을 통해 분석에 활용할 수 있는 유 의미한 패턴이 존재함을 확인할 수 있었다. 특히, CatBoost Model은 Accuracy 기준 0.98로 가장 높은 성능 을 보이며, 생성된 라벨이 데이터 분류에 효과적임을 입 증하였다. 생성된 신규 라벨은 2019년부터 2022년까지의 데이터를 학습 데이터로 활용하고, 2023년 데이터를 검 증 데이터로 사용하여 년도별 분류 성능을 평가하였다. 이와 동일한 방식으로, 각 년도별 데이터를 개별적으로 분석하여 기계학습을 통해 분석 가능한 패턴이 존재하는 지를 평가하였으며, 그 결과는 <Table 3>에 Accuracy 기 준으로 정리되었다.
이후 분석에서는 <Table 2> <Table 3>에 정리된 Accuracy 값을 기반으로, 가장 우수한 분류 성능을 보인 CatBoost Model의 예측 라벨을 활용하였다. 각 년도별(2019, 2020, 2021, 2022, 2023) 데이터는 K-means 클러스터링으로 생 성된 라벨을 매개로 BERTopic 패키지의 계층적 클러스터 링(hierarchical clustering)을 적용하여 분석되었다. 이 과정 에서 2023년 데이터를 예시로, <Figure 4>에는 계층 구조 를 시각화한 결과를, <Table 4>에는 각 라벨 내 핵심어를 c-tf-idf 기법으로 추출한 결과를 정리하였다.
이와 같은 분석 방식은 2019년부터 2023년까지의 모 든 데이터에 동일하게 적용되었으며, BERTopic을 통해 처리된 텍스트 정보는 테이블 형태로 저장되었다. 저장 된 데이터는 Llama 3.1 Model의 프롬프트에 순차적으로 입력되어, 개별 년도 및 토픽별 의미를 요약하는 데 활용 되었다. Llama 3.1의 요약 결과는 <Table 5>에 정리되었 으며, 이를 기반으로 2019년부터 2023년까지의 Topic 01~04에 대한 통합 요약 결과를 <Table 6>에 추가로 정 리하였다.
Llama 3.1 Model로 해석된 결과에 따르면, Topic_02는 주로 이차원 물질 및 고에너지 물질을 중심으로 양자 재료 의 개발과 그 응용에 초점을 맞추고 있는 것으로 나타났 다. 초기 연구에서는 전이 금속 칼코겐화물과 양자점과 같 은 재료의 특성을 분석하고, 이들의 전자 및 광학적 응용 가능성을 탐구하는 데 중점을 두었다. 2020년대 후반으로 갈수록 연구는 양자 정보 시스템, 에너지 효율성, 지속 가 능성에 대한 기여로 확장되었으며, 2023년에는 양자 컴퓨 팅, 인공지능(AI), 머신러닝(ML) 기술과의 융합으로 진화 한 것으로 파악되었다. 이는 차세대 전자, 에너지, 환경 기 술 개발에 있어 중요한 연구 방향을 제시하고 있다.
Topic_03은 양자 재료의 발전과 양자 정보 및 컴퓨팅 기술에 초점을 둔 연구로, 2019년부터 2023년까지 지속적 으로 발전해 온 것으로 나타났다. 해당 연구는 양자 정보 이론, 양자 컴퓨팅, 머신러닝과의 융합을 포함하며, 특히 2022년부터는 양자점 기반 재료, 양자 컴퓨팅 아키텍처, 양자장 이론과 같은 기술적 발전이 두드러졌다. 이러한 발 전은 에너지, 통신, 운송 분야에서 혁신적인 변화를 이끌 어낼 가능성이 크다. 2023년에는 양자 중력과 양자 얽힘을 활용하여 양자 재료의 거동을 이해하려는 연구가 활발히 진행된 것으로 분석되었다.
Topic_01은 빅데이터, 양자 기술, 그리고 국제 협력을 기반으로 다양한 시스템을 발전시키는 데 중점을 두고 있 다. 특히 건강, 식품, 해양 자원 관리 분야에서의 응용이 주요 관심사로 나타난다. 2019년부터 2023년까지 연구는 초기 단계에서 건강 기능성 식품 및 구강 건강 증진에 초 점을 맞췄으며, 이후 빅데이터와 시스템 통합, 국제 협력, 정보 표준화로 연구 방향이 확장되었다. 2023년에는 해양 자원 관리 시스템 개발이 중요한 연구 주제로 부각되었으 며, 데이터 표준화와 관리 시스템의 개선을 통해 다양한 분야에 실질적인 응용 가능성을 제시하고 있다.
Topic_04는 국제 협력과 양자 기술의 보안 측면에서의 연구를 강조해 왔다. 초기에는 저차원 양자 재료와 기계 학습을 적용한 연구가 주를 이루었으며, 이후 양자 암호화 와 고성능 양자 재료 개발로 연구 범위가 확장되었다. 특 히 2022년부터는 포스트-양자 암호화 기술과 양자 컴퓨팅 관련 소재 개발이 주요 연구 주제로 떠올랐고, 2023년에는 양자 협력과 보안 기술이 국제적으로 더욱 중요한 이슈로 자리 잡았다. 이 연구는 에너지, 통신, 보안 분야에서 새로 운 응용 가능성을 제시하며 중요한 기여를 하고 있다.
이 네 가지 토픽으로 모델링된 결과는 모두 양자 기술 과 재료, 빅데이터, 국제 협력을 바탕으로 다양한 산업과 기술 분야에서 주요한 연구 방향을 제시하고 있다. 특히 건강, 에너지, 정보 보안, 해양 자원 관리와 같은 응용 분 야에서 양자 기술이 의미있는 역할을 수행할 것으로 예 상된다.
5. 결 론
본 연구는 Llama 3.1 Model을 활용하여 NTIS(국가 연구 개발 투자 성과를 담고 있는 정부 데이터베이스)의 양자 데이터를 기반으로 인공지능(AI)을 적용한 문헌 분석 체 계를 구축하는 것을 주요 목표로 하였다. 연구의 핵심은 자연어 처리(NLP) 기법과 대규모 언어 모델(LLM)을 통합 하여 데이터의 연계성과 해석력을 강화하고, 보다 신뢰할 수 있는 분석 결과를 도출하는 데 있다. 이를 위해 NTIS에 서 수집한 양자 관련 데이터를 다양한 NLP 기법과 기계 학습(ML) 방법론을 활용하여 분석을 수행하였으며, 생성 된 초기 라벨의 유효성은 XGBoost, LightGBM, CatBoost 와 같은 지도 학습 기법을 통해 검증되었다.
특히, 본 연구는 BERTopic과 같은 자연어 분석 도구를 사용하여 핵심 키워드와 주요 주제를 추출하고, 이를 Llama 3.1 Model을 통해 재구성하여 분석의 깊이와 정밀 도를 더하였다. LLM을 활용한 분석 결과는 양자 기술과 관련된 다양한 데이터를 맥락에 맞게 이해하고, 복잡한 텍 스트 데이터를 보다 체계적으로 해석하는 데 기여하였다. 이러한 접근은 데이터의 의미적 연결성을 강화하고, 정책 및 연구 개발 현장에서 실질적인 활용 가능성을 높이는 데 의미가 있다.
또한, LLM, NLP, ML 도구들을 연계하여 Chain of Thought(CoT) 개념을 반영한 분석 과정을 설계하였다. 각 단계에서 도출된 분석 결과는 다음 단계의 입력으로 활용 되었으며, 이 과정을 통해 점진적이고 연속적인 사고 확장 을 시도하였다. 이를 통해 더욱 심층적인 분석과 새로운 통찰을 도출할 수 있었다. 예를 들어, NTIS 양자 데이터에 서 도출된 양자 정보 시스템, 에너지 효율성, 국제 협력 등 핵심 주제들은 이러한 연계된 분석 과정을 통해 더 풍 부하고 체계적으로 해석되었다.
본 연구는 AI Act와 같은 제도적 준수 사항들을 충족 시키는 동시에, 정책 결정과 연구 활동에서 AI 기반 분 석의 투명성과 안정성을 확보하는 데 중점을 두었다. Llama 3.1 모델은 기계학습을 통해 생성된 분석 결과를, 사람이 보다 이해하기 용이한 형태로 해석하여 제시하는 데 활용되었다. 이를 통해 AI 기술이 정부의 정책 분석 과정에서 효과적으로 활용될 수 있는 가능성을 제시하였 다. 또한, AI Act 발효 후 주어진 2~3년의 유예 기간 동 안, AI 제도화의 주체들이 요구하는 설명 가능성과 추적 가능성 기준을 충족하면서, 보다 효율적이고 신뢰할 수 있는 Best Practice를 탐색하기 위한 연구로서 의미를 지 닌다. 향후 연구는 NLP, ML, LLM 도구들을 더욱 심화 하고 통합하여 하나의 연계된 분석 시스템을 구축하는 방향으로 진화할 것이다.
다만, 본 연구에서 제안한 AI 기반 분석 프로세스를 통 해 도출된 분석 결과에는 한계가 존재한다. 본 연구의 분 석 과정에서는 일부 결과에 연구자의 “선택”이 반영되었 으나, 실제 분석 현장에서는 AI 시스템이 생성한 결과를 전문가 자문단과의 협의를 통해 보완하거나 수정할 수 있 다. 이러한 협의 과정을 거치면, 동일한 분석 프로세스를 활용하더라도 본 연구에서 도출된 결과보다 완성도가 더 높은 분석 결과를 얻을 수 있다.