1. 서 론
질병 간의 복잡한 연관성을 이해하는 것은 현대 의학의 핵심 과제 중 하나이다[1]. 한 질병이 다른 질병의 발생과 진행에 미치는 영향을 파악하는 것은[11] 효과적인 진단 과 치료 계획 수립에 필수적이다[4]. 최근 수십 년간 의학 지식이 급속도로 축적되면서[21], 이러한 질병 간 연관성 에 대한 이해도가 크게 증가했다. 그러나 기존의 연구 방 법들은 주로 임상 데이터나 생물학적 메커니즘에 기반한 접근을 취해왔으며, 이는 데이터 수집의 한계와 연구 비용 의 문제로 인해 포괄적인 분석에 제약이 있었다.
최근 대규모 언어 모델(Large Language Models, LLM)[5] 의 발전은 의학 분야에 새로운 가능성을 제시하고 있다[15]. LLM은 방대한 문헌을 학습하여 단어간 잠재적 연관성을 파악할 수 있는 새로운 관점을 제공한다. 특히 LLM의 임베 딩 기술[16]은 질병의 의미론적 특성을 고차원 벡터 공간에 표현[14]할 수 있어, 질병 간의 복잡한 관계를 수치화하고 분석하는데 유용한 도구가 될 수 있다.
본 연구는 LLM 임베딩을 활용하여 질병 네트워크를 구 축하고 분석하는 새로운 방법론을 제시한다. 국제질병분 류(ICD-11)[10] 체계에 등록된 4,489개의 질병을 대상으 로, OpenAI의 text-embedding-3-small 모델[20]을 사용하여 각 질병의 벡터 표현을 생성하였다. 이를 바탕으로 질병 간 유사도[24]를 계산하고 네트워크를 구축하여, 질병 간 의 연관성을 네트워크 과학의 관점에서 분석하였다.
본 연구는 크게 네 가지 목적을 가진다. 첫째, 대규모 언어 모델의 임베딩을 활용하여 질병 간 연관성을 네트워 크로 구축하는 새로운 방법론을 개발하고자 한다. 둘째, 구축된 네트워크를 분석하여 질병들이 형성하는 연관성의 패턴을 발견하고자 한다. 셋째, 네트워크에서 나타나는 질 병의 군집화 특성과 중심성을 분석하여 의학적으로 중요 한 역할을 하는 핵심 질병들을 식별하고자 한다. 마지막으 로, 이러한 분석 결과들이 실제 임상 현장에서 어떻게 활 용될 수 있는지 그 가능성을 탐색하고자 한다.
이러한 접근은 기존의 임상 데이터 기반 분석과는 다른 관점에서 질병 간 연관성을 파악할 수 있게 해준다. 특히 LLM이 포함하고 있는 방대한 지식을 활용함으로써, 직접 적인 임상 연구에서 발견하기 어려운 잠재적 연관성을 발 견할 수 있다는 장점이 있다. 또한 이러한 분석은 새로운 연구 가설 생성, 진단 지원, 치료 계획 수립 등 다양한 임 상 활용 가능성을 제시할 수 있다.
본 논문의 구성은 다음과 같다. 제2장에서는 연구 방법 론을 상세히 설명하고, 제3장에서는 네트워크 분석 결과 를 제시한다. 제4장에서는 분석 결과의 의학적 함의를 논 하고 연구의 한계점 및 향후 연구 방향을 제시한다.
2. 연구 방법
본 연구에서는 질병 간 연관성을 분석하기 위해 대규모 언어 모델의 임베딩을 활용한 네트워크 분석 방법론을 개 발하였다. 본 장에서는 데이터 수집부터 네트워크 분석에 이르는 전체 연구 과정을 기술한다.
2.1 데이터 수집 및 전처리
세계보건기구(WHO)의 국제질병분류 제11판(ICD-11) 을 기반으로 질병 데이터를 수집하였다. ICD-11은 전 세 계적으로 표준화된 질병 분류 체계로, 본 연구에서는 초기 8,827개의 분류 항목 중 실제 질병을 나타내는 항목만을 선별하였다. 구체적으로, category 타입이면서 더 이상 하 위 분류가 없는 leaf-node만을 선택하였고, ‘unspecified’나 ‘other specified’와 같은 비특이적 항목들은 제외하였다. 또한 biomarker, organ, tissue 등 질병이 아닌 항목들도 분 석에서 제외하였다. 이러한 필터링 과정을 통해 최종적으 로 4,489개의 질병을 분석 대상으로 선정하였다.
질병의 벡터 표현을 생성하기 위해 OpenAI의 text-embedding- 3-small 모델을 사용하였다. 이 모델은 입력된 텍 스트를 1,536차원의 벡터 공간에 매핑하는데, 이때 각 차 원은 텍스트의 의미론적 특성을 반영한다. 임베딩 벡터를 생성하기 전, 질병명에 대한 전처리를 수행하였다. 구체적 으로, 텍스트 정규화를 위해 다음과 같은 함수 f를 정의하 였다.
여기서 x는 원본 질병명이며, trim은 앞뒤 공백 제거, remoυe_symbols는 특수 문자 제거, normalize는 연속된 공백을 단일 공백으로 변환하는 함수이다.
2.2 네트워크 구축
임베딩 벡터 간의 유사도는 코사인 유사도를 사용하여 계산하였다. 두 질병 i, j의 임베딩 벡터를 각각 υi, υj라 할 때, 유사도 sij는 다음과 같이 계산된다.
여기서 ·는 벡터의 내적을, ∥υ∥는 벡터 υ의 L2 norm 을 나타낸다. 네트워크 구축을 위해 유사도 행렬 S = [sij] 를 계산하고, 임계값 τ = 0.5를 적용하여 인접행렬 A = [aij] 를 생성하였다.
2.3 네트워크 중심성
이렇게 구축된 네트워크의 분석을 위해 여러 중심성 지 표를 계산하였다. 연결 중심성 CD (υ)는 노드 υ의 연결 정 도를 전체 가능한 연결 수로 정규화한 값으로 다음과 같이 정의된다[8].
여기서 deg(υ)는 노드 υ의 연결 정도이며, N은 전체 노 드의 수이다. 고유 벡터 중심성 CE (υ)는 다음과 같은 고 유값 방정식의 해로 정의된다[18].
여기에서 λ는 가장 큰 고유값이며, A는 인접 행렬이다. 근접 중심성 CC (υ)는 다음과 같이 계산된다[3].
여기서 d(υ, u)는 노드 υ에서 u까지의 최단 경로 길이이 다. 매개 중심성 CB (υ)는 다음과 같이 정의 된다[7].
여기서 σst는 노드 s에서 t까지의 최단 경로의 수이며, σst(υ)는 그 중 노드 υ를 지나는 경로의 수이다. 본 연구에 서는 네트워크의 커뮤니티 구조 탐지를 위해 Louvain 알 고리즘을 활용하였다[2]. Louvain 알고리즘은 네트워크의 모듈성(modularity)을 최적화하는 알고리즘으로, 계산 효 율성이 높고 계층적 구조 파악이 용이하여 대규모 네트워 크에서 효과적인 커뮤니티 탐지 방법으로 널리 사용된다. 모듈성 Q는 다음과 같이 정의된다[17].
여기서 Aij는 노드 i와 j사이의 간선 가중치, ki는 노드 i의 연결 강도(weighted degree), m은 네트워크의 전체 간 선 가중치 합, ci는 노드 i가 속한 커뮤니티를 나타내며, δ는 크로네커 델타 함수로 두 노드가 같은 커뮤니티에 속 할 때 1, 그렇지 않을 때 0의 값을 가진다.
커뮤니티 탐지[6]는 두 단계로 진행된다. 첫 번째 단계 에서는 각 노드를 독립적인 커뮤니티로 초기화 한 후, 이 웃 노드들의 커뮤니티로 이동시켜보며 모듈성의 증가를 측정한다. 모듈성 변화 ΔQ는 다음과 같이 계산된다.
여기서 Σin은 커뮤니티 내부 간선의 가중치 합, Σtot은 커뮤니티와 연결된 모든 간선의 가중치 합, ki,i n은 노드 i 와 목표 커뮤니티 사이의 간선 가중치 합을 나타낸다.
두 번째 단계에서는 첫 단계에서 형성된 커뮤니티들을 하나의 노드로 압축하여 새로운 네트워크를 구성한다. 이 과정은 더 이상의 모듈성 증가가 없을 때까지 반복된다. 최종적으로 도출된 커뮤니티 구조의 통계적 유의성을 평 가하기 위해, 각 커뮤니티 c의 내부 밀도 ρc를 다음과 같이 계산하였다[19].
여기서 |Ec|는 커뮤니티 c내부의 간선 수, |Vc|는 커뮤니 티 c에 속한 노드의 수를 나타낸다. 네트워크의 시각화를 위해 Force-directed 레이아웃 알고리즘[23]을 적용하였다. 이 알고리즘은 노드 간의 물리적 힘을 시뮬레이션하여 노 드의 위치를 결정한다. 노드 간의 반발력 Fr과 간선에 의 한 인력 Fa는 다음과 같이 정의된다[9].
여기서 d는 두 노드 사이의 거리이며, k는 레이아웃 크 기를 조절하는 상수로 으로 설정하였다. area 는 시각화 영역의 크기, N은 전체 노드의 수를 나타낸다.
시각화 과정에서 노드의 크기는 통합 중심성 CI에 비례 하도록 설정하였다. 통합 중심성은 앞서 계산한 네 가지 중심성 지표의 정규화된 값의 평균으로 다음과 같이 계산 된다.
여기서 각각의 중심성 지표 CD ′(υ), CE ′(υ), CC ′(υ), CB ′(υ)는 다음과 같이 정규화되었다.
마지막으로, 네트워크 분석 결과의 통계적 검증을 위해 무작위화 검정(randomization test)[13]을 수행하였다. 관찰 된 네트워크 특성이 우연히 발생할 수 있는 것인지 확인하 기 위해, 동일한 노드와 간선 수를 가지는 무작위 네트워 크 1,000개를 생성하여 비교 분석을 실시하였다.
3. 연구 결과
3.1 네트워크의 전역적 특성
질병 네트워크는 4,489개의 노드와 67,786개의 간선으 로 구성되었다. 네트워크의 기본 특성을 분석한 결과, 평 균 연결 정도는 30.20이며, 전체 네트워크 밀도는 0.0067 로 나타났다. 군집 계수는 0.435로, 일반적인 무작위 네트 워크에 비해 높은 군집화 경향을 보였다. 네트워크는 58개 의 연결 컴포넌트로 구성되어 있으며, 이 중 가장 큰 컴포 넌트가 전체 노드의 92.3%를 포함하고 있다. <Table 1>은 네트워크의 주요 특성을 요약하여 보여준다.
3.2 질병 중심성 분석
중심성 분석 결과, 질병들은 그 특성에 따라 서로 다른 중심성 패턴을 보였다. 통합 중심성이 가장 높은 상위 10 개 질병을 <Table 2>에 제시하였다. 특히 주목할 만한 점 은 정신건강 및 약물 의존성 관련 질병들이 높은 중심성을 가진다는 것이다. ‘Multiple specified psychoactive substances dependence’와 그 아형들이 상위를 차지하였으며, 이는 이러한 질병들이 다른 질병과의 광범위한 연관성을 가지고 있음을 시사한다.
각 중심성 지표 간의 상관관계를 분석한 결과, 연결 중 심성과 고유 벡터 중심성 간에 강한 양의 상관관계 (r = 0.82, p < 0.001)가 관찰되었다. 반면, 매개 중심성은 다른 중심성 지표들과 상대적으로 약한 상관관계를 보였 다(r = 0.31 ∼ 0.45) .
3.3 커뮤니티 구조
Louvain 알고리즘을 통한 커뮤니티 탐지 결과, 30개 이 상의 노드를 포함하는 16개의 대형 커뮤니티가 식별되었 다. 가장 큰 커뮤니티는 665개의 노드를 포함하고 있으며, 주로 피부 및 결합조직 관련 질병들로 구성되어 있다. <Figure 1>은 전체 네트워크의 커뮤니티 구조를 시각화한 것이다.
커뮤니티의 크기와 밀도 사이에는 뚜렷한 반비례 관계 가 관찰되었다(<Figure 2>). 작은 커뮤니티들은 상대적으 로 높은 내부 밀도를 보인 반면, 큰 커뮤니티들은 낮은 내 부 밀도를 나타냈다. 이는 크기가 작은 커뮤니티일수록 구 성 질병들 간의 연관성이 더 긴밀함을 시사한다.
특히 주목할 만한 커뮤니티는 정신건강 관련 질병들로 구성된 Community-33으로, 73개의 노드를 포함하면서도 0.1946의 높은 내부 밀도를 보였다. 이는 정신건강 질병들 이 서로 긴밀하게 연관되어 있으면서도, 다른 질병군들과 는 비교적 독립적인 특성을 가지고 있음을 나타낸다.
3.4 커뮤니티 분석 및 핵심 질병 식별
커뮤니티 간 연결을 분석한 결과, 특정 커뮤니티들이 다 른 커뮤니티들과 더 활발한 상호작용을 보이는 것으로 나 타났다. 면역 관련 질병 커뮤니티(Community-29, 371개 노드)는 다른 커뮤니티들과 가장 많은 연결을 보였다. 커 뮤니티 간 연결 강도 분석에서 전체 간선 중 18.3%가 커뮤 니티 간 연결로 확인되었으며, 이는 질병들이 계통별 구분 을 유지하면서도 다른 계통과의 연관성을 가지고 있음을 의미한다.
통합 중심성과 커뮤니티 구조를 결합하여 분석한 결과, 각 커뮤니티의 핵심 질병들을 식별할 수 있었다. 이러한 핵심 질병들은 자신이 속한 커뮤니티 내에서 높은 연결 중심성을 보였으며, 동시에 다른 커뮤니티와의 연결에서도 중심적 역할을 하는 것으로 분석되었다. <Table 3>은 각 주요 커뮤니티별 핵심 질병과 그 특성을 요약한 것이다.
3.5 네트워크 구조 분석
네트워크의 통계적 특성을 분석한 결과, 군집 계수 (C = 0.435)는 동일한 크기와 밀도를 가진 무작위 네트워 크의 평균 군집 계수(Crand = 0.0067, SD = 0.0003)와 큰 차 이를 보였다(p < 0.001) . 이는 본 연구에서 구축된 네트워 크가 무작위성을 넘어선 구조적 특성을 가지고 있음을 나 타낸다.
임베딩 공간에서 질병 간 관계를 분석한 결과, 코사인 유사도 0.7 이상을 보이는 질병 쌍들은 대부분 같은 해부 학적 위치나 유사한 병리학적 특성을 공유하는 것으로 나 타났다. 이러한 결과는 LLM 임베딩이 질병 간의 의미론 적 관계를 반영할 수 있음을 보여준다. 향후 이러한 관계 성에 대한 임상적 검증이 필요할 것으로 보인다.
4. 결론 및 고찰
본 연구는 대규모 언어 모델의 임베딩을 활용하여 질병 간 연관성을 네트워크 관점에서 분석한 시도로서, 몇 가지 주목할 만한 발견을 제시하였다. 첫째, 질병 네트워크는 높은 군집 계수(0.435)와 상대적으로 낮은 평균 경로 길이 를 보이는 small-world 특성[22]을 나타냈다. 이는 질병들 이 국소적으로 조밀한 군집을 형성하면서도, 서로 다른 군 집 간에도 효율적인 연결 구조를 가지고 있음을 의미한다. 이러한 구조는 한 질병이 다른 질병의 발생이나 진행에 영향을 미치는 과정이 생각보다 더 직접적일 수 있음을 시사한다. 둘째, 정신건강 관련 질병들이 네트워크에서 특 히 높은 중심성을 보였다. ‘Multiple specified psychoactive substances dependence’와 그 아형들이 보인 높은 통합 중 심성은 향후 정신건강 질환과 신체 질환 간의 연관성에 대해 추가적인 연구가 필요함을 시사한다.
커뮤니티 분석을 통해 발견된 질병 군집의 패턴도 흥미 로운 결과를 제공한다. 특히 커뮤니티의 크기와 내부 밀도 간의 뚜렷한 반비례 관계는, 질병의 전문화와 일반화 사이 의 trade-off를 보여준다. 작은 커뮤니티들이 보인 높은 내 부 밀도는 특정 계통이나 기관과 관련된 질병들이 서로 긴밀하게 연관되어 있음을 나타내며, 이는 현재의 의학적 분과 체계가 어느 정도 질병의 자연적 군집화를 반영하고 있음을 시사한다.
그러나 본 연구의 방법론에는 몇 가지 한계점이 존재한 다. 첫째, LLM 임베딩은 텍스트 기반의 의미론적 유사성 을 반영하므로, 질병 간의 실제 생물학적 또는 병리학적 연관성과 차이가 있을 수 있다. 특히 희귀 질병이나 최근 에 발견된 질병의 경우, 학습 데이터의 부족으로 인해 임 베딩의 품질이 상대적으로 낮을 수 있다. 둘째, 임계값 0.5 를 기준으로 한 네트워크 구축 방식은 다소 임의적일 수 있으며, 이 값의 변화에 따라 네트워크의 구조적 특성이 달라질 수 있다.
이러한 한계에도 불구하고, 본 연구는 LLM 임베딩을 활용한 질병 네트워크 분석[25]이 질병 간 연관성 연구에 새로운 접근 방법을 제시했다는 의의를 가진다. 향후 연구 에서는 이 방법론을 더욱 발전시킬 수 있는 여러 방향이 있다. 우선 질병의 시간적 진행 패턴[12]을 고려한 동적 네트워크 분석이 가능할 것이다. 이는 질병의 발생과 진행 과정에서 나타나는 시간적 연관성을 파악하는 데 도움이 될 수 있다. 또한 유전체 데이터나 임상 데이터와 같은 다 양한 데이터 소스를 통합하여 분석의 깊이를 더할 수 있 다. 나아가 질병 간의 방향성을 고려한 인과 네트워크를 구축하거나, 네트워크 특성을 활용한 질병 진행 예측 모델 을 개발하는 등의 연구로 확장 가능하다.
결론적으로, LLM 임베딩 기반의 질병 네트워크 분석은 질병 간 연관성에 대한 새로운 방법론을 제시하였다. 이러 한 접근법은 대규모의 질병 연관성을 효율적으로 탐색하 고 잠재적인 연구 가설을 생성하는데 활용될 수 있다. 본 연구에서 발견된 질병 간 연관성 패턴들은 향후 임상 연구 를 통한 검증이 필요하며, 이를 통해 질병에 대한 포괄적 인 이해와 효과적인 치료 전략 수립에 기여할 수 있을 것 이다.