1. 서 론
고령화 사회로의 빠른 진입으로 독거 노인들의 댁내 낙상 사고와 이로 인한 중증외상 사망 사례가 증가하고 있으며, 이는 국민 건강과 삶의 질에 심각한 위협을 미치는 요소로 작용하고 있다. 질병관리청 통계에 따르면, 2021년 기준 국내 중증외상 사망자 중 40.5%가 낙상 사고로 인한 것으로 나타났으며, 이는 운수사고(52.1%)에 이어 두 번째로 높은 수치이다[8]. 특히 고령층에서는 낙상이 주요한 사망 원인 중 하나로 자리 잡았으며, 2020년 노인실태조사에서 65세 이상 노인 중 7.2%가 지난 1년간 낙상을 경험했다고 답했고, 이들의 평균 낙상 횟수는 1.6회로 나타났다 [9]. 이러한 낙상 사고는 연령이 높아질수록 더 빈번하게 발생하며, 65~69세는 4.5%, 85세 이상에서는 13.6%로 조 사되었다. 이는 낙상 사고가 고령층과 독거 노인에게 특히 심각한 문제로 작용하고 있음을 보여준다.
낙상 사고 위험성을 증가시키는 주요 요인으로는 고령 인구 비율의 증가, 독거 노인 수의 증가, 만성 질환 증가 및 주거 환경의 열악화 등이 있다. 우리나라의 경우, 2023년 기준으로 65세 이상 인구가 전체 인구의 약 18.4%를 차지하고 있으며, 이는 2040년까지 약 34.4%로 증가할 것으로 예상된다[18]. 이러한 빠른 고령화는 고령층의 사고 위험을 더욱 높이며, 특히 낙상 사고와 그로 인한 중증 외상의 발생률이 크게 증가할 것으로 보인다. 더욱이, 독거 노인의 경우 낙상 발생 후 적절한 도움을 받지 못해 사망 위험이 높아지며, 이는 낙상 사고 사망의 대부분이 ‘집’에 서 발생하고 있기 때문이다[13]. 실제로 배우자가 없는 노인의 낙상 사망률은 배우자가 있는 노인에 비해 약 2배 높은 것으로 나타났다[9]. 이는 고령층 낙상 사망률을 낮추기 위해 신속한 대응 시스템이 필요하다는 점을 시사한다.
고령층의 신체적 약화와 회복력 저하로 인해 낙상 사고에 대한 긴급한 대응이 필수적이다. 그러나 많은 고령층이 독거 생활을 하고 있어, 사고 발생 시 즉각적인 도움을 받을 수 있는 환경이 부족한 실정이다. 따라서 고령층의 낙상 사고 위험성을 낮추고, 사고 발생 시 신속히 대응할 수 있는 시스템 개발이 필수적이다.
현재 낙상 감지를 위한 방법은 크게 센서를 활용한 방법과 영상 분석 및 머신러닝 기법을 활용한 방법으로 나뉜다. 센서 기반 낙상 감지 모델은 주로 착용형 디바이스나 스마트폰에 내장된 가속도계와 자이로스코프를 사용하여 움직임을 모니터링하며, 이 데이터를 통해 낙상을 감지 한다[17]. 이러한 방법은 실시간 데이터 수집과 분석이 가능하고, 개인 맞춤형 낙상 예방 시스템 구축에 유리하다. 하지만, 센서를 부착하거나 휴대해야 하는 불편함이 있다 [15]. 반면, 영상 기반 낙상 감지 모델은 컴퓨터 비전 기술을 활용하여 사용자의 자세 변화를 감지하고 낙상 여부를 판단한다. 주로 실내 환경에서 카메라로 사용자 행동을 모니터링하며, 자세 변화, 속도, 방향 등의 요소를 종합적으로 분석하여 낙상을 감지한다[12].
본 연구에서는 이러한 영상 기반 방법론에 시계열 분석에 특화된 LSTM(Long Short-Term Memory)[3] 모델을 도입하여 낙상을 보다 효과적으로 감지하고자 한다. LSTM 모델은 장기적인 의존성을 학습할 수 있어 시계열 데이터 분석에 뛰어난 성능을 보이며, 이는 지속적인 시간 흐름에 따라 변화하는 신체 동작 특성을 감지하는 데 적합하다. 본 연구의 방법론은 MediaPipe[11]를 사용해 영상 내 객체를 탐지하고, 주요 스켈레톤 정보를 추출하여 모델 학습에 필요한 데이터를 수집한 후, 이를 LSTM과 같은 딥러닝 모델에 적용해 낙상을 감지하는 것이다. MediaPipe는 구글에서 개발한 오픈소스 프레임워크로, 실시간으로 높은 정확도의 신체 각 부분의 위치를 제공해 낙상 감지에 필요한 데이터를 효과적으로 수집할 수 있다.
본 연구에서는 혼동행렬(Confusion Matrix), 정확도(Accuracy), 재현율(Recall), 정밀도(Precision) 등의 통계적 검증 지표를 통해 모델의 성능을 평가하였다. 본 연구에서 제안된 방법은 기존 영상 데이터 기반 낙상 감지 방법보다 우수한 성능을 보임을 증명하였고, 실제로 수집한 데이터를 통해 모델의 실용성을 입증하였다.
본 논문의 구성은 다음과 같다. 제2장에서는 낙상 감지를 위한 다양한 기존 방법론을 소개하고, 제3장에서는 본 연구에서 제안하는 낙상 감지 모델 개발 절차를 설명하며, 마지막장에서는 본 연구의 성과와 향후 연구 방향에 대해 논의한다.
2. 낙상 감지에 대한 기존 연구
고령 인구의 증가와 이에 따른 낙상 사고의 위험성 증가는 낙상 감지 기술 개발의 중요성을 부각시키며, 이는 정부와 민간 기관에서 다양한 연구 및 개발의 촉매 역할을 하고 있다. 기존 낙상 감지 연구는 주로 착용형 센서 기반 연구와 영상 분석 기반 연구로 분류되며, 두 방법은 각각의 장단점을 가지고 있다. 이 두 방식은 실내외 환경이나 사용자의 편의성에 따라 선택적으로 적용된다.
2.1 센서 기반 낙상 감지 연구
센서 기반 낙상 감지 연구는 주로 가속도 센서와 자이로스코프 센서를 활용하여 데이터를 수집하고 분석하는 방식이다. 이러한 접근 방식은 사용자의 움직임 데이터를 실시 간으로 모니터링할 수 있어 정확도가 높다. 예를 들어, Lim et al.[10]은 3축 가속도 센서를 이용해 세 가지 낙상 감지 알고리즘을 개발했으며, 각도 θ(y) 임계값을 바탕으로 낙상을 판단하여 최대 98.33%의 정확도를 달성했다.
Jeong et al.[5]은 가속도 센서와 자이로스코프 데이터를 활용하여 LSTM모델을 기반으로 낙상을 감지하는 연구를 진행하였다. 이 연구에서는 LSTM의 시계열 데이터 처리 능력을 활용하여 낙상 감지의 정밀도를 높였으며, 최적의 정규화 조건에서 96.9%의 정확도를 달성하였다. LSTM은 시간적으로 연속된 데이터의 의존성을 학습할 수 있는 장점을 가지고 있어, 낙상과 같은 사건을 감지하는 데 적합 하다.
또 다른 연구로, Han et al.[2]은 헬멧에 3축 가속도 센서를 부착해 자전거 낙상 사고 감지 시스템을 구축하였으며, 이를 통해 낙상 사고 발생 시 자동으로 의료기관에 신고하는 시스템을 개발했다. 이 시스템은 100회의 실험에서 97회의 정확도를 기록했다. 다만, 헬멧과 같은 추가적인 착용형 장치를 필요로 하기 때문에, 사용자의 착용 거부감이나 불편함으로 인해 실제 사용률이 저하될 가능성이 있다.
웨어러블 디바이스나 헬멧 등의 착용형 센서를 통한 모니터링은 정확도가 높은 장점이 있지만, 사용자가 센서를 지속적으로 착용해야 하는 불편함이 존재한다. 또한, 고령 층의 경우 착용형 디바이스에 대한 거부감이 있어 실제 사용이 제한될 수 있다.
2.2 영상 분석 기반 낙상 감지 연구
영상 처리 기술의 발전과 컴퓨터 비전의 보급은 영상 기반 낙상 감지 연구의 활성화를 이끌고 있다. 영상 분석 기반 연구는 주로 카메라를 이용하여 사용자의 자세 변화를 분석하고, 이를 통해 낙상을 감지하는 방식이다. Kim et al.[6]은 영상처리 기반 낙상 감지 알고리즘을 설계하여 DSP 영상처리 보드에서 구현하였다. 이 알고리즘은 입력 된 영상에서 라벨링된 좌표값을 이용해 인체를 검출하고 낙상을 감지하며, 컴퓨터 시뮬레이션에서는 90%의 정확도를 보였다.
Hong et al.[4]은 웹캠을 이용하여 RGB 영상을 기반으 로 스켈레톤 포즈를 추출한 뒤, GRU(Gated Recurrent Unit) 모델을 활용하여 낙상을 감지하는 연구를 진행하였다. GRU는 LSTM과 유사한 구조를 가지면서도 계산량이 적고 학습 속도가 빠른 장점이 있지만, 긴 시퀀스 데이터를 처리하는 데 있어 성능 저하가 발생할 가능성이 있다. 특히, 복잡한 움직임이나 다양한 자세 변화에 대한 성능 검증이 추가로 요구된다.
또한, Park et al.[14]은 딥러닝 모델 YOLO[16]와 MediaPipe를 활용하여 사용자의 자세 변화를 실시간으로 감지하는 낙상 감지 알고리즘을 제안했다. YOLO만 사용했을 때는 88.4%의 정확도를 기록했지만, MediaPipe를 추가하여 정확도를 90%까지 향상시켰다. 그러나, 이 연구는 조명 조건이나 배경 변화에 민감하며, 다양한 환경에서의 성능 검증이 부족하다. 특히, 실내 환경에 최적화된 데이터로 학습되었기 때문에 야외 환경에서의 적용 가능성에 대한 추가적인 연구가 필요하다.
Kim et al.[7]은 Random Forest(RF) 및 K-Nearest Neighbor (KNN) 모델을 사용한 낙상 감지 연구를 진행하였으며, RF 기반 모델은 85.61%의 정확도를, KNN 기반 모델은 74.48% 의 정확도를 기록하였다. 이 연구는 GRU나 LSTM과 같은 시계열 분석 모델 대신 비교적 단순한 기계 학습 기법을 사용하였다는 특징이 있지만, 시계열 데이터를 처리하는 데 있어서 상대적으로 낮은 정확도를 보였다.
영상 기반 낙상 감지 연구는 비용 효율적이고 비침습적이라는 장점으로 주목받고 있으나, 카메라가 설치된 환경에서만 사용할 수 있다는 제한이 있으며, 프라이버시 문제가 제기 될 수 있다. 또한, 조명 조건이나 배경 변화가 있는 환경에서는 인식 정확도가 떨어질 수 있는 단점도 존재한다.
기존의 센서 기반 연구는 높은 정확도를 보였지만, 사용자가 착용해야 하는 불편함과 비용 부담이라는 한계가 있다. 반면, 영상 기반 연구는 편리성 측면에서 유리하나 환경 제약과 프라이버시 문제가 존재한다. 따라서, 본 연구는 기존의 센서 기반 및 영상 기반 낙상 감지 기술의 한계를 극복하면서 고령층에 적합한 낙상 감지 시스템을 제시하고자 한다.
본 연구에서는 MediaPipe를 통해 스켈레톤 데이터를 지속적으로 수집하고, 이를 LSTM 모델로 분석함으로써 착용형 장치 없이도 높은 정확도를 달성하였다. 또한 스켈레톤 데이터를 사용함으로써 조명이나 배경 변화에 민감하지 않고, 프라이버시 문제를 최소화하였다. 이를 통해 기존의 착용형 센서나 영상 기반 시스템의 제약을 보완하고, 정확하고 실용적인 낙상 감지 기술을 제시하고자 한다.
3. 낙상 감지 모델
3.1 낙상 감지 방법론
낙상은 외부 환경 조건과 사용자의 신체적 상태에 따라 발생 확률이 크게 달라지기 때문에, 이를 정확히 감지하기 위해서는 다양한 환경과 상황을 반영할 수 있는 낙상 감지 시스템이 필요하다. 본 연구에서 개발한 낙상 감지 시스템은 데이터 수집 및 전처리 단계와 기계 학습 모델 설계 및 평가 단계로 이루어진다. 이러한 단계별 접근법을 통해 실시간으로 신뢰성 높은 낙상 감지를 수행하고, 고령자 및 취약 계층에 대한 신속한 대응을 가능하게 하고자 한다.
첫 번째 단계에서는 낙상 감지 모델 학습에 필요한 데 이터를 수집하고 전처리 과정을 거친다. 본 연구는 실제 상황을 반영한 환경을 구현하여 다양한 자세와 동작 데이터를 직접 수집하였으며, 영상 데이터에서 불필요한 부분을 제거하고 스켈레톤 정보만을 추출하여 전처리하였다. 이 과정에서 Google의 MediaPipe를 활용하여 인체 주요 관절 위치를 추적하며, 각 프레임에서 움직임 변화를 시간 시퀀스 데이터로 변환하였다. 이러한 전처리 과정은 모델 학습에 필요한 핵심 데이터만을 선별하여 학습 효율성을 높이고 성능 향상을 도모하였다.
두 번째 단계에서는 전처리된 데이터를 기반으로 낙상을 정확히 감지할 수 있는 기계 학습 모델을 설계하고 평가하였다. 본 연구에서는 시계열 분석에 강점을 가진 LSTM 모델을 사용하여 낙상 시 발생하는 연속적인 동작 패턴을 효과적으로 학습하도록 하였다. 특히, 학습 과정에서 데이터 불균형으로 인한 편향을 최소화하기 위해 낙상과 비낙상 데이터를 균형 있게 배치하였으며, 학습이 완료 된 모델은 다양한 환경 조건에서 성능 평가를 통해 일반화 능력을 검증하였다.
이와 같은 방법론을 통해 본 연구는 다양한 환경과 상황에서 높은 정확도의 낙상 감지를 가능하게 하고, 실시간 대응을 지원함으로써 고령자의 안전과 삶의 질을 개선할 수 있는 중요한 기술적 기초를 제공하고자 한다.
3.2 낙상 감지를 위한 데이터 수집
낙상 사고 발생 상황의 데이터셋은 제한적이기 때문에, 본 연구에서는 실제 상황을 최대한 반영한 환경에서 직접 데이터를 수집하였다. 데이터 수집은 주로 실내 환경에서 이루어졌으며, CCTV 환경을 모사하기 위해 카메라 위치와 각도를 정밀히 설정하였다. 카메라는 일정한 높이와 각도로 설치하여 실험 기간 동안 일관된 영상을 확보하였으며, 다양한 낙상 상황을 재현하여 데이터의 다양성을 높이고자 하였다. 이를 통해 구축된 데이터셋은 낙상 감지 모델 학습에 활용할 수 있는 신뢰성 높은 기초 자료로서 기능할 수 있도록 하였다.
<Table 2>는 6가지 주요 자세에 대한 데이터 설명과 각 자세의 데이터 개수를 나타낸다. 본 연구에서는 낙상 감지를 위한 다양한 자세 데이터를 확보하기 위해 각 자세별로 100개의 영상을 수집하여 총 600개의 영상 파일을 구성하 였다. 수집된 데이터는 다양한 시간대와 환경 변화를 반영하기 위해 여러 날에 걸쳐 촬영되었으며, 이는 시간 경과에 따른 여러 상황을 포함하도록 하기 위함이다. 또한, 데 이터의 정확성을 높이기 위해 동일 조건에서 여러 번 실험을 반복하여 일관된 데이터를 확보하였다.
실험에 포함된 자세는 크게 일상 동작과 낙상과 유사한 동작으로 구분된다. 일상 동작에는 정지된 상태에서의 서 있는 자세(Standing)와 앉은 자세(Sit_down), 누운 자세(Lie)가 포함된다. 또한, 앉은 자세에서 일어나거나 누운 자세에서 서 있는 자세로 전환하는 동작과 같은 일어서는 동작(Stand_up)도 수집하였다. 한편, 낙상을 재현한 자세는 실제 넘어지는 동작(Falling)과 서 있는 상태에서 누운 자세(Lie_down)로 전환하는 동작으로 구성되었다. 특히, 넘어지는 동작은 실험 참가자의 안전을 고려해 <Figure 1> 과 같은 매트리스 위에서 진행하였으며, 자연스러운 낙상 동작이 가능하도록 유도하였다.
본 연구의 실험 참가자는 남성 4명과 여성 3명으로 구성되어 성별에 따른 다양한 낙상 패턴을 분석할 수 있는 자료를 제공하였다. 각 자세는 약 10초 간격으로 촬영되었으며, 참가자들이 다양한 자세를 취하며 자세 전환과 낙상 동작을 재현하였다. 이러한 구성은 실제 낙상 감지 모델의 적용 가능성을 확장하는 데 기여할 것으로 기대된다.
이와 같이 수집된 데이터는 낙상 감지 모델 학습에 필요한 다양한 자세와 동작을 포함하고 있어, 실제 상황에서의 높은 정확도와 유연성을 기대할 수 있다.
3.3 데이터 전처리 과정
Step 1. MediaPipe를 활용한 좌표 정보 수집
MediaPipe는 Google에서 개발한 다목적 프레임워크로, 비주얼 컴퓨팅에 필요한 머신러닝 파이프라인을 손쉽게 구축할 수 있도록 지원한다. 이 프레임워크는 비디오, 오디오, 센서 데이터를 포함한 다양한 입력 데이터를 처리할 수 있는 파이프라인을 구성하며, 자세 인식(Pose), 얼굴 검출(Face Detection), 얼굴 메쉬(Face Mesh), 손 인식(Hand) 등 여러 컴퓨터 비전 작업을 수행할 수 있는 모듈을 제공한다.
특히 본 연구에서는 MediaPipe의 Pose 모듈을 활용하여 비디오 프레임에서 사람의 자세를 식별하고 추적하였다. MediaPipe Pose 모듈은 팔꿈치, 무릎, 어깨, 엉덩이와 같은 인체의 주요 관절 지점을 인식하고, 비디오 스트림을 처리하여 각 프레임마다 인체의 주요 지점 위치를 추적할 수 있다. 이 모듈은 머신러닝 모델을 사용하여 각 비디오 프 레임의 이미지 데이터를 실시간으로 분석하여, 사람의 움 직임을 추적하는 데 최적화되어 있다.
<Figure 2>에 나타낸 것처럼, MediaPipe는 비디오 프레임을 분석하여 총 33개의 키포인트를 검출하며, 각 키포인트에 대해 x, y, z 좌표값을 출력한다. x와 y 좌표는 화면상의 2차원 위치를 나타내고, z 좌표는 깊이 정보를 제공하여 3차원 공간에서의 위치를 추정할 수 있게 한다.
본 연구에서는 MediaPipe를 사용하여 각 비디오 프레임에서 33개의 키포인트를 추출하고, 이를 x, y, z 좌표와 visibility 값을 포함한 데이터프레임으로 변환하였다. 이렇게 생성된 데이터프레임은 자세 분석과 낙상 감지 모델의 훈련을 위한 중요한 입력 데이터로 활용되며, 후속 분석 단계에서 모델의 학습 성능을 높이는 데 핵심적인 역할을 한다.
<Table 3>은 데이터베이스에 저장된 센서 데이터의 측정값과 저장 구조를 나타낸다. 데이터베이스의 첫 번째 열은 데이터 프레임으로, 각 관측 프레임에 대해 시간 순으로 정렬된 고유 번호가 부여되어 있다. 두 번째 열부터 서른 두 번째 열까지는 각 키포인트의 3차원 좌표 데이터 (x0, y0, z0 ~ x32, y32, z32)가 기록되어 있으며, 이는 관측 시점에서 인체 주요 지점의 위치 정보를 나타낸다. 마지막 열(y)에는 각 데이터에 해당하는 자세 유형이 기록되어 있어, 모델 학습 시 라벨 데이터로 활용된다. 예시로 제시된 “Standing” 상태의 데이터는 각각의 키포인트 정보와 함께 자세 유형을 명확히 나타내어, 학습 데이터로 사용될 수 있도록 구성되었다.
Step 2. 프레임 수 일정화를 위한 데이터 처리 방법
본 연구에서 사용된 데이터는 개인이 직접 촬영한 영상들로 구성되어 있으며, 영상마다 길이와 프레임 수가 일치하지 않는다. 기계 학습 모델의 입력 데이터는 길이가 일정해야 하므로, 모든 영상을 동일한 프레임 수로 맞추는 표준화 과정이 필요하다. 이러한 표준화는 모델 학습의 효율성을 높이고, 일관된 데이터 구조를 제공하여 예측 성능을 향상시키는 데 중요한 역할을 한다.
먼저, 모든 영상 중 가장 짧은 프레임 수를 가진 영상을 찾아 이를 기준 프레임 수(reference frame count)로 설정하였다. 본 연구에서 수집된 영상들은 프레임 수가 99에서 426까지 다양하게 분포하고 있었으며, 가장 짧은 프레임 수는 99였다. 따라서 기준 프레임 수를 99로 설정하여 모 든 영상을 동일한 길이로 맞추었다.
프레임 수가 99보다 많은 영상에 대해서는, 시간 순서를 유지하면서도 임의의 프레임을 골라 99개의 프레임만을 남기는 방식으로 랜덤 샘플링을 적용하였다. 이렇게 함으로써 각 영상은 시간적 연속성을 유지하면서도 동일한 프레임 수로 조정되어, 모델이 일관된 형식의 데이터를 입력 받을 수 있게 된다.
이와 같은 표준화 과정을 통해 모든 영상의 길이를 일치시킴으로써, 데이터 길이의 불일치로 인한 문제를 방지하고 다양한 사례를 균형 있게 포함함으로써 모델 학습의 안정성을 확보하였다.
Step 3: KeyPoint 추가 및 속도 계산
본 연구에서는 양쪽 어깨와 양쪽 골반의 키포인트를 사용하여 인체의 중심점인 ‘central_point’를 생성하였다. 이 중심점은 낙상 감지를 위해 인체의 중심이 움직이는 속도를 계산하는 데 중요한 역할을 한다. ‘central_point’의 계산 과정은 다음과 같은 단계로 이루어진다. 먼저, 왼쪽 어깨()와 오른쪽 골반()의 중간점(M1)을 계산하는데, 이는 다음 식으로 정의된다:
그리고, 오른쪽 어깨(p3)와 왼쪽 골반(p4)의 중간점(M2) 을 계산하며 사용된 식은 아래와 같다.
마지막으로, 이 두 중간점(M1, M2)의 중간점을 계산하여 최종적으로 인체의 중심점인 ‘central_point’ (C)를 계산하며 사용된 식은 아래와 같다.
이후, 인체 키포인트의 3D 좌표 데이터를 평활화하여 노이즈를 줄이기 위해 칼만 필터(Kalman Filter)[19]를 적 용하였다. 칼만 필터는 관찰된 데이터를 바탕으로 시스템의 상태를 추정하는 알고리즘으로, 노이즈가 포함된 데이터에서 더 정확한 예측을 할 수 있도록 한다. 본 연구에서는 키포인트의 위치 데이터에서 발생할 수 있는 노이즈를 줄이고, 보다 정확한 속도 계산을 위해 칼만 필터를 사용하여 좌표를 평활화하였다. 칼만 필터는 이전 상태와 현재 관측 값을 결합하여 최적의 추정 값을 계산하며, 그 적용은 아래와 같은 식으로 표현된다:
여기서 는 상태 변수, uk는 제어 입력, zk는 관측된 값, A는 상태 전이 행렬, B는 제어 행렬, H는 관측 행렬, K는 칼만 이득(Kalman Gain)을 나타낸다.
칼만 필터를 적용한 후에는 평활화된 3D 좌표 데이터를 이용해 각 시간 단계에서의 속도를 계산하였다. 속도는 연속된 두 시점 사이의 유클리드 거리로 정의되며, 아래와 같은 식으로 계산된다.
여기서 ut 는 t에서의 속도이며, Pt는 시간 t에서의 위치를 나타낸다.
첫 번째 시간 단계의 속도는 초기 상태에서 움직임이 없음을 가정하여 0으로 설정하였다.
이 과정을 통해 인체의 중심점인 ‘central_point’와 코, 왼쪽 무릎, 오른쪽 무릎의 속도를 정확하게 계산할 수 있었으며, 이를 기반으로 낙상을 감지하는 모델의 성능을 향상시킬 수 있었다. 이러한 네 가지 키포인트를 선택한 이유는, 노인이 일상생활에서 움직일 때와 낙상할 때 이들 위치의 움직임 패턴이 뚜렷하게 다를 것으로 예상되기 때문이다. 특히, 낙상 시에는 중심점과 무릎, 코의 움직임에서 일반적인 패턴과 차이가 발생하여 낙상 여부를 더 정확히 감지할 수 있다.
Step 4. 데이터 정규화
본 연구에서는 수집된 데이터의 일관성과 신뢰성을 확보하기 위해 데이터 정규화 과정을 수행하였다. 데이터 정규화는 각 데이터 포인트를 동일한 범위로 조정하여, 모델 이 다양한 스케일의 데이터를 보다 효과적으로 학습할 수 있도록 돕는다. 이 과정을 통해 데이터의 분포가 일정하게 유지되며, 극단적인 값에 의한 학습 과정의 왜곡을 방지할 수 있다.
본 연구에서는 다양한 범위를 가진 데이터를 Min-Max 정규화 방식을 적용하여, 모든 좌표 데이터를 0에서 1 사이의 값으로 변환하였다. Min-Max 정규화는 다음과 같은 식으로 정의된다:
정규화된 데이터를 사용함으로써, 다양한 시퀀스 간의 일관성이 유지되며, 모델이 데이터의 패턴을 보다 정확하게 학습할 수 있다. 특히 시계열 데이터의 경우, 시간에 따른 변화 패턴을 효과적으로 학습하기 위해 정규화는 필수적이다. 정규화된 데이터는 모델이 시간적 변화를 반영한 예측 성능을 향상시키는 데 중요한 역할을 한다.
3.4 입ᆞ출력 데이터 구성
본 연구에서는 MediaPipe를 활용하여 추출된 33개의 키포인트 데이터를 기반으로 최종 입력 데이터를 생성하였다. 낙상 여부를 판단하기 위해, 각 키포인트의 위치 변화는 연속된 두 프레임 간의 좌표 차이를 계산하여 속도로 표현되었다. 이러한 접근은 시간에 따른 움직임 패턴을 시계열 데이터로 변환하는 데 중점을 두었으며, 데이터의 품질을 높이고 LSTM 모델 학습에 적합한 형태로 설계되었다.
최종 입력 데이터는 모든 키포인트 데이터를 활용하여 구성되었으며, 데이터의 품질을 향상시키기 위해 칼만 필터 (Kalman Filter)를 적용하였다. 칼만 필터는 데이터의 노이즈를 제거하고, 움직임의 연속성을 유지하며 평활화된 값을 생성함으로써 데이터의 신뢰도를 높였다. 이러한 입력 데이터를 통해 모델은 영상 내에서 신체의 움직임과 위치 변화를 학습할 수 있다.
출력 데이터는 사용자의 자세 상태를 나타내며, 총 여섯 가지(Falling, Stand_up, Standing, Sit_down, Lie_down, Lie)로 구분된다. 모델은 입력된 키포인트 좌표와 속도 데이터를 기반으로 각 프레임에서 사용자의 자세 상태를 예측하며, 이를 통해 사용자의 행동을 종합적으로 모니터링할 수 있다.
모델 학습을 위해 전체 데이터를 트레이닝 데이터와 테스트 데이터로 분할하였다. 각 클래스의 비율을 유지하면서 데이터를 8:2 비율로 나누어, 모델이 모든 클래스에 대해 균형 잡힌 성능을 발휘할 수 있도록 하였다. 이러한 분할 방식은 모델 평가 시 각 자세 상태에 대한 예측 성능을 공정하게 검증할 수 있게 한다.
3.5 모델 개발 및 최적화
본 연구에서는 LSTM(Long Short-Term Memory) 모델을 채택하여 낙상 감지 시스템을 구현하였다. LSTM은 시계열 데이터의 장기적인 의존성을 잘 학습할 수 있는 특성을 가지고 있어, 낙상과 같은 시간 연속적인 사건을 처리하는 데 적합하다. 그러나, 시계열 분석에 있어서 LSTM 외에도 GRU(Gated Recurrent Unit), CNN, Transformer 등 여러 모델들이 존재하며, 이들 모델 또한 시계열 데이터 처리에서 각각 장단점이 있다. 예를 들어, GRU는 LSTM 보다 구조가 단순하고 계산량이 적어 학습 속도가 빠르지만, 장기적인 의존성을 처리하는 데 있어 LSTM보다는 성능이 다소 떨어질 수 있다. 반면, Transformer 모델은 병렬 처리가 가능하여 학습 속도가 빠르며, self-attention 메커니 즘을 통해 긴 시퀀스의 의존성을 잘 처리할 수 있지만, 낙상 감지와 같은 특정 목적에 대해 LSTM만큼 직관적이지 않을 수 있다.
따라서 본 연구에서 LSTM을 선택한 이유는 다음과 같다:
첫째, 낙상 감지와 같은 문제는 시계열 데이터로, 시간에 따라 변화하는 사용자 상태를 모델링하는 것이 중요하다. LSTM은 긴 시퀀스에 걸친 시간적 의존성을 학습할 수 있는 구조를 가지고 있어, 낙상이라는 사건이 발생하는 패턴을 더 잘 파악할 수 있다. 둘째, GRU와 같은 다른 모 델들도 고려하였으나, LSTM은 시간이 지나면서 의존성이 유지되어야 하는 낙상 감지와 같은 응용 분야에서 더 나은 성능을 보이는 경우가 많다. 셋째, 본 연구의 실험에서는 MediaPipe를 사용하여 실시간으로 인체 스켈레톤 데이터를 추출하고, 이를 시계열 형태로 LSTM에 입력하는 방식이 LSTM의 장기 의존성 학습 능력과 잘 결합되어 높은 정확도를 얻을 수 있었다.
그러나 LSTM은 긴 시퀀스 데이터를 처리할 때 장기 의존성(Long-Term Dependency) 문제와 함께 기울기 소실 (Vanishing Gradient) 문제에 취약할 수 있다. 또한, 모든 정보를 고정된 hidden state 벡터에 포함해야 하므로 순차적으로 데이터를 처리해야 하고, 병렬 처리가 어려워 계산 비용이 높다는 구조적 한계도 존재한다. 이러한 한계를 극복하기 위해 본 연구에서는 다양한 전략을 도입하였다. 먼저, 칼만 필터를 활용하여 데이터의 노이즈를 제거하고 평활화를 수행함으로써 입력 데이터를 개선하였다. 또한, Dropout 레이어를 적용하여 과적합을 방지하고 모델의 복잡도를 줄였다. 마지막으로, LSTM 레이어의 유닛 수를 최적화하고, 하이퍼파라미터 설정을 통해 모델의 예측 성능을 극대화하였다.
하이퍼파라미터 최적화를 위해, 본 연구에서는 서로 다른 하이퍼파라미터 설정을 적용한 세 가지 LSTM 모델(LSTM1, LSTM2, LSTM3)을 비교 실험하였다. 각 모델은 학습률, 유닛 수, 드롭아웃 비율, 배치 크기 등의 설정이 달랐으며, 이러한 비교 실험의 목적은 최적의 설정을 찾는 것이었다. <Table 5>는 각 LSTM 모델에 적용된 주요 하이퍼파라미터를 요약하여 보여준다.
3.6 평가지표 및 결과
모델 성능 평가를 위해 정밀도(Precision)와 F1 Score가 사용하였으며, 정밀도는 모델이 예측한 긍정 클래스 중에서 실제로 긍정 클래스인 비율로, 사용된 식은 아래와 같다:
여기서 TP는 True Positive, FP는 False Positive를 나타낸다. F1 Score는 정밀도와 재현율(Recall)의 조화 평균으로 정의되며, 정밀도와 재현율의 균형을 맞춘 평가 지표로서 아래와 같은 식을 통해 계산된다:
여기서 Precision은 정밀도, Recall은 재현율을 나타낸다. F1 Score는 정밀도와 재현율을 동시에 고려하여, 모델이 얼마나 일관된 성능을 보이는지를 평가하는 데 유용하다.
<Table 6>는 MediaPipe에서 추출한 키포인트와 정규화된 데이터를 사용하여 낙상 감지 모델의 성능을 비교한 결과를 나타낸다. 각 모델은 서로 다른 하이퍼파라미터 설정으로 구성되었으며, F1 Score와 정밀도를 기준으로 성능이 평가되었다.
비교 실험 결과, LSTM3 모델이 가장 높은 성능을 기록 하였다. LSTM3 모델은 AdamW 옵티마이저를 사용하고, 학습률 0.01, 유닛 수 64, 드롭아웃 비율 0.4, 배치 크기 64 로 설정되었다. AdamW 옵티마이저는 가중치 감소(weight decay) 기능을 통해 모델의 overfitting을 방지하고 일반화 성능을 향상시키는 데 효과적이다. 또한, 드롭아웃 비율을 0.4로 설정하여 네트워크의 일부 노드를 무작위로 비활성화함으로써 모델이 특정 패턴에 과도하게 의존하지 않도록 하여 보다 안정적인 학습을 유도하였다.
LSTM3 모델의 성능을 추가로 검증하기 위해 confusion matrix를 사용하여 다중 클래스 분류 기법으로 낙상 감지 클래스의 예측 정확성을 평가하였다. 본 연구의 분류는 이진 분류가 아닌, ‘Falling’, ‘Stand_up’, ‘Standing’, ‘Sit_down’, ‘Lie_down’, ‘Lie’로 구성된 총 여섯 가지의 자세 상태를 포함하는 다중 클래스 분류 문제이다. confusion matrix는 모델이 예측한 각 클래스에 대해 True Positive(TP), True Negative(TN), False Positive(FP), False Negative(FN) 값을 직관적으로 시각화하여 모델의 강점과 약점을 파악할 수 있게 한다. 이를 통해 LSTM3 모델이 실제 낙상 상황에서 얼마나 정확하게 낙상을 감지하고, 다양한 자세 상태와 구분할 수 있는지를 평가하였다.
결과적으로, 최적의 하이퍼파라미터 설정과 AdamW 옵 티마이저의 적용으로 인해 LSTM3 모델은 높은 F1 score(0.934)와 정밀도(0.935)를 기록하며, 낙상 감지에서 우수한 성능을 보였다. 이 모델은 다양한 상황에서 안정적인 성능을 유지할 수 있으며, 고령자와 같은 위험군을 실시간으로 모니터링하여 낙상을 신속하게 감지할 수 있는 잠재력을 가진다.
<Figure 3>은 낙상 감지 모델의 confusion matrix를 시각화 한 그림이다. LSTM3 모델은 ‘falling’ 클래스에서 20개 중 17개를 정확히 예측했으나, 나머지 3개는 ‘lie’ 클래스로 잘못 예측했다. 이러한 오류는 낙상과 누워 있는 자세가 유사한 움직임 패턴을 가질 수 있어 모델이 이를 혼동한 결과로 보인다. 특히 ‘standing’과 ‘stand_up’을 제외한다른 클래스에서도 일부 오차가 발생했는데, 이는 낙상과 유사한 일상적인 움직임을 구분하는 데 LSTM 모델이 어려움을 겪고 있음을 시사한다. 이러한 오류는 LSTM의 장점인 시계열 데이터 처리 능력에도 불구하고, 유사한 동작 간의 세밀한 차이를 구분하는 데는 제한이 있을 수 있음을 보여준다.
모델 평가 결과는 LSTM 모델이 낙상 감지에 있어 높은 성능을 발휘한다는 것을 확인시켜 주며, 다양한 하이퍼파라미터 설정을 통해 모델의 성능을 최적화할 수 있는 가능성을 시사한다. 특히, LSTM3 모델은 하이퍼파라미터 최적화를 통해 F1 score와 정밀도에서 가장 높은 성능을 기록했으나, 일부 클래스에서의 예측 오류는 여전히 개선이 필요한 부분으로 남아 있다.
향후 연구에서는 낙상과 유사한 동작을 보다 정확하게 구분하기 위해 Transformer등 과 같은 모델 등을 고려하고 자 한다. 또한, 현재의 모델은 훈련 데이터에 대한 의존성이 크기 때문에, 다양한 환경과 상황에서 수집된 데이터를 추가로 학습하여 모델의 일반화 성능을 높이는 것도 중요한 과제가 될 것이다.
이와 같은 개선 방안을 통해 LSTM 모델의 강점을 극대화하고, 실시간 응용 시스템에 적용할 수 있는 보다 정확하고 신뢰성 있는 낙상 감지 시스템을 개발할 수 있을 것으로 기대된다. 이를 통해 고령자 및 취약 계층을 실시간으로 모니터링하며 안전을 보장하는 데 중요한 역할을 할 수 있을 것이다.
4. 결 론
본 논문에서는 LSTM을 활용하여 인간의 신체 자세에서 추출된 키포인트 데이터를 기반으로 낙상을 예측하는 인공지능 모델을 개발하였다. 주요 목표는 긴급 상황에서 신속히 대응할 수 있는 낙상 감지 시스템을 개발하여, 특히 노인 거주 시설 등에서 효과적으로 활용할 수 있는 모델을 개발하는 것이다. 이를 위해 MediaPipe를 사용하여 영상 데이터를 분석하고, 각 프레임에서 키포인트의 연속적인 움직임을 추적하여 키포인트의 움직임 속도를 계산함으로써 전처리를 진행하였다.
전처리된 데이터셋은 시계열 데이터 처리에 강점을 가지고 있는 LSTM 모델로 학습하였으며, 본 연구에서는 이 모델의 성능을 최적화하기 위해 다양한 하이퍼파라미터 설정을 적용하였다. 또한, 게이트 메커니즘을 통해 장기 의존성(Long-Term Dependency) 문제를 보완하여 높은 정밀도와 F1 score를 달성하였다. 그 결과, 개발된 LSTM 모델은 F1 score 0,934, 정밀도 0.935로 93.35%의 높은 정확 도를 기록하여 낙상 감지 시스템에 적용 가능한 우수한 성능을 보여 실제 응용 가능성을 확인하였다. 이는 기존 연구에서 제안된 다양한 모델들보다 우수한 성능을 나타낸다.
본 연구에서 제안한 모델을 노인 요양 환경의 실시간 모니터링 시스템과 통합하면, 낙상을 조기에 발견하여 적시에 대응할 수 있어 노인 안전을 크게 향상시킬 수 있을 것으로 기대된다. 특히, 실시간 데이터 분석과 빠른 경고 시스템을 통해 응급 상황에서 신속한 대응이 가능해져, 낙상으로 인한 2차 피해를 최소화할 수 있을 것으로 기대된다.
다만, 본 연구는 특정 환경에서 수집된 데이터로 모델을 학습하고 평가하였기 때문에 다양한 환경에서의 일반화 성능을 보장하기 위해 추가적인 연구가 필요하다. 예를 들어, 조명 조건, 카메라 위치, 혹은 다양한 형태의 움직임을 포함한 데이터셋을 추가하여 모델의 견고성을 높이는 후속 연구가 필요하다.
향후 연구에서는 다양한 하이퍼파라미터 튜닝과 데이터셋 추가를 통해, 더 폭넓은 환경에서도 일관된 성능을 유지하는 모델을 개발하고, 시스템의 실제 적용 가능성을 평가하는 단계로 나아가야 할 것이다. 이러한 발전을 통해, 본 연구에서 제안한 모델이 노인 요양 환경뿐만 아니라 일반 가정이나 병원에서도 널리 활용될 수 있도록 하는 것이 궁극적인 목표이다. 이를 통해 낙상 사고로 인한 위험을 줄이고, 고령자의 안전과 삶의 질을 높이는 데 기여 할 수 있을 것으로 기대된다.