1. 서 론
수중 환경은 탁도(turbidity), 빛의 감쇠(light attenuation), 음향 반사 등의 요인으로 인해 시각 기반 영상 인식이 제 한되는 특성을 가진다. 이러한 이유로, 음향 센서를 활용 한 소나(sonar) 영상은 해양 감시, 수중 표적 탐지, 자율 무 인잠수정(AUV: Autonomous Underwater Vehicle)의 항법 및 탐사 등 다양한 군사·산업 분야에서 핵심적인 역할을 수행한다. 그러나 소나 영상은 시각적 대비가 낮고, 노이 즈와 왜곡이 빈번히 발생하기 때문에 전통적인 영상 분류 기법으로는 높은 인식 정확도를 확보하기 어렵다[3,5].
기존 연구에서는 합성곱 신경망(Convolutional Neural Network, CNN)을 기반으로 한 소나 영상 분류가 주로 수 행되어 왔다. CNN 기반 모델들은 물체의 국소적 특징을 효과적으로 포착하지만, 수중 환경의 특성상 발생하는 구 조적 왜곡이나 음향 반사 차이를 반영하기에는 한계가 있 다. 최근에는 비전 트랜스포머(Vision Transformer, ViT)가 영상 인식 분야에서 우수한 전역적 표현 학습 성능을 보이 며 다양한 응용 분야에 적용되고 있다. 하지만 ViT 역시 대규모 데이터에 대한 의존성과 클래스 간 특징 경계가 모호한 데이터셋에서는 일반화 능력이 제한되는 문제가 있다.
메트릭 러닝(Metric Learning)은 샘플 간의 유사도를 직 접 학습함으로써 특징 공간에서 동일 클래스 샘플을 가깝 게, 상이한 클래스를 멀리 배치하도록 유도하는 방법이다. 이는 데이터 수가 제한된 환경이나 클래스 간 경계가 불명 확한 문제에서 특히 효과적이다. 본 연구에서는 이러한 메 트릭 러닝의 장점을 ViT 구조에 결합하여, 수중 소나 이미 지의 분류 성능을 향상시키는 방법을 제안한다.
제안된 방법은 두 단계로 구성된다. 첫 번째 단계에서는 시암 네트워크(Siamese Network)를 이용한 사전 학습을 수행하여, 동일 클래스 쌍(positive pair)의 클래스 유사도 를 최대화함으로써 방향적으로 정렬된 임베딩 공간을 형 성한다. 두 번째 단계에서는 동결된 ViT 인코더를 기반으 로 하는 다섯 가지 분류기(classifier)를 구성하고, 수중 소 나 이미지를 입력으로 하는 실험을 통하여 각 분류기의 성능 지표를 얻는다. 이를 기존의 CNN을 대표하는 Resnet50 분류기 및 ViT 분류기에 대한 실험 결과와 비교 하여, 우수한 분류기를 가려낸다.
본 논문의 주요 기여는 다음과 같다.
-
(1) 비전 트랜스포머 구조에 메트릭 러닝 기반 시암 사 전 학습을 결합함으로써, 수중 소나 이미지의 판별 력을 향상시키는 새로운 학습 프레임워크를 제안하 였다.
-
(2) 다양한 분류기 구조에 대한 비교를 통해, 임베딩 정 규화 기법의 성능적 영향과 효과를 정량적으로 분석 하였다.
본 논문의 구성은 다음과 같다.
제2장에서는 관련 연구로서 기존의 CNN 및 트랜스포 머 기반 수중 영상 인식 기법과 메트릭 러닝 연구를 검토 한다. 제3장에서는 제안된 비전 트랜스포머 및 메트릭 러 닝 결합 구조를 상세히 설명하며, 제4장에서는 실험 환경, 데이터셋, 결과 분석을 제시한다. 마지막으로 제5장에서는 결론 및 향후 연구 방향을 논의한다.
2. 연구배경 및 관련 연구
2.1 수중 소나 이미지 분석
수중 소나(sonar) 이미지는 해양 탐사, 수중 구조물 감 지, 자율 무인 잠수정 운항 등 다양한 임무에서 핵심적인 시각 정보를 제공한다. 그러나 소나 영상은 일반적인 RGB 영상과 달리 저해상도, 고노이즈, 대비 부족, 윤곽선의 불 명확성 등의 특성을 가지며, 이는 전통적인 영상 분류 기 법이 정확하게 동작하기 어렵게 만든다. 특히 전방주시소 나 (Forward-Looking Sonar, FLS) 기반의 영상은 객체가 일정 각도로 투영되면서 왜곡되고, 음향 반사 강도에 따라 이미지 해석이 어려운 경우가 많다. 또한, 동일한 클래스 내에서도 객체의 형태가 크게 다르거나, 서로 다른 클래스 간 유사한 패턴이 나타나는 경우가 빈번하게 발생한다. 이 러한 특성들은 수중 소나 이미지를 분류하는 데 있어 정규 화된 특징 추출, 노이즈 억제, 특징 간 거리 기반 분류기 설계가 중요하다는 점을 시사한다. 이에 따라 최근에는 심 층 신경망 기반의 표현 학습과 정교한 임베딩 정규화 기법 들이 도입되고 있다.
2.2 기존 심층 신경망 기반 접근법
수중 소나 이미지 자동 분류에 대한 초기 연구에서는 CNN 기반 모델이 수중 영상 및 소나 영상의 분류에 활용 되었다. 이들 모델은 지역적 특징 추출에는 효과적이지만, 전역적 구조나 음향 패턴의 방향성 정보를 포착하기 어렵 다는 한계가 있다. 최근에는 이미지 패치를 입력 토큰으로 변환하여 어텐션 메커니즘으로 전역 정보를 학습하는 비 전 트랜스포머가 <Figure 1>과 같이 제안되어, 여러 컴퓨 터 비전 벤치마크에서 CNN을 능가하는 성능을 보였다. 다만, 비전 트랜스포머는 대규모 학습 데이터가 필요하여 수중 소나 이미지를 이용한 컴퓨터 비젼에 ViT를 이용한 논문[14,17,18]은 제한적이며, 데이터 수가 적거나 클래 스 간 경계가 모호한 상황에서는 일반화 능력이 저하된다.
2.3 전이 학습
최근에는 ViT를 다양한 영상 분야에 전이학습 방식으로 적용하려는 시도가 활발하게 이루어지고 있다[4,20]. 그러 나 ViT는 다음과 같은 한계점도 내포한다. 수중 영상처럼 데이터가 제한된 환경에서는 과적합 가능성이 존재한다. 또한, 소프트맥스 기반의 출력 분류기만으로는 임베딩 공간 내의 클래스 분포를 효과적으로 정규화하기 어렵다.
2.4 메트릭 러닝
메트릭 러닝은 샘플 간의 거리(metric)를 학습하여, 임베 딩 공간에서 동일 클래스 샘플 간 거리를 가깝게, 다른 클 래스 간 거리를 멀게 하여 분류 경계를 명확히 하는 방법 이다. 대표적으로 시암 네트워크는 두 입력 간의 거리 차 이를 기반으로 학습을 수행하며, Triplet Network[16]은 이 를 확장하여 Anchor-Positive-Negative 관계를 통해 더욱 정교한 임베딩 공간을 학습한다. 이러한 연구들은 공통적 으로 데이터가 제한된 환경에서도 강건한 특징 공간을 형 성할 수 있다는 점에서, 수중 소나 영상과 같이 데이터 희 소성이 존재하는 문제에 적합하다[12,13,16].
2.5 거리 기반 분류기
임베딩 벡터를 이용한 분류 단계에서, 단순 선형 분류기 대신 거리 기반구조를 적용하는 연구가 활발하다. 코사인 분류기는 각 클래스 중심과 입력 간의 각도 기반 유사도를 사용하여, 임베딩 방향의 정렬 효과를 강화한다. 프록시 기반 방법은 클래스별 프록시 벡터를 학습하여 임베딩 클 래스간 유사도를 직접 계산하며, 이는 학습 안정성과 수렴 속도를 개선한다. 더 나아가, 마하라노비스 거리는 클래스 분산을 고려하는 통계적 거리 척도로, 최근에는 코사인 분 류기 또는 프록시 분류기와 결합되어 임베딩의 분포를 정 규화함으로써 성능을 향상시킨다는 연구가 있다 [9,15] .
2.6 관련연구
최근 ViT 성능이 다양한 시각 인식 문제에서 입증됨에 따라, ViT를 특징 추출기로 활용하고 메트릭 러닝 기법을 결합하려는 연구들이 활발히 수행되고 있다. Dosovitskiy et al.[6]은 트랜스포머 기반 구조가 대규모 이미지 인식 문 제에서 강력한 표현 능력을 가짐을 보였으며, 이후 ViT 인 코더에 프록시 기반 메트릭 러닝 손실을 결합하거나[11], 자기지도학습 또는 시암 구조를 활용한 임베딩 정렬 방식 [1,2]이 제안되었다. 이러한 연구들은 주로 대규모 자연 영상 데이터셋이나 이미지 검색 문제를 대상으로 하며, 명 시적인 분류 손실 없이도 판별력 있는 임베딩 공간을 학습 할 수 있음을 보였다. 기존 ViT 기반 메트릭 러닝 연구들 과 달리, 본 연구는 데이터 수집이 제한적인 수중 소나 영 상 환경을 대상으로, 제한된 학습 데이터 조건에서의 일반 화 성능 향상에 초점을 둔다.
초기 수중 소나 이미지 분류 연구는 주로 CNN을 기반으 로 이루어졌다. Valdenegro-Toro[19]는 FLS 이미지를 대상 으로 CNN과 Cross-Entropy 손실 함수를 적용하여 분류를 수행하였으며, 템플릿 매칭 방식보다 정확도와 일반화 성 능이 우수함을 입증하였다. Fuchs et al.[8]은 사전 학습된 ResNet-50 모형과 전이 학습을 결합하여 FLS 이미지에서 특징을 추출하는 방법을 제안하였다. Jin et al.[10]은 다중 클래스 표적 분류에 CNN과 전이 학습을 적용하여, 전이 학습이 성능 향상에 기여함을 실험적으로 확인하였다. 또 한 Fan et al.[7]은 Mask R-CNN 구조를 변형하여 파라미터 수를 줄이면서도 FLS 이미지에서 정확도를 유지하는 방 법을 제안하였다.
2022년 이후에는 트랜스포머 계열 모형을 활용한 연구 가 등장하기 시작했다. Zhu et al.[23]은 Swin 트랜스포머 기반 모형을 적용하여, CNN 특징 추출 과정에서 나타나 는 간섭 문제를 완화하고 소나 이미지의 분류 정확도를 개선하였다. Sun 등[15]은 서로 다른 패치 크기를 사용하 는 두 개의 ViT를 결합한 모형을 제안하였으며, 적은 수의 학습 샘플로도 우수한 분류 성능을 달성할 수 있음을 보고 하였다. 소나 이미지 분류 성능을 높이기 위한 메트릭 러 닝 기반 접근도 최근 주목받고 있다. Chungath 등[4]은 전 이학습 조건에서 다양한 딥러닝 모델을 비교 분석하였으 며, 특히 시암 네트워크를 활용한 메트릭 러닝 구조가 제 한된 데이터 환경에서 우수한 분류 성능을 보임을 실험적 으로 입증하였다. 한편, Vasankari 등[20]은 실제 해양 환 경에서 획득된 소나 이미지에 대해 VGG 계열 CNN과 ViT 를 비교하였으며, 전이학습된 ViT가 클래스 간 경계가 모 호한 조건에서도 높은 분류 성능을 보이는 것을 실험적으 로 입증하였다.
3. 제안 방법
3.1 개요
기존의 ViT는 강력한 전역적 표현 학습 능력을 보유하 고 있으나, 클래스 간 경계가 모호하거나 데이터가 제한된 환경에서는 임베딩 공간 내 분리도가 충분히 확보되지 않 는 한계가 존재한다. 이러한 문제는 수중 소나 이미지와 같이 노이즈가 심하고 시각적 유사성이 높은 데이터셋에 서 더욱 두드러지며, 단순한 소프트맥스(softmax) 기반 분 류기만으로는 안정적인 클래스 경계를 형성하기 어렵다. 이에 본 연구에서는 ViT의 전역적 표현 학습 능력에 메트 릭 러닝 개념을 결합하여, 임베딩 공간의 정규화 및 클래 스 간 분리도를 동시에 향상시키는 학습 구조를 제안한다. 제안된 학습 프레임워크는 <Figure 2>와 같이 두 단계로 구성된다.
3.2 1단계: 시암 ViT 표현 학습
본 연구의 1단계는 ViT를 기반으로 한 시암 네트워크 구조를 이용하여, 동일 클래스 간 임베딩의 방향적 일관성 을 확보하는 단계이다. 이 단계의 핵심 목표는 서로 다른 관측 조건이나 노이즈 환경에서도 동일 클래스에 해당하 는 샘플들이 임베딩 공간 내에서 근접하게 정렬되도록 유 도하는 것이다.
시암 네트워크는 동일한 ViT 인코더를 공유하는 두 개 의 분기로 구성되며, 입력으로 동일 클래스의 서로 다른 이미지 xi, xj를 받는다. 각 입력은 동일한 인코더 fθ (∙)를 거쳐 임베딩 벡터로 변환된다. ViT 인코더의 출력 벡터는 384차원(384d)의 특성으로 구성된다. 이 벡터는 완전연결 층(fully connected layer, FC)을 통해 128차원(128d)으로 선형 변환되어 투영된다.
이후 l2 정규화를 거쳐 단위 구면(hypersphere) 상에 매 핑된다. 이때 학습의 목적은 두 임베딩 간의 코사인 유사 도를 최대화하는 것이다. 이를 위해 식 (2)와 같은 코사인 유사도 기반 손실 함수를 정의한다.
이 손실은 동일 클래스 쌍 사이의 방향 일치도를 높이 며, 결과적으로 ViT 인코더가 클래스 불변적 표현을 학습 하도록 유도한다. 이 과정을 통해 동일 클래스의 특성이 구면 상에서 유사한 방향으로 정렬되며, 클래스 간 각도 차이는 점차 확장된다.
시암 네트워크 학습이 완료된 후, ViT 인코더의 원래 출력(384차원)을 분류기 입력으로 사용한다. 이러한 과정 은 대조 학습 및 자기 지도 학습 분야에서 일반적으로 채택되는 접근으로, 학습 중에는 표현 공간의 정렬에 집중 하고, 분류 단계에서는 원래의 특징 정보를 보존하기 위함 이다.
1단계에서 학습된 ViT 인코더는 2단계 분류기 학습 과 정에서 가중치를 고정한 상태로 사용되며, 고정된 ViT 인 코더(frozen ViT encoder)로서 특징 표현을 추출하는 역할 을 수행한다. 즉, 시암 ViT는 임베딩 공간의 방향 일관성 과 정규화된 분포 구조를 확보함으로써, 2단계에서 적용 될 거리 기반 분류기들이 더 효율적으로 클래스 간 경계를 학습할 수 있도록 한다. 이를 통해 전체 학습 과정은 “표현 정렬 → 판별 강화”의 두 단계로 체계적으로 연결된다.
3.3 2단계: 분류기 학습
1단계에서 사전 학습된 ViT 인코더는 2단계에서 고정 된 표현 추출기로 사용된다. 이 단계의 목적은 시암 ViT가 생성한 임베딩을 입력으로 하여 다양한 거리 기반 분류기 를 학습시키고, 각각의 분류 특성 및 성능을 비교·분석하 는 것이다. 본 연구에서는 총 다섯 가지 분류기 구조를 구 성하였다.
각 분류기는 임베딩의 정규화 여부, 거리 계산 방식, 그리 고 클래스 간 통계적 분산 반영 여부에 따라 차별화된다.
3.3.1 선형 분류기
선형 분류기의 출력인 클래스의 확률은 다음과 같이 정 의된다.
손실함수로는 교차 엔트로피를 사용한다.
여기에서 c는 클래스를 나타낸다. 이 방식은 임베딩의 크기와 방향을 모두 반영하기 때문에 기준값 역할을 한다.
3.3.2 코사인 분류기
코사인 분류기는 먼저 임베딩 z와 클래스 가중치 wc를 정규화한 후 곱하여 각 클래스의 점수를 다음과 같이 계산 한다.
여기서 s는 학습 가능한 스케일 파라미터이다. 최종 확 률은 다음과 같다.
손실함수로는 선형분류기와 동일하게 교차엔트로피를 사용하므로, 임베딩은 주로 분류 정확도를 높이는 방향으 로 최적화된다. 즉, 가중치가 간접적인 클래스 중심 역할 을 수행하지만, 클래스 간 간격을 명시적으로 조절하지는 않는다.
3.3.3 프록시 분류기
프록시 분류기는 각 클래스를 하나의 대표 벡터(proxy) pc로 표현하며, 입력 임베딩 z와 프록시 pc 간의 코사인 유 사도를 기반으로 분류를 수행한다. 여기에서 프록시 pc는 모델 내부에서 학습 가능한 파라미터로 정의된다. 입력 임 베딩과 프록시는 모두 l2 정규화되며, 클래스 점수는 다음 과 같다.
손실함수로는 Proxy-Anchor 방식의 마진(margin) 기반 손실[9]를 적용하여 정답 클래스(positive)에 대해서는 유 사도가 마진 이상이 되도록 하고, 오답 클래스(negative)에 대해서는 마진 이하가 되도록 억제하였다.
최종 손실은 Lpos와 Lneg항의 합으로 구성되며, 실험에 서는 마진 m=0.2, α =32, β=32를 사용하였다.
코사인 분류기와 프록시 분류기는 동일한 코사인 유사 도를 사용하지만, 코사인 분류기의 가중치 wc는 소프트맥 스 교차 엔트로피를 통해 간접적으로 최적화되는 반면 프 록시 분류기의 프록시 pc는 마진 기반 Proxy-Anchor 손실 을 통해 명시적인 클래스 중심으로 학습된다. 따라서 두 분류기는 유사한 클래스 점수 공식을 사용하더라도 임베 딩 공간에 서로 다른 기하학적 구조를 형성한다.
3.3.4 마할라노비스 정규화 기반 코사인 분류기
코사인 분류기의 각도 기반 구조에 클래스 분산 정보를 반영하기 위해, 마할라노비스 정규화를 적용하였다. 학습 데이터 임베딩으로부터 평균 μ와 공분산 Σ를 추정하고, 이를 이용해 공분산 정규화 행렬 W = Σ-1⁄2를 계산한다. 입력 임베딩을 다음과 같이 정규화 공간으로 변환된다.
이후 코사인 분류기와 동일하게 정규화된 임베딩과 클 래스 가중치의 내적을 통해 각 클래스 점수를 계산한다.
이 구조는 마할라노비스 거리 효과를 내재화하여, 클래 스 간 공분산 차이를 보정하고 임베딩 공간의 분포를 안정 화한다.
3.3.5 마할라노비스 정규화 기반 프록시 분류기
이 모델은 프록시 기반 분류 구조에 마할라노비스 정규 화를 적용하여, 클래스 간 분산 차이를 보정한 후 Proxy-Anchor 손실[9]로 학습된다. 먼저 학습 데이터의 임 베딩으로부터 평균 μ와 공분산 Σ를 추정하고, W = Σ-1⁄2 를 계산한 후, 입력 임베딩을 다음과 같이 변환한다.
입력 임베딩과 프록시는 모두 l2 정규화되며, 클래스 점 수는 다음과 같다.
이 모델은 Proxy-Anchor 방식의 마진 기반 손실로 학습 되며, 3.3.3절의 손실 정의와 유사하다.
4. 실험 및 결과분석
앞 장에서 소개한 분류기들은 각각 다른 정규화 및 거 리 계산 방식의 구조를 가지므로, 특정 구조가 항상 우수 하다고 단정하기 어렵다. 이에 본 장에서는 제안된 분류기 의 성능을 수중 소나 이미지 분류 문제의 실험을 통해 비 교․분석하였다.
4.1 데이터 셋
본 연구에서는 Xie et al.[17]이 구축한 UATD(Underwater Acoustic Target Detection) 공개 데이터셋[22]을 사용하 였다. UATD 데이터셋은 전방주시소나로 취득된 객체 영 상을 포함하며, 같은 표적이라도 관측 위치와 각도에 따라 노이즈와 왜곡이 존재한다. <Figure 3>은 UATD 데이터셋 의 객체를 예시로 보여준다. UATD 데이터셋은 클래스 간 샘플 수의 불균형이 존재하므로, 본 실험에서는 가장 샘플 수가 적은 Metal bucket 클래스를 제외한 9개 클래스를 사 용하였다. 각 클래스별로 이미지 380장을 무작위 추출하여 학습 300장, 검증 40장, 테스트 40장으로 분할하였으며, 전 처리를 통하여 모든 이미지는 224×224 크기로 조정하였다.
비전 트랜스포머(ViT)는 일반적으로 대규모 학습 데이 터가 필요하다는 한계가 지적되어 왔다. 그러나 본 연구에 서의 학습 설정은 ViT를 처음부터 학습(from-scratch)하는 경우와는 본질적으로 다르다. 본 연구에서는 ImageNet-1k 로 사전학습된 ViT-S 인코더를 사용하고, 이를 수중 소나 도메인에 전이 학습 방식으로 적용하였다.
특히, 제한된 데이터 환경에서의 일반화 성능 저하 문제 를 완화하기 위해, 1단계에서 시암 네트워크 기반 메트릭 러닝 사전 학습을 수행하였다. 이 과정에서는 클래스 분류 를 직접 학습하는 대신, 동일 클래스 이미지 쌍의 임베딩 방향 정렬을 통해 클래스 불변적 표현을 학습하도록 설계 하였다. 이러한 메트릭 러닝 기반 접근은 소량 데이터 환 경에서도 안정적인 임베딩 공간을 형성하는 것으로 알려 져 있으며, 수중 소나 영상과 같이 데이터 수집이 제한되 고 클래스 내부 변동성이 큰 문제에 적합하다.
또한 2단계 분류 학습에서는 ViT 인코더를 고정한 상태 에서 분류기만 학습함으로써, 파라미터 수가 많은 트랜스 포머 모델에서 발생할 수 있는 과적합 위험을 효과적으로 억제하였다. 이러한 구조적 설계를 통해 본 연구는 클래스 별 380장의 제한된 데이터 조건에서도 ViT 기반 모델을 안정적으로 적용할 수 있음을 실험적으로 검증하였다.
4.2 실험 구성
본 실험에서는 비교를 위해 CNN 기반의 ResNet-50과 Transformer 기반의 ViT-S를 베이스라인 모델로 사용하였 다. 두 모델 모두 timm 라이브러리에서 제공되는 ImageNet-1k 사전학습 가중치를 적용한 버전을 사용하였 다.
본 연구의 전체 실험 절차는 <Figure 2>와 같이 두 단계 로 구성된다. 먼저 1단계에서는 동일 클래스 이미지 쌍의 임베딩을 방향적으로 정렬하기 위해 시암 ViT-S 인코더를 사전 학습한다. 이를 위해 ImageNet-1k 사전학습 가중치 를 포함한 ViT-S 인코더에 projection head(128차원 선형변 환층 및 l2 정규화)를 추가하여 코사인 유사도 기반 손실 로 학습하였다. 1단계 학습은 AdamW(learning rate=1e-5, weight decay=0.01)를 사용하여 총 100 epoch 동안 수행되 었으며, 모든 실험은 Google Colab Pro 환경에서 제공되는 NVIDIA Tesla A100 GPU를 사용하여 실험을 진행하였다
2단계에서는 1단계에서 학습된 ViT-S 인코더의 projection head를 제거하고, 인코더의 384차원 출력 임베딩을 그 대로 입력으로 사용하여 다섯 가지 분류기를 각각 독립적 으로 학습하였다
모든 모델은 동일한 UATD 데이터셋과 동일한 학습·평 가 프로토콜을 적용 받았으며, 이를 통해 네트워크 아키텍 처와 분류기 정규화 기법의 효과를 공정하고 독립적으로 비교할 수 있도록 구성하였다.
4.3 실험 결과 및 분석
본 연구에서는 분류 성능을 평가하기 위해 Macro F1 score를 주요 지표로 사용하고, 클래스별 오분류 경향 분 석을 위해 Macro Precision을 함께 제시하였다. 특히 UATD 데이터셋은 클래스 간 시각적 유사성이 높아, 특정 클래스에서의 오분류가 전체 정확도에 의해 가려질 가능 성이 있다. 이에 따라 본 연구에서는 클래스별 분류 성능 을 동일한 가중치로 반영할 수 있는 지표를 보완적으로 활용하였다.
<Table 1>과 <Figure 4>~<Figure 6>의 결과를 기반으로, 다섯 종류의 분류기를 임베딩 정규화 방식의 효과, 마할라 노비스 정규화 적용 여부의 상대적 특징 등을 살펴보자. 먼저, 선형분류기는 임베딩의 크기에 의존하기 때문에 다 른 정규화 기반 분류기 대비 가장 낮은 성능을 보였다. 이 는 수중 소나 영상과 같이 노이즈가 큰 환경에서는 절대 크기보다는 방향 정렬이 훨씬 중요한 특징임을 보여준다.
반면 코사인 분류기는 임베딩과 가중치 벡터를 l2 정규 화하여 단순한 선형 분류보다 훨씬 향상된 성능을 보였다. 특히 본 연구에서 제안한 시암 네트워크 기반 ViT-S 인코 더는 동일 클래스 간 방향 일관성을 강화하므로, 코사인 기반 분류기와 결합할 경우 높은 분류 성능을 나타냈다.
프록시 분류기는 각 클래스의 프록시 벡터를 직접 학습 하는 구조로, 프록시-앵커 기반 손실을 통해 클래스 중심 을 안정적으로 학습할 수 있다. 프록시 기반 구조는 소수 샘플 클래스에서 학습 안정성을 제공하며, 일반적인 코사 인 분류기보다 더 구조화된 표현 공간을 형성하는 것으로 알려져 있다. 그러나, 본 실험에서는 ViT-S 보다 성능이 낮게 나타났다 (<Table 1> 참조). 프록시 분류기는 각 클래 스를 하나의 프록시로 표현하는 단순한 분포 가정을 사용 한다. 그러나, 본 실험에서 사용된 UATD는 촬영 각도, 거 리, 수중 잡음 등[9]으로 인해 클래스 내 분산이 클 것으로 보여, 하나의 프록시로는 이러한 분포를 충분히 모델링하 기 어렵다. 반면 코사인 분류기는 임베딩의 방향 정보만을 사용하므로 이러한 분포 불일치에 더 강인하게 대응할 수 있다. 본 실험에서는 ViT-S 인코더를 고정한 상태에서 프 록시 헤드만 학습하였기 때문에, 프록시-앵커 구조가 지닌 인코더-프록시 통합 최적화의 이점을 활용할 수 없었다. 이러한 이유들로 인해 프록시 분류기는 ViT-S보다 낮은 성능을 보인 것으로 추정할 수 있다.
공분산 기반 정규화를 적용한 두 분류기(코사인·프록 시)는 공통적으로 클래스 간 분포 차이를 완화하여 기본 구조 대비 성능이 향상되는 결과를 보였다. 특히 정규화된 코사인 분류기는 방향 기반 판별 구조와 마할라노비스 정 규화가 가장 잘 결합되어 전체 모델 중 최고 정확도를 기 록하였다. 반면 프록시 분류기는 단일 중심 벡터로 클래스 전체 분포를 대표해야 하는 구조적 한계와, 동결된 인코더 환경에서 프록시 자체가 충분히 업데이트되지 못하는 제 약으로 인해 코사인 분류기보다 낮은 성능을 보였다. 이러 한 결과는 UATD처럼 클래스 내부 변화가 큰 데이터셋에 서는 프록시 기반 방식보다 방향 유사도 기반 분류기가 더 적합함을 시사한다.
<Table 1>의 결과에서 제안한 방법과 기존 방법들 간의 평균 성능 차이는 크지 않은 것으로 보일 수 있다. 그러나 이는 본 연구의 목적이 단순한 최고 성능 달성보다는, 제 한된 학습 데이터 환경에서의 안정적인 일반화 성능 확보 에 있음을 고려할 필요가 있다. 특히 UATD 데이터셋은 클래스 간 시각적 유사성이 높아 일부 클래스에서의 오분 류가 전체 평균 성능 지표에 의해 가려질 수 있는 특성을 갖는다. 이에 따라 본 연구에서는 전체 정확도(Accuracy) 보다는 클래스별 성능을 동일한 가중치로 반영하는 Macro Precision 및 Macro F1 score를 중심으로 성능을 분석하였 다. 그 결과, 제안한 비전 트랜스포머-메트릭 러닝 기반 방 법은 기존 방법 대비 특정 클래스에 편중된 오분류를 완화 하고, 클래스 간 성능 편차를 보다 안정적으로 유지하는 경향을 보였다.
<Figure 5>와 <Figure 6>의 혼동행렬을 비교하면, 기본 ViT-S 모델과 제안한 방법 간에 분명한 분류 패턴 차이가 관찰된다. 기본 ViT-S의 경우, 시각적 형태가 유사한 클래 스들 사이에서 상호 오분류가 빈번하게 발생하는 경향을 보인다. 반면, 제안한 방법에서는 이러한 오분류가 전반적 으로 감소하며, 특히 일부 유사 클래스 쌍에서 대각 성분 의 비율이 증가한 것을 확인할 수 있다. 이러한 차이는 1단 계 시암 네트워크 기반 메트릭 러닝을 통해 동일 클래스 임베딩의 방향적 일관성이 강화되고, 2단계에서 마할라노 비스 정규화를 적용함으로써 클래스 간 분포 차이가 보정 된 결과로 해석된다. 즉, 제안한 방법은 클래스 간 경계가 모호한 조건에서도 보다 안정적인 분류 경계를 형성함으 로써 오분류를 효과적으로 완화한 것으로 판단된다.
5. 결 론
본 논문에서는 수중 소나 영상의 클래스 내부 변동성, 다양한 촬영 조건, 센서 잡음 등으로 인해 발생하는 표현 공간의 불안정성을 개선하기 위해, 시암 ViT-S 인코더와 마할라노비스 정규화를 결합한 두 단계 분류 모델을 제안 하였다. 1단계에서는 시암 ViT-S를 통해 동일 클래스 간 임베딩 방향을 정렬하고, 2단계에서는 학습된 인코더를 고정한 상태에서 코사인 및 프록시 기반 분류기를 구성하 여 마할라노비스 정규화를 적용한 여러 분류 구조를 비교· 검증하였다.
실험 결과, 마할라노비스 정규화는 클래스 간 분포의 불 균질성을 완화하여 전체적인 분류 정확도를 향상시키는 것으로 나타났다. 특히 마할라노비스 정규화가 적용된 코 사인 분류기는 방향 기반 판별 구조와의 결합 효과가 가장 크게 나타나, 실험에 포함된 모든 모델 중 가장 높은 정확 도를 기록하였다. 반면 프록시 분류기는 단일 중심 벡터로 클래스 전체의 넓은 분포를 설명해야 하는 구조적 제약과, 인코더가 동결된 환경에서 프록시의 업데이트가 제한되는 특성으로 인해 상대적으로 작은 개선 폭을 보였다. 이는 UATD와 같이 클래스 내부 변동성이 큰 소나 데이터에서 는 방향·유사도 기반의 코사인 분류기가 더 적합함을 시사 한다.
제안된 접근법은 소나 센서 특성 변화, 환경 잡음, 관 측 조건 변화가 큰 실제 해양 감시·항해 지원 시스템에 도 적용 가능성이 높으며, 향후에는 마할라노비스 정규 화와 메트릭 러닝을 통합한 종단간 학습, 클래스 내 분포 를 다중 중심으로 표현하는 멀티 프록시 구조, 자기 지도 사전학습과의 결합 등을 통해 더욱 확장할 수 있을 것으 로 기대된다.
















