Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.48 No.4 pp.155-164
DOI : https://doi.org/10.11627/jksie.2025.48.4.155

Underwater Sonar Image Classification based on Vision Transformer with Metric Learning

Woohyong Lee^*

, Kyeongtaek Kim^**

, Eunchul Park^***

, Jihoon Kyung^*†

^*Department of Industrial Engineering, Hannam University
^**Link Nine System Inc.
^***Maritime Research Center, LIG Nex1

^†Corresponding Author : kjh@hnu.kr

Received 19/11/2025 Finally Revised 15/12/2025 Accepted 16/12/2025

Abstract

Underwater sonar image classification is essential for maritime surveillance, autonomous navigation, and underwater target identification, where optical sensing is often restricted by turbidity and light attenuation. To enhance the robustness of sonar-based perception under such challenging conditions, this study proposes a metric-enhanced Vision Transformer (ViT) framework that integrates Siamese-based representation alignment with distance-regularized classification. In the first stage, a Siamese pre-training strategy is employed to align embeddings of positive pairs, encouraging directionally consistent representations that improve class separability even under severe noise and viewpoint variations. In the second stage, the pretrained ViT encoder is frozen, and five classifiers—Linear, Cosine, Proxy, and their Mahalanobis-regularized variants—are systematically evaluated to investigate the effect of embedding normalization and distributional alignment. Experimental results on the UATD dataset demonstrate that the Siamese-trained ViT produces more stable and discriminative features than both ResNet-50 and standard ViT-S. Among the classifiers, the Mahalanobis-regularized cosine classifier achieves the highest, showing significant reductions in misclassification between visually similar classes such as cube and square cage. Overall, the proposed approach highlights the effectiveness of combining ViT with metric learning and covariance-aware distance normalization for underwater sonar image recognition. The results suggest that metric-enhanced transformers offer a robust and generalizable foundation for sonar-based perception in real maritime environments.

Key Words : Underwater Sonar Image Classification , Metric Learning , Vision Transformer , Siamese Network

비전 트랜스포머 및 메트릭 러닝 기반 수중 소나 이미지 분류

이우형^*, 김경택^**, 박은철^***, 경지훈^*†

^*한남대학교 산업공학과
^**㈜ 링크나인시스템
^***LIG 넥스원 해양연구소

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

수중 환경은 탁도(turbidity), 빛의 감쇠(light attenuation), 음향 반사 등의 요인으로 인해 시각 기반 영상 인식이 제 한되는 특성을 가진다. 이러한 이유로, 음향 센서를 활용한 소나(sonar) 영상은 해양 감시, 수중 표적 탐지, 자율 무인잠수정(AUV: Autonomous Underwater Vehicle)의 항법 및 탐사 등 다양한 군사·산업 분야에서 핵심적인 역할을 수행한다. 그러나 소나 영상은 시각적 대비가 낮고, 노이즈와 왜곡이 빈번히 발생하기 때문에 전통적인 영상 분류 기법으로는 높은 인식 정확도를 확보하기 어렵다[3,5].

기존 연구에서는 합성곱 신경망(Convolutional Neural Network, CNN)을 기반으로 한 소나 영상 분류가 주로 수행되어 왔다. CNN 기반 모델들은 물체의 국소적 특징을 효과적으로 포착하지만, 수중 환경의 특성상 발생하는 구조적 왜곡이나 음향 반사 차이를 반영하기에는 한계가 있다. 최근에는 비전 트랜스포머(Vision Transformer, ViT)가 영상 인식 분야에서 우수한 전역적 표현 학습 성능을 보이며 다양한 응용 분야에 적용되고 있다. 하지만 ViT 역시 대규모 데이터에 대한 의존성과 클래스 간 특징 경계가 모호한 데이터셋에서는 일반화 능력이 제한되는 문제가 있다.

메트릭 러닝(Metric Learning)은 샘플 간의 유사도를 직접 학습함으로써 특징 공간에서 동일 클래스 샘플을 가깝게, 상이한 클래스를 멀리 배치하도록 유도하는 방법이다. 이는 데이터 수가 제한된 환경이나 클래스 간 경계가 불명확한 문제에서 특히 효과적이다. 본 연구에서는 이러한 메트릭 러닝의 장점을 ViT 구조에 결합하여, 수중 소나 이미지의 분류 성능을 향상시키는 방법을 제안한다.

제안된 방법은 두 단계로 구성된다. 첫 번째 단계에서는 시암 네트워크(Siamese Network)를 이용한 사전 학습을 수행하여, 동일 클래스 쌍(positive pair)의 클래스 유사도를 최대화함으로써 방향적으로 정렬된 임베딩 공간을 형 성한다. 두 번째 단계에서는 동결된 ViT 인코더를 기반으 로 하는 다섯 가지 분류기(classifier)를 구성하고, 수중 소나 이미지를 입력으로 하는 실험을 통하여 각 분류기의 성능 지표를 얻는다. 이를 기존의 CNN을 대표하는 Resnet50 분류기 및 ViT 분류기에 대한 실험 결과와 비교하여, 우수한 분류기를 가려낸다.

본 논문의 주요 기여는 다음과 같다.

(1) 비전 트랜스포머 구조에 메트릭 러닝 기반 시암 사전 학습을 결합함으로써, 수중 소나 이미지의 판별력을 향상시키는 새로운 학습 프레임워크를 제안하였다.
(2) 다양한 분류기 구조에 대한 비교를 통해, 임베딩 정규화 기법의 성능적 영향과 효과를 정량적으로 분석하였다.

본 논문의 구성은 다음과 같다.

제2장에서는 관련 연구로서 기존의 CNN 및 트랜스포머 기반 수중 영상 인식 기법과 메트릭 러닝 연구를 검토 한다. 제3장에서는 제안된 비전 트랜스포머 및 메트릭 러닝 결합 구조를 상세히 설명하며, 제4장에서는 실험 환경, 데이터셋, 결과 분석을 제시한다. 마지막으로 제5장에서는 결론 및 향후 연구 방향을 논의한다.

2. 연구배경 및 관련 연구

2.1 수중 소나 이미지 분석

수중 소나(sonar) 이미지는 해양 탐사, 수중 구조물 감지, 자율 무인 잠수정 운항 등 다양한 임무에서 핵심적인 시각 정보를 제공한다. 그러나 소나 영상은 일반적인 RGB 영상과 달리 저해상도, 고노이즈, 대비 부족, 윤곽선의 불명확성 등의 특성을 가지며, 이는 전통적인 영상 분류 기법이 정확하게 동작하기 어렵게 만든다. 특히 전방주시소나(Forward-Looking Sonar, FLS) 기반의 영상은 객체가 일정 각도로 투영되면서 왜곡되고, 음향 반사 강도에 따라 이미지 해석이 어려운 경우가 많다. 또한, 동일한 클래스 내에서도 객체의 형태가 크게 다르거나, 서로 다른 클래스 간 유사한 패턴이 나타나는 경우가 빈번하게 발생한다. 이러한 특성들은 수중소나 이미지를 분류하는 데 있어 정규화된 특징 추출, 노이즈 억제, 특징 간 거리 기반 분류기 설계가 중요하다는 점을 시사한다. 이에 따라 최근에는 심층 신경망 기반의 표현 학습과 정교한 임베딩 정규화 기법들이 도입되고 있다.

2.2 기존 심층 신경망 기반 접근법

수중 소나 이미지 자동 분류에 대한 초기 연구에서는 CNN 기반 모델이 수중 영상 및 소나 영상의 분류에 활용 되었다. 이들 모델은 지역적 특징 추출에는 효과적이지만, 전역적 구조나 음향 패턴의 방향성 정보를 포착하기 어렵다는 한계가 있다. 최근에는 이미지 패치를 입력 토큰으로 변환하여 어텐션 메커니즘으로 전역 정보를 학습하는 비전 트랜스포머가 <Figure 1>과 같이 제안되어, 여러 컴퓨터 비전 벤치마크에서 CNN을 능가하는 성능을 보였다. 다만, 비전 트랜스포머는 대규모 학습 데이터가 필요하여 수중소나 이미지를 이용한 컴퓨터 비젼에 ViT를 이용한 논문[14,17,18]은 제한적이며, 데이터 수가 적거나 클래스 간 경계가 모호한 상황에서는 일반화 능력이 저하된다.

2.3 전이 학습

최근에는 ViT를 다양한 영상 분야에 전이학습 방식으로 적용하려는 시도가 활발하게 이루어지고 있다[4,20]. 그러나 ViT는 다음과 같은 한계점도 내포한다. 수중 영상처럼 데이터가 제한된 환경에서는 과적합 가능성이 존재한다. 또한, 소프트맥스 기반의 출력 분류기만으로는 임베딩 공간 내의 클래스 분포를 효과적으로 정규화하기 어렵다.

2.4 메트릭 러닝

메트릭 러닝은 샘플 간의 거리(metric)를 학습하여, 임베딩 공간에서 동일 클래스 샘플 간 거리를 가깝게, 다른 클래스 간 거리를 멀게 하여 분류 경계를 명확히 하는 방법이다. 대표적으로 시암 네트워크는 두 입력 간의 거리 차이를 기반으로 학습을 수행하며, Triplet Network[16]은 이 를 확장하여 Anchor-Positive-Negative 관계를 통해 더욱 정교한 임베딩 공간을 학습한다. 이러한 연구들은 공통적으로 데이터가 제한된 환경에서도 강건한 특징 공간을 형성할 수 있다는 점에서, 수중 소나 영상과 같이 데이터 희소성이 존재하는 문제에 적합하다[12,13,16].

2.5 거리 기반 분류기

임베딩 벡터를 이용한 분류 단계에서, 단순 선형 분류기 대신 거리 기반구조를 적용하는 연구가 활발하다. 코사인 분류기는 각 클래스 중심과 입력 간의 각도 기반 유사도를 사용하여, 임베딩 방향의 정렬 효과를 강화한다. 프록시 기반 방법은 클래스별 프록시 벡터를 학습하여 임베딩 클래스간 유사도를 직접 계산하며, 이는 학습 안정성과 수렴 속도를 개선한다. 더 나아가, 마하라노비스 거리는 클래스 분산을 고려하는 통계적 거리 척도로, 최근에는 코사인 분류기 또는 프록시 분류기와 결합되어 임베딩의 분포를 정규화함으로써 성능을 향상시킨다는 연구가 있다 [9,15] .

2.6 관련연구

최근 ViT 성능이 다양한 시각 인식 문제에서 입증됨에 따라, ViT를 특징 추출기로 활용하고 메트릭 러닝 기법을 결합하려는 연구들이 활발히 수행되고 있다. Dosovitskiy et al.[6]은 트랜스포머 기반 구조가 대규모 이미지 인식 문제에서 강력한 표현 능력을 가짐을 보였으며, 이후 ViT 인코더에 프록시 기반 메트릭 러닝 손실을 결합하거나[11], 자기지도학습 또는 시암 구조를 활용한 임베딩 정렬 방식[1,2]이 제안되었다. 이러한 연구들은 주로 대규모 자연 영상 데이터셋이나 이미지 검색 문제를 대상으로 하며, 명시적인 분류 손실 없이도 판별력 있는 임베딩 공간을 학습 할 수 있음을 보였다. 기존 ViT 기반 메트릭 러닝 연구들과 달리, 본 연구는 데이터 수집이 제한적인 수중 소나 영상 환경을 대상으로, 제한된 학습 데이터 조건에서의 일반화 성능 향상에 초점을 둔다.

초기 수중 소나 이미지 분류 연구는 주로 CNN을 기반으로 이루어졌다. Valdenegro-Toro[19]는 FLS 이미지를 대상으로 CNN과 Cross-Entropy 손실 함수를 적용하여 분류를 수행하였으며, 템플릿 매칭 방식보다 정확도와 일반화 성능이 우수함을 입증하였다. Fuchs et al.[8]은 사전 학습된 ResNet-50 모형과 전이 학습을 결합하여 FLS 이미지에서 특징을 추출하는 방법을 제안하였다. Jin et al.[10]은 다중 클래스 표적 분류에 CNN과 전이 학습을 적용하여, 전이 학습이 성능 향상에 기여함을 실험적으로 확인하였다. 또한 Fan et al.[7]은 Mask R-CNN 구조를 변형하여 파라미터 수를 줄이면서도 FLS 이미지에서 정확도를 유지하는 방법을 제안하였다.

2022년 이후에는 트랜스포머 계열 모형을 활용한 연구가 등장하기 시작했다. Zhu et al.[23]은 Swin 트랜스포머 기반 모형을 적용하여, CNN 특징 추출 과정에서 나타나는 간섭 문제를 완화하고 소나 이미지의 분류 정확도를 개선하였다. Sun 등[15]은 서로 다른 패치 크기를 사용하는 두 개의 ViT를 결합한 모형을 제안하였으며, 적은 수의 학습 샘플로도 우수한 분류 성능을 달성할 수 있음을 보고하였다. 소나 이미지 분류 성능을 높이기 위한 메트릭 러닝 기반 접근도 최근 주목받고 있다. Chungath 등[4]은 전이학습 조건에서 다양한 딥러닝 모델을 비교 분석하였으며, 특히 시암 네트워크를 활용한 메트릭 러닝 구조가 제한된 데이터 환경에서 우수한 분류 성능을 보임을 실험적으로 입증하였다. 한편, Vasankari 등[20]은 실제 해양 환경에서 획득된 소나 이미지에 대해 VGG 계열 CNN과 ViT 를 비교하였으며, 전이학습된 ViT가 클래스 간 경계가 모호한 조건에서도 높은 분류 성능을 보이는 것을 실험적으로 입증하였다.

3. 제안 방법

3.1 개요

기존의 ViT는 강력한 전역적 표현 학습 능력을 보유하고 있으나, 클래스 간 경계가 모호하거나 데이터가 제한된 환경에서는 임베딩 공간 내 분리도가 충분히 확보되지 않는 한계가 존재한다. 이러한 문제는 수중 소나 이미지와 같이 노이즈가 심하고 시각적 유사성이 높은 데이터셋에서 더욱 두드러지며, 단순한 소프트맥스(softmax) 기반 분류기만으로는 안정적인 클래스 경계를 형성하기 어렵다. 이에 본 연구에서는 ViT의 전역적 표현 학습 능력에 메트릭 러닝 개념을 결합하여, 임베딩 공간의 정규화 및 클래스 간 분리도를 동시에 향상시키는 학습 구조를 제안한다. 제안된 학습 프레임워크는 <Figure 2>와 같이 두 단계로 구성된다.

3.2 1단계: 시암 ViT 표현 학습

본 연구의 1단계는 ViT를 기반으로 한 시암 네트워크 구조를 이용하여, 동일 클래스 간 임베딩의 방향적 일관성을 확보하는 단계이다. 이 단계의 핵심 목표는 서로 다른 관측 조건이나 노이즈 환경에서도 동일 클래스에 해당하는 샘플들이 임베딩 공간 내에서 근접하게 정렬되도록 유도하는 것이다.

시암 네트워크는 동일한 ViT 인코더를 공유하는 두 개의 분기로 구성되며, 입력으로 동일 클래스의 서로 다른 이미지 x_i, x_j를 받는다. 각 입력은 동일한 인코더 f_θ (∙)를 거쳐 임베딩 벡터로 변환된다. ViT 인코더의 출력 벡터는 384차원(384d)의 특성으로 구성된다. 이 벡터는 완전연결층(fully connected layer, FC)을 통해 128차원(128d)으로 선형 변환되어 투영된다.

z_{i} = f_{θ} (x_{i}), z_{j} = f_{θ} (x_{j})

(1)

이후 l₂ 정규화를 거쳐 단위 구면(hypersphere) 상에 매핑된다. 이때 학습의 목적은 두 임베딩 간의 코사인 유사도를 최대화하는 것이다. 이를 위해 식 (2)와 같은 코사인 유사도 기반 손실 함수를 정의한다.

L o s s = 1 - \frac{z_{i}}{‖ z_{i}} ‖ \cdot \frac{z_{j}}{‖ z_{j} ‖}

(2)

이 손실은 동일 클래스 쌍 사이의 방향 일치도를 높이며, 결과적으로 ViT 인코더가 클래스 불변적 표현을 학습 하도록 유도한다. 이 과정을 통해 동일 클래스의 특성이 구면 상에서 유사한 방향으로 정렬되며, 클래스 간 각도 차이는 점차 확장된다.

시암 네트워크 학습이 완료된 후, ViT 인코더의 원래 출력(384차원)을 분류기 입력으로 사용한다. 이러한 과정은 대조 학습 및 자기 지도 학습 분야에서 일반적으로 채택되는 접근으로, 학습 중에는 표현 공간의 정렬에 집중하고, 분류 단계에서는 원래의 특징 정보를 보존하기 위함 이다.

1단계에서 학습된 ViT 인코더는 2단계 분류기 학습 과정에서 가중치를 고정한 상태로 사용되며, 고정된 ViT 인코더(frozen ViT encoder)로서 특징 표현을 추출하는 역할을 수행한다. 즉, 시암 ViT는 임베딩 공간의 방향 일관성과 정규화된 분포 구조를 확보함으로써, 2단계에서 적용될 거리 기반 분류기들이 더 효율적으로 클래스 간 경계를 학습할 수 있도록 한다. 이를 통해 전체 학습 과정은 “표현 정렬 → 판별 강화”의 두 단계로 체계적으로 연결된다.

3.3 2단계: 분류기 학습

1단계에서 사전 학습된 ViT 인코더는 2단계에서 고정된 표현 추출기로 사용된다. 이 단계의 목적은 시암 ViT가 생성한 임베딩을 입력으로 하여 다양한 거리 기반 분류기 를 학습시키고, 각각의 분류 특성 및 성능을 비교·분석하는 것이다. 본 연구에서는 총 다섯 가지 분류기 구조를 구성하였다.

각 분류기는 임베딩의 정규화 여부, 거리 계산 방식, 그리고 클래스 간 통계적 분산 반영 여부에 따라 차별화된다.

3.3.1 선형 분류기

선형 분류기의 출력인 클래스의 확률은 다음과 같이 정의된다.

\hat{y} = softmax(W z + b)

(3)

손실함수로는 교차 엔트로피를 사용한다.

L o s s = - \sum_{c = 1}^{C} y_{c} \log {\hat{y}}_{c}

(4)

여기에서 c는 클래스를 나타낸다. 이 방식은 임베딩의 크기와 방향을 모두 반영하기 때문에 기준값 역할을 한다.

3.3.2 코사인 분류기

코사인 분류기는 먼저 임베딩 z와 클래스 가중치 w_c를 정규화한 후 곱하여 각 클래스의 점수를 다음과 같이 계산한다.

l o g i t_{c} = s \cdot \frac{z}{‖ z ‖} \cdot \frac{w_{c}}{‖ w_{c} ‖}

(5)

여기서 s는 학습 가능한 스케일 파라미터이다. 최종 확률은 다음과 같다.

{\hat{y}}_{c} = softmax(l o g i t_{c})

(5)

손실함수로는 선형분류기와 동일하게 교차엔트로피를 사용하므로, 임베딩은 주로 분류 정확도를 높이는 방향으로 최적화된다. 즉, 가중치가 간접적인 클래스 중심 역할을 수행하지만, 클래스 간 간격을 명시적으로 조절하지는 않는다.

3.3.3 프록시 분류기

프록시 분류기는 각 클래스를 하나의 대표 벡터(proxy) p_c로 표현하며, 입력 임베딩 z와 프록시 p_c 간의 코사인 유사도를 기반으로 분류를 수행한다. 여기에서 프록시 p_c는 모델 내부에서 학습 가능한 파라미터로 정의된다. 입력 임베딩과 프록시는 모두 l₂ 정규화되며, 클래스 점수는 다음과 같다.

l o g i t_{c} = \cos (z, p_{c}) = \frac{z \cdot p_{c}}{‖ z ‖ ‖ p_{c} ‖}

(7)

손실함수로는 Proxy-Anchor 방식의 마진(margin) 기반 손실[9]를 적용하여 정답 클래스(positive)에 대해서는 유 사도가 마진 이상이 되도록 하고, 오답 클래스(negative)에 대해서는 마진 이하가 되도록 억제하였다.

L_{p o s} = α \cdot max(0, m - l o g i t_{c})

(8)

L_{n e g} = β \cdot max(0, l o g i t_{c} - m)

(9)

최종 손실은 L_pos와 L_neg항의 합으로 구성되며, 실험에서는 마진 m=0.2, α =32, β=32를 사용하였다.

코사인 분류기와 프록시 분류기는 동일한 코사인 유사도를 사용하지만, 코사인 분류기의 가중치 w_c는 소프트맥스 교차 엔트로피를 통해 간접적으로 최적화되는 반면 프록시 분류기의 프록시 p_c는 마진 기반 Proxy-Anchor 손실을 통해 명시적인 클래스 중심으로 학습된다. 따라서 두 분류기는 유사한 클래스 점수 공식을 사용하더라도 임베딩 공간에 서로 다른 기하학적 구조를 형성한다.

3.3.4 마할라노비스 정규화 기반 코사인 분류기

코사인 분류기의 각도 기반 구조에 클래스 분산 정보를 반영하기 위해, 마할라노비스 정규화를 적용하였다. 학습 데이터 임베딩으로부터 평균 μ와 공분산 Σ를 추정하고, 이를 이용해 공분산 정규화 행렬 W = Σ^-1⁄2를 계산한다. 입력 임베딩을 다음과 같이 정규화 공간으로 변환된다.

z_{W} = (z - μ) W^{T}

(10)

이후 코사인 분류기와 동일하게 정규화된 임베딩과 클래스 가중치의 내적을 통해 각 클래스 점수를 계산한다.

y_{c} = s \cdot \frac{z_{W}}{‖ z_{W} ‖} \cdot \frac{w_{c}}{‖ w_{c} ‖}

(11)

이 구조는 마할라노비스 거리 효과를 내재화하여, 클래스 간 공분산 차이를 보정하고 임베딩 공간의 분포를 안정화한다.

3.3.5 마할라노비스 정규화 기반 프록시 분류기

이 모델은 프록시 기반 분류 구조에 마할라노비스 정규화를 적용하여, 클래스 간 분산 차이를 보정한 후 Proxy-Anchor 손실[9]로 학습된다. 먼저 학습 데이터의 임베딩으로부터 평균 μ와 공분산 Σ를 추정하고, W = Σ^-1⁄2 를 계산한 후, 입력 임베딩을 다음과 같이 변환한다.

z_{W} = (z - μ) W^{T}

(12)

입력 임베딩과 프록시는 모두 l₂ 정규화되며, 클래스 점수는 다음과 같다.

l o g i t_{c} = \cos (z_{W}, p_{c}) = \frac{z_{W} \cdot p_{c}}{‖ z_{W} ‖ ‖ p_{c} ‖}

(13)

이 모델은 Proxy-Anchor 방식의 마진 기반 손실로 학습 되며, 3.3.3절의 손실 정의와 유사하다.

4. 실험 및 결과분석

앞 장에서 소개한 분류기들은 각각 다른 정규화 및 거리 계산 방식의 구조를 가지므로, 특정 구조가 항상 우수하다고 단정하기 어렵다. 이에 본 장에서는 제안된 분류기의 성능을 수중 소나 이미지 분류 문제의 실험을 통해 비교․분석하였다.

4.1 데이터 셋

본 연구에서는 Xie et al.[17]이 구축한 UATD(Underwater Acoustic Target Detection) 공개 데이터셋[22]을 사용하였다. UATD 데이터셋은 전방주시소나로 취득된 객체 영상을 포함하며, 같은 표적이라도 관측 위치와 각도에 따라 노이즈와 왜곡이 존재한다. <Figure 3>은 UATD 데이터셋의 객체를 예시로 보여준다. UATD 데이터셋은 클래스 간 샘플 수의 불균형이 존재하므로, 본 실험에서는 가장 샘플 수가 적은 Metal bucket 클래스를 제외한 9개 클래스를 사용하였다. 각 클래스별로 이미지 380장을 무작위 추출하여 학습 300장, 검증 40장, 테스트 40장으로 분할하였으며, 전처리를 통하여 모든 이미지는 224×224 크기로 조정하였다.

비전 트랜스포머(ViT)는 일반적으로 대규모 학습 데이터가 필요하다는 한계가 지적되어 왔다. 그러나 본 연구에서의 학습 설정은 ViT를 처음부터 학습(from-scratch)하는 경우와는 본질적으로 다르다. 본 연구에서는 ImageNet-1k로 사전학습된 ViT-S 인코더를 사용하고, 이를 수중 소나 도메인에 전이 학습 방식으로 적용하였다.

특히, 제한된 데이터 환경에서의 일반화 성능 저하 문제를 완화하기 위해, 1단계에서 시암 네트워크 기반 메트릭 러닝 사전 학습을 수행하였다. 이 과정에서는 클래스 분류를 직접 학습하는 대신, 동일 클래스 이미지 쌍의 임베딩 방향 정렬을 통해 클래스 불변적 표현을 학습하도록 설계 하였다. 이러한 메트릭 러닝 기반 접근은 소량 데이터 환경에서도 안정적인 임베딩 공간을 형성하는 것으로 알려져 있으며, 수중 소나 영상과 같이 데이터 수집이 제한되고 클래스 내부 변동성이 큰 문제에 적합하다.

또한 2단계 분류 학습에서는 ViT 인코더를 고정한 상태에서 분류기만 학습함으로써, 파라미터 수가 많은 트랜스 포머 모델에서 발생할 수 있는 과적합 위험을 효과적으로 억제하였다. 이러한 구조적 설계를 통해 본 연구는 클래스 별 380장의 제한된 데이터 조건에서도 ViT 기반 모델을 안정적으로 적용할 수 있음을 실험적으로 검증하였다.

4.2 실험 구성

본 실험에서는 비교를 위해 CNN 기반의 ResNet-50과 Transformer 기반의 ViT-S를 베이스라인 모델로 사용하였다. 두 모델 모두 timm 라이브러리에서 제공되는 ImageNet-1k 사전학습 가중치를 적용한 버전을 사용하였 다.

본 연구의 전체 실험 절차는 <Figure 2>와 같이 두 단계로 구성된다. 먼저 1단계에서는 동일 클래스 이미지 쌍의 임베딩을 방향적으로 정렬하기 위해 시암 ViT-S 인코더를 사전 학습한다. 이를 위해 ImageNet-1k 사전학습 가중치를 포함한 ViT-S 인코더에 projection head(128차원 선형변 환층 및 l₂ 정규화)를 추가하여 코사인 유사도 기반 손실로 학습하였다. 1단계 학습은 AdamW(learning rate=1e-5, weight decay=0.01)를 사용하여 총 100 epoch 동안 수행되었으며, 모든 실험은 Google Colab Pro 환경에서 제공되는 NVIDIA Tesla A100 GPU를 사용하여 실험을 진행하였다

2단계에서는 1단계에서 학습된 ViT-S 인코더의 projection head를 제거하고, 인코더의 384차원 출력 임베딩을 그대로 입력으로 사용하여 다섯 가지 분류기를 각각 독립적으로 학습하였다

모든 모델은 동일한 UATD 데이터셋과 동일한 학습·평가 프로토콜을 적용 받았으며, 이를 통해 네트워크 아키텍처와 분류기 정규화 기법의 효과를 공정하고 독립적으로 비교할 수 있도록 구성하였다.

4.3 실험 결과 및 분석

본 연구에서는 분류 성능을 평가하기 위해 Macro F1 score를 주요 지표로 사용하고, 클래스별 오분류 경향 분석을 위해 Macro Precision을 함께 제시하였다. 특히 UATD 데이터셋은 클래스 간 시각적 유사성이 높아, 특정 클래스에서의 오분류가 전체 정확도에 의해 가려질 가능성이 있다. 이에 따라 본 연구에서는 클래스별 분류 성능을 동일한 가중치로 반영할 수 있는 지표를 보완적으로 활용하였다.

<Table 1>과 <Figure 4>~<Figure 6>의 결과를 기반으로, 다섯 종류의 분류기를 임베딩 정규화 방식의 효과, 마할라 노비스 정규화 적용 여부의 상대적 특징 등을 살펴보자. 먼저, 선형분류기는 임베딩의 크기에 의존하기 때문에 다른 정규화 기반 분류기 대비 가장 낮은 성능을 보였다. 이는 수중 소나 영상과 같이 노이즈가 큰 환경에서는 절대 크기보다는 방향 정렬이 훨씬 중요한 특징임을 보여준다.

반면 코사인 분류기는 임베딩과 가중치 벡터를 l₂ 정규 화하여 단순한 선형 분류보다 훨씬 향상된 성능을 보였다. 특히 본 연구에서 제안한 시암 네트워크 기반 ViT-S 인코더는 동일 클래스 간 방향 일관성을 강화하므로, 코사인 기반 분류기와 결합할 경우 높은 분류 성능을 나타냈다.

프록시 분류기는 각 클래스의 프록시 벡터를 직접 학습하는 구조로, 프록시-앵커 기반 손실을 통해 클래스 중심을 안정적으로 학습할 수 있다. 프록시 기반 구조는 소수 샘플 클래스에서 학습 안정성을 제공하며, 일반적인 코사인 분류기보다 더 구조화된 표현 공간을 형성하는 것으로 알려져 있다. 그러나, 본 실험에서는 ViT-S 보다 성능이 낮게 나타났다 (<Table 1> 참조). 프록시 분류기는 각 클래스를 하나의 프록시로 표현하는 단순한 분포 가정을 사용한다. 그러나, 본 실험에서 사용된 UATD는 촬영 각도, 거리, 수중 잡음 등[9]으로 인해 클래스 내 분산이 클 것으로 보여, 하나의 프록시로는 이러한 분포를 충분히 모델링하기 어렵다. 반면 코사인 분류기는 임베딩의 방향 정보만을 사용하므로 이러한 분포 불일치에 더 강인하게 대응할 수 있다. 본 실험에서는 ViT-S 인코더를 고정한 상태에서 프록시 헤드만 학습하였기 때문에, 프록시-앵커 구조가 지닌 인코더-프록시 통합 최적화의 이점을 활용할 수 없었다. 이러한 이유들로 인해 프록시 분류기는 ViT-S보다 낮은 성능을 보인 것으로 추정할 수 있다.

공분산 기반 정규화를 적용한 두 분류기(코사인·프록시)는 공통적으로 클래스 간 분포 차이를 완화하여 기본 구조 대비 성능이 향상되는 결과를 보였다. 특히 정규화된 코사인 분류기는 방향 기반 판별 구조와 마할라노비스 정규화가 가장 잘 결합되어 전체 모델 중 최고 정확도를 기록하였다. 반면 프록시 분류기는 단일 중심 벡터로 클래스 전체 분포를 대표해야 하는 구조적 한계와, 동결된 인코더 환경에서 프록시 자체가 충분히 업데이트되지 못하는 제약으로 인해 코사인 분류기보다 낮은 성능을 보였다. 이러한 결과는 UATD처럼 클래스 내부 변화가 큰 데이터셋에 서는 프록시 기반 방식보다 방향 유사도 기반 분류기가 더 적합함을 시사한다.

<Table 1>의 결과에서 제안한 방법과 기존 방법들 간의 평균 성능 차이는 크지 않은 것으로 보일 수 있다. 그러나 이는 본 연구의 목적이 단순한 최고 성능 달성보다는, 제한된 학습 데이터 환경에서의 안정적인 일반화 성능 확보에 있음을 고려할 필요가 있다. 특히 UATD 데이터셋은 클래스 간 시각적 유사성이 높아 일부 클래스에서의 오분류가 전체 평균 성능 지표에 의해 가려질 수 있는 특성을 갖는다. 이에 따라 본 연구에서는 전체 정확도(Accuracy) 보다는 클래스별 성능을 동일한 가중치로 반영하는 Macro Precision 및 Macro F1 score를 중심으로 성능을 분석하였다. 그 결과, 제안한 비전 트랜스포머-메트릭 러닝 기반 방법은 기존 방법 대비 특정 클래스에 편중된 오분류를 완화하고, 클래스 간 성능 편차를 보다 안정적으로 유지하는 경향을 보였다.

<Figure 5>와 <Figure 6>의 혼동행렬을 비교하면, 기본 ViT-S 모델과 제안한 방법 간에 분명한 분류 패턴 차이가 관찰된다. 기본 ViT-S의 경우, 시각적 형태가 유사한 클래스들 사이에서 상호 오분류가 빈번하게 발생하는 경향을 보인다. 반면, 제안한 방법에서는 이러한 오분류가 전반적으로 감소하며, 특히 일부 유사 클래스 쌍에서 대각 성분의 비율이 증가한 것을 확인할 수 있다. 이러한 차이는 1단계 시암 네트워크 기반 메트릭 러닝을 통해 동일 클래스 임베딩의 방향적 일관성이 강화되고, 2단계에서 마할라노 비스 정규화를 적용함으로써 클래스 간 분포 차이가 보정된 결과로 해석된다. 즉, 제안한 방법은 클래스 간 경계가 모호한 조건에서도 보다 안정적인 분류 경계를 형성함으로써 오분류를 효과적으로 완화한 것으로 판단된다.

5. 결 론

본 논문에서는 수중 소나 영상의 클래스 내부 변동성, 다양한 촬영 조건, 센서 잡음 등으로 인해 발생하는 표현 공간의 불안정성을 개선하기 위해, 시암 ViT-S 인코더와 마할라노비스 정규화를 결합한 두 단계 분류 모델을 제안하였다. 1단계에서는 시암 ViT-S를 통해 동일 클래스 간 임베딩 방향을 정렬하고, 2단계에서는 학습된 인코더를 고정한 상태에서 코사인 및 프록시 기반 분류기를 구성하여 마할라노비스 정규화를 적용한 여러 분류 구조를 비교· 검증하였다.

실험 결과, 마할라노비스 정규화는 클래스 간 분포의 불균질성을 완화하여 전체적인 분류 정확도를 향상시키는 것으로 나타났다. 특히 마할라노비스 정규화가 적용된 코사인 분류기는 방향 기반 판별 구조와의 결합 효과가 가장 크게 나타나, 실험에 포함된 모든 모델 중 가장 높은 정확도를 기록하였다. 반면 프록시 분류기는 단일 중심 벡터로 클래스 전체의 넓은 분포를 설명해야 하는 구조적 제약과, 인코더가 동결된 환경에서 프록시의 업데이트가 제한되는 특성으로 인해 상대적으로 작은 개선 폭을 보였다. 이는 UATD와 같이 클래스 내부 변동성이 큰 소나 데이터에서는 방향·유사도 기반의 코사인 분류기가 더 적합함을 시사한다.

제안된 접근법은 소나 센서 특성 변화, 환경 잡음, 관측 조건 변화가 큰 실제 해양 감시·항해 지원 시스템에도 적용 가능성이 높으며, 향후에는 마할라노비스 정규화와 메트릭 러닝을 통합한 종단간 학습, 클래스 내 분포를 다중 중심으로 표현하는 멀티 프록시 구조, 자기 지도 사전학습과의 결합 등을 통해 더욱 확장할 수 있을 것으로 기대된다.

Acknowledgement

This work was supported by the KRIT (Korea Research Institute for Defense Technology Planning and Advancement) and LIG Nex1, grant funded by the Defense Acquisition Program Administration (DAPA).

Figure

<Figure 1>.

ViT Model Overview[6]

<Figure 2>.

Overview of the Proposed Model

<Figure 3>.

Objects of the Dataset

<Figure 4>.

Performance Measures per Class

<Figure 5>.

Confusion Matrix of ViT-S

<Figure 6>.

Confusion Matrix of the Best-performing Proposed Method

Table

<Table 1>.

Test Performance of Each Model

Model	Macro Precision	Macro F1
Resnet-50	0.792	0.779
ViT-S	0.808	0.778
Linear Classifier	0.686	0.636
Cosine Classifier	0.831	0.820
Proxy Classifier	0.771	0.747
Mahalanobis-Regularized Cosine Classifier	0.842	0.836
Mahalanobis-Regularized Proxy Classifier	0.794	0.789

Reference

Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., and Joulin, A., Emerging Properties in Self-Supervised Vision Transformers, Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 9650-9660.
Chen, X. and He, K., Exploring Simple Siamese Representation Learning, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15750-15758.
Choi, H., Lee, J., and Kim, M., Automatic Mine Detection in Side-Scan Sonar Images Using Machine Learning Approaches, IEEE Journal of Oceanic Engineering, 2018, Vol. 43, No. 4, pp. 1020-1035.
Chungath, T.T., Nambiar, A.M., and Mittal, A., Transfer Learning and Few-Shot Learning Based Deep Neural Network Models for Underwater Sonar Image Classification With a Few Samples, IEEE Journal of Oceanic Engineering, 2024, Vol 49, No. 1, pp. 294- 310.
Domingos, L.C., Santos, P.E., Skelton, P.S., Brinkworth, R.S., and Sammut, K., A survey of underwater acoustic data classification methods using deep learning for shoreline surveillance, Sensors, 2022, Vol. 22, No. 6, Article: 2181.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S. and Uszkoreit, J., An image is worth 16x16 words: Transformers for image recognition at scale, arXiv:2010.11929, 2020.
Fan, Z., Xia, W., Liu, X. and Li, H., Detection and segmentation of underwater objects from forward-looking sonar based on a modified mask RCNN, Signal, Image Video Process, 2021, Vol. 15, pp. 1135-1143.
Fuchs, L.R., Gallstrom, A., and Folkesson, J., Object recognition in forward looking sonar images using transfer learning, 2018 IEEE/OES Autonomous Underwater Vehicle Workshop (AUV), 2018, pp. 1-6.
Gong, M., Chen, C., Sun, Q., Wang, Y., and Huang, H., Out-of-distribution detection with prototypical outlier proxy, Proceedings of the AAAI Conference on Artificial Intelligence, 2025, Vol. 39, No. 16, pp. 16835-16843.
Jin, L., Liang, H. and Yang, C., Accurate underwater ATR in forward-looking sonar imagery using deep convolutional neural networks, IEEE Access, Vol. 7, 2019, pp. 125522-125531.
Kim, S., Kim, D., Cho, M., and Kwak, S., Proxy anchor loss for deep metric learning, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 3238-3247.
Koch, G., Zemel, R., and Salakhutdinov, R., Siamese neural networks for one-shot image recognition, ICML Deep Learning Workshop, 2015, Vol. 2, No. 1, pp. 1-30.
Movshovitz-Attias, Y., Toshev, A., Leung, T.K., Ioffe, S., and Singh, S., No fuss distance metric learning using proxies, Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 360-368.
Rajani, H., Gracias, N., and Garcia, R., A Convolutional Vision Transformer for Semantic Segmentation of Side-Scan Sonar Data, arXiv:2302.12416, 2023.
Regmi, S., Panthi, B., Ming, Y., Gyawali, P.K., Stoyanov, D., and Bhattarai, B., Reweightood: Loss reweighting for distance-based ood detection, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 131-141.
Schroff, F., Kalenichenko, D., and Philbin, J, Facenet: A unified embedding for face recognition and clustering, Proceedings of the IEEE Conference on Computer, 2015, pp. 815-823.
Steiniger, Y., Kraus, D., and Meisen, T., Survey on deep learning based computer vision for sonar imagery, Engineering Applications of Artificial Intelligence, 2022, Vol. 114, Article 105157.
Sun, Y., Zheng, H., Zhang, G., Ren, J., Xu, H., and Xu, C., DP-ViT: A Dual-Path Vision Transformer for Real-Time Sonar Target Detection, Remote Sensing, 2022, Vol. 14, No. 22, Article: 5807.
Valdenegro-Toro, M., Object recognition in forward-looking sonar images with convolutional neural networks, OCEANS 2016 MTS/IEEE Monterey, 2016, pp. 1-6.
Vasankari, L., Borzyszkowski, A., Zelioli, L., and Heikkonen, J., Deep Mix: AI in Littoral Sonar Operations, 2025, Journal of Marine Science and Application, 1-12.
Xie, K., Yang, J., and Qiu, K., A Dataset with Multibeam Forward-Looking Sonar for Underwater Object Detection, arXiv:2212.00352, 2022.
Yang, J. and Xie, K. Underwater acoustic target detection (UATD) dataset.
Zhu, X., Liang, Y., Zhang, J., and Chen, Z., STAFNet: Swin transformer based anchor-free network for detection of forward-looking sonar imagery, Proceedings of the 2022 International Conference on Multimedia Retrieval, 2022, pp. 443-450.