Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.48 No.4 pp.95-103
DOI : https://doi.org/10.11627/jksie.2025.48.4.095

A Deep Learning Framework for Defect Detection and Segmentation in Smart Manufacturing Environments

Dong-Gun Jang

, Young Chul Chang†

, Jae Hyung Cho

Department of Industrial Engineering, Dankook University

^†Corresponding Author : 12191504@dankook.ac.kr

Received 24/10/2025 Finally Revised 08/12/2025 Accepted 08/12/2025

Abstract

Defect detection in manufacturing processes is a critical requirement for ensuring product reliability and maintaining production stability. As smart manufacturing environments continue to advance, the need for precise and robust vision-based inspection methods has become increasingly significant. This study proposes a hybrid defect analysis framework that integrates YOLOv5-based defect candidate detection with an Attention U-Net–based segmentation module. Experiments conducted on chromate-coated industrial images demonstrate that the proposed framework achieves an accuracy of 0.97, precision of 0.91, recall of 0.89, F1-score of 0.93, and IoU of 0.88, exhibiting stable performance even for small defects and irregular boundaries. The combination of region- of-interest extraction and attention-enhanced pixel-level segmentation improves both computational efficiency and boundary reconstruction quality. The findings extend the applicability of attention-based segmentation to industrial defect inspection and provide practical insights for deploying deep learning–based quality monitoring systems in automated manufacturing environments.

Key Words : Attention U-Net , Anomaly Detection , Object detection , Deep learning , Image Segmentation

스마트 제조 환경을 위한 결함 탐지 및 세분화 딥러닝 프레임워크

장동건, 장영철†, 조재형

단국대학교 일반대학원 산업공학과

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

최근 제조 현장에서의 품질 관리는 생산 공정 전반의 안정성과 경쟁력을 좌우하는 핵심 요소로 자리매김하고 있다[17,21]. 스마트팩토리 기술과 자동화 설비가 확산 되고 있음에도 불구하고, 여전히 많은 제조 현장에서는 육안 검사와 수작업 중심의 검수 방식이 유지되며 이는 품질의 일관성과 재현성을 확보하는 데 한계점이 존재한 다[11,17,26]. 이는 실제 제조 현장에서 Zero-Defect Manufacturing(ZDM)의 중요성이 부각되는 배경이 되며, ZDM은 Lean, Six Sigma, TQM 등 전통적인 품질관리 방 법론을 통합해 Industry 4.0 기술 기반으로 Detect–Prevent –Predict 전략을 구현하는 현대적 품질관리 패러다임으로 정의된다[33,34]. 특히 인공지능 기반 품질 검사 기술은 ZDM의 Detect–Prevent 핵심 전략을 실현하는 대표적 기 술로 평가되고 있다.

또한 Industry 4.0 기반 제조 환경에서는 IoT 센서, 디지털 트윈, 로봇 자동화 등이 광범위하게 적용되면서 영상 기반 결함 탐지는 공정 자동화 수준을 결정짓는 주요 기술로 정의된다. 실시간 이미지 분석을 활용해 결함을 조기에 감 지하고 대응하는 기술은 제조 공정의 생산성, 비용 효율성, 불량률 개선에 직접적으로 연결되며, 이는 경영과학적으로 도 기업 경쟁력의 핵심 지표로 다뤄진다[34].

이러한 산업적 요구에 따라 최근에는 인공지능 (Artificial Intelligence, AI)을 활용한 자동 결함 탐지 시스 템 연구가 빠르게 확산되고 있다. 특히 머신러닝(Machine Learning, ML) 및 딥러닝(Deep Learning, DL)은 대량 이미 지 데이터를 기반으로 높은 정확도의 자동 검사 성능을 제공하며 제조업 내 비정형 결함을 탐지하는 주요 기술로 자리 잡고 있다[4,23,35]. 그러나 실제 제조 이미지에서는 표면 반사, 조명 변화, 복잡한 질감, 매우 작은 결함 크기 등 다양한 요인으로 인해 단일 모델만으로 정확하게 결함 위치 탐지 및 경계 분할을 수행하기 어렵다[2].

이를 해결하기 위해 U-Net 기반의 분할 모델이 제조 결함 탐지에 널리 적용되고 있다. U-Net은 픽셀 단위의 구조적 정보를 효과적으로 활용할 수 있어 미세 결함 검출에 강점을 보이지만, 배경 반사나 잡음이 강한 제조 이미지에서는 경계 표현이 불안정해 정확도가 저하되는 한계가 존재한다[36]. 의료 영상 연구에서는 Attention Gate가 결합된 Attention U-Net이 작은 병변․미세 구조를 더 명확히 분리한다는 결 과가 보고되었으며, 이는 제조 결함처럼 경계가 불명확한 환경에서도 유사한 효과가 있을 가능성을 시사한다[36].

그러나 의료 영상과 제조 영상은 촬영 표준화 수준과 노이즈 특성이 크게 다르다. 제조 공정 이미지의 경우 금 속 표면 반사, 비정형 텍스처, 강한 잡음 요소 등이 존재해 의료 영상보다 훨씬 더 복잡한 특징을 가진다. Gear Tooth 결함 연구에서도 제조 표면의 불규칙적 텍스처로 인해 CNN 기반 접근만으로는 결함 유형과 경계를 안정적으로 구분하기 어렵다는 점이 보고된 바 있다[37]. 따라서 제조 공정에서는 탐지와 분할 단계를 구분해 결합하는 구조가 필요하고 실제 산업 적용성도 높은 접근으로 평가된다.

이에 본 연구는 YOLOv5 기반의 실시간 탐지 모델을 활용하여 결함 가능성이 높은 영역 ROI(Region of Interest) 를 먼저 검출하고, 이후 Attention Gate를 포함한 U-Net을 적용해 해당 영역을 픽셀 단위로 정밀 분할하는 2단계 제 조 결함 탐지 프레임워크를 제안한다. 이러한 프레임워크 는 제조 공정에서의 자동 검사 효율 향상, 노동력과 시간 투입 최소화, 복잡한 결함 패턴에 대한 높은 정밀도 확보 등의 실질적 산업적 기여를 제공할 수 있다. 본 연구의 구 성은 다음과 같다. 제2장에서는 제조 공정 결함 탐지와 관 련된 기존 연구를 고찰하고, 제3장에서는 본 연구에서 활 용된 방법론과 제안한 전체 프레임워크를 상세히 기술한 다. 제4장에서는 사용된 데이터셋과 실험 환경을 설명하 며, 제5장에서는 제안 기법의 실험 과정과 결과를 제시한 다. 마지막으로 제6장에서는 연구의 주요 결론과 향후 연 구 방향을 정리한다.

2. 관련 연구

2.1 딥러닝 기반 제조 결함 탐지연구

최근 제조 현장에서는 딥러닝 기반 영상 분석 기술을 활용한 자동 결함 검출 연구가 활발히 진행되고 있다. CNN은 이미지로부터 특징을 자동 추출하고 분류하는 데 뛰어난 성능을 보여 전통적인 머신비전 방식의 한계를 극 복하는 핵심 기술로 자리 잡았다[35]. 그러나 단일 CNN 모델은 작은 결함이나 복잡한 배경에서 결함 경계를 정밀 하게 식별하는 데 한계가 존재한다[4,23]. 특히 제조 타일 의 미세 결함 검출 연구에서는 배경 텍스처와 결함이 유사 하게 나타나는 특성 때문에 일반 CNN 기반 분할 모델만 으로는 정확한 경계 구분이 어렵다는 결과가 보고되었다 [2].

이러한 한계를 보완하기 위해 본 연구는 YOLO(You Only Look Once) 기반의 탐지 모델을 먼저 적용하여 결함 이 존재하는 ROI를 신속히 찾은 뒤, Attention Gate가 포함 된 U-Net으로 픽셀 단위 정밀 분할을 수행하는 검출 방법 을 채택하였다. Attention 기반 구조는 작은 결함과 미세 구조를 갖는 대상을 검출하는 데 기존 U-Net보다 유리하 다는 결과가 다수 연구에서 확인되었다[36].

2.2 Transformer 기반 모델의 비교 연구

Transformer 기반 모델은 Self-Attention 구조를 통해 전 역적 문맥 정보를 활용할 수 있어 복잡한 텍스처나 비정형 결함을 다루는 데 강점을 가진다. 이에 주파수 도메인 정 보를 결합한 SpectFormer가 CNN 기반 모델 대비 전역 패 턴 학습에 유리함을 보여 제조 환경에서도 적용 가능함을 시사하였다[32]. 본 연구에서는 Attention U-Net 기반 구조 와의 상대적 성능을 검증하기 위해 Transformer 기반 모델 을 비교 실험 대상으로 포함하였다. 이를 통해 Attention 기반 분할 구조의 실용성과 강점을 검증하고자 한다.

2.3 본 연구의 제안과 차별성

U-Net 기반 구조는 제조 공정에서의 미세 결함 분석에 널리 활용되고 있으나, 배경 반사나 잡음 간섭이 심한 경 우 경계 표현이 불안정해지는 문제가 존재한다. 이러한 한 계를 보완하기 위해 Attention U-Net이 제안되었다. 이는 중요 영역을 강조하고 불필요한 배경 활성화를 억제하는 방식으로 성능을 향상시킨다. 의료 영상 실험 분야에서는 Attention U-Net이 작은 병변과 미세 구조를 더 명확히 분 리하여 기존 U-Net 대비 개선된 성능을 보인다고 보고하 였다[36]. 또한 제조 타일 이미지 탐지 연구에서 Attention 기반 구조가 복잡한 텍스처 환경에서도 결함 경계를 더 안정적으로 구분할 수 있다고 확인하였다. 제조 공정 특성 을 반영한 Gear Tooth Surface 결함 연구에서는 표면 반사, 비정형 텍스처가 많은 환경에서도 Attention 기반 구조가 유효한 결과를 제공한다고 제시하였다[37].

기존 제조 결함 탐지 연구는 주로 탐지 단계 또는 분할 단계 중 하나에 집중된 경우가 많아, 작은 결함이나 복잡 한 배경이 포함된 제조 이미지에서는 성능 저하가 나타나 는 경우가 존재한다. 본 연구는 YOLOv5 기반의 신속한 관심 영역 탐지와 Attention U-Net 기반의 정밀한 픽셀 단 위 분할을 결합하여 이러한 문제를 해결하고자 한다. 또한 Transformer 기반 모델과의 비교 분석을 수행함으로써 상 대적 성능 우수성을 확인하고, 제조 공정 환경에서 적용 가능한 실용적 결함 탐지 구조를 제안한다.

따라서 본 연구는 기존 탐지 기반 또는 분할 기반 연구 들이 개별적으로 해결하지 못했던 제조 현장에서의 작은 결함이나 불규칙 경계를 갖는 상황에서 정확히 탐지하는 구조를 제시하였다는 점에서 학술적 및 산업적 차별성을 가진다.

3. 본 론

3.1 방법론

3.1.1 YOLO 기반 결함 검출 및 Crop

본 연구에서는 결함 영역의 정밀 분할에 앞서, 객체 탐 지 모델인 YOLO를 이용하여 결함 후보 영역을 사전 검출 하였다. 이를 통해 정상(Normal) 및 결함(Defect) 이미지를 학습시켜, 결함이 존재할 가능성이 높은 영역을 빠르게 식 별할 수 있다. 이후 검출된 Bounding Box를 기준으로 원본 이미지에서 해당 영역을 Crop하여, 후속 단계인 Attention U-Net 분할 모델의 입력으로 사용하였다. 이러한 전처리 과정을 통해 분할 모델이 이미지 전역이 아닌 결함 가능성 이 높은 영역에 집중하여 예측할 수 있도록 하였으며, 이 는 불필요한 배경 정보의 영향을 줄이고 분할 성능을 향상 시키는 데 기여한다.

3.1.2 U-Net

U-Net 구조는 의료 영상 분할 작업에서 우수한 성능을 달성하기 위해 설계된 네트워크로, 여러 층의 합성곱 블록 을 포함하는 대칭적인 인코더-디코더(Encoder-Decoder) 구조를 기반으로 한다. <Figure 2>는 이러한 U-Net의 전체 구조를 나타낸다. 인코더(Encoder)는 입력 영상으로부터 고수준 특징을 추출하며, 디코더(Decoder)는 이를 바탕으 로 픽셀 단위의 예측 맵을 재구성한다.

3.1.3 Attention Gate

Attention Gate(AG)는 인코더-디코더 네트워크에서 디 코더가 필요로 하는 중요한 영역의 특징만 선택적으로 전 달하도록 설계된 모듈이다. <Figure 3>과 같이 일반적인 스킵 연결은 인코더의 전체 특징 맵을 디코더에 그대로 전달한다. 그러나 AG는 디코더의 게이팅 신호(Gating Signal)를 이용하여 인코더 특징 맵의 공간적 중요도를 계 산하고, 불필요한 배경 정보는 억제한다. 이를 통해 객체 경계와 같이 관심 영역에 대한 표현을 강화하고, 잡음이나 불필요한 텍스처의 영향을 줄일 수 있다.

3.1.4 Attention U-Net

Attention U-Net은 기본 U-Net의 인코더-디코더 구조를 유지하면서, 각 스킵 연결에 AG를 결합하여 디코더로 전 달되는 인코더 특징을 선택적으로 정제한다. 인코더 경로 에서 추출된 다중 해상도 특징은 AG를 거쳐 디코더로 전 달되며, 이때 디코더의 현재 단계 정보가 결합되어 관심 영역의 표현을 강화한다.

본 연구에서는 YOLO 기반 결함 검출로 얻은 영역을 Attention U-Net의 입력으로 사용하여, 제한된 영역 내에 서 픽셀 단위의 정밀 분할을 수행하였다. 다음 <Figure 4> 는 본 연구에서 제안한 모델의 구조를 나타낸다.

3.2 제안된 통합 프레임워크

본 연구에서 제안하는 결함 탐지 프레임워크는 YOLOv5 기반 결함 후보 탐지 모듈과 AG가 적용된 U-Net 분할 모듈을 하나의 파이프라인으로 통합하여 구성된다. 전체 흐름은 원본 RGB 이미지가 입력된 후, YOLOv5가 결함 가능성이 높은 영역을 Bounding Box 형태로 탐지하 고, 이 좌표를 기반으로 ROI 영역이 생성된 뒤 Attention U-Net에 전달되는 방식으로 이어진다. YOLOv5는 전체 이미지에서 결함 후보 영역만을 빠르게 선별함으로써 이 후 U-Net이 복잡한 반사나 잡음이 포함된 제조 이미지에 서도 작은 결함 구조에 집중할 수 있도록 입력 범위를 정 제한다. 이는 AG가 중요 특징을 강조하는 과정과 결합되 어 세밀한 경계 분할을 가능하게 한다. 최종적으로 Attention U-Net은 픽셀 단위의 결함 마스크를 출력하며, 이 출력은 결함 영역의 형태와 분포를 정확히 파악하는 데 사용된다.

또한 본 연구에서는 동일한 ROI를 Transformer 기반 세 그멘테이션 모델에도 적용하여, 전역적 패턴 표현에 강한 Transformer와 지역 기반 정밀 표현에 강한 Attention U-Net의 구조적 차이를 비교함으로써 제안 프레임워크의 시너지와 기술적 강점 역시 실험적으로 검증하였다. 이러 한 통합 구조는 탐지와 분할 간 정보 흐름을 명확히 연결 하고, 경량성과 정밀도 간 균형을 유지하면서 제조 환경 특성에 적합한 분석 체계를 제공한다는 점에서 스마트 제 조 품질관리 시스템의 실용성을 높이는 데 중요한 역할을 한다. <Figure 5>는 본 연구에서 제안하는 전체 프레임워 크를 나타낸다.

4. 데이터셋 및 실험환경

본 연구에서 사용한 데이터는 KAMP(Korea AI Manufacturing Platform)에서 제공하는 무료 제조 AI 데이 터셋 중 품질 이상 예측을 위한 크로메이트 공정 이미지 데이터이다[12]. <Figure 6>과 같이 해당 데이터셋은 크로 메이트 도금 공정에서 제작된 부품의 이미지를 포함하며, 정상 이미지와 표면 결함이 존재하는 불량 이미지로 구분 된다.

데이터는 촬영된 원본 RGB 이미지를 기반으로 하며, 각 이미지는 정상 부품과 도금 불량 부품 두 클래스 중 하나에 속한다. 불량 클래스에는 표면의 녹, 스크래치 등 다양한 형태의 결함이 포함되어 있다. 데이터셋은 아래의 <Table 1>과 같이 실험 재현성을 위해 학습용(Train)과 평 가용(Test)으로 분리하였다.

5. 실 험

5.1 YOLO와 Attention U-Net 결합

부품 이미지에서 결함을 탐지하기 위해, 우선 YOLO 모 델을 이용하여 결함 영역의 위치를 정의하였다. 이번 단계 에서의 학습 결과는 결함 위치를 정확하게 탐지하였으며, <Figure 7>에 YOLO 검출 결과를 제시하였다.

검출된 1차 결함 영역은 <Figure 8>과 같이 해당 좌표를 기준으로 원본 이미지를 잘라내어 2차적으로 결함 영역 정의를 수행하였다.

라벨링이 완료되면 이를 마스크로 변환하였다. <Figure 9>와 같이 마스크는 결함 영역을 흰색(255), 비결함 영역 을 검은색(0)으로 채운 단일 채널(Grayscale) PNG 형식으 로 저장하였으며, 이후 Attention U-Net 학습 시 Ground TruthT(GT)로 사용되었다.

5.2 Attention U-Net 학습

5.2.1 하이퍼 파라미터 설정

본 실험에서 YOLO와 결합한 Attention U-Net 기반 결 함 탐지 모델은 KAMP 제조 데이터셋을 훈련 데이터로 사용하였으며, 성능 평가를 위해 CNN과 Computer Vision 기반 Transformer 모델로 비교 분석 하였다. 하이퍼 파라 미터 설정 값은 <Table 2>에 정리하였다.

5.2.2 모델 평가 지표

400 epoch 동안 진행한 결과에서 평가 점수가 가장 우 수한 시점의 가중치를 저장하여 최종적으로 검증하였다.

최종적인 Attention U-Net과 비교분석 대상 모델들의 평 가 지표는 아래의 <Table 3>에 정리하였다. YOLO 모델을 통해 Crop을 하여 진행한 Attention U-Net의 성능이 가장 우수한 것을 확인할 수 있다.

<Tabel 3>의 평가지표에서 IoU(Intersection over Union)는 예측된 결함 영역과 실제 결함 영역 간의 교집 합 대비 합집합의 비율로 정의되며, 식 (1)과 같이 표현 된다. 여기에서 TP(True Positive)는 정답이 결함이고 모 델도 결함이라고 올바르게 예측한 픽셀 수를 의미하며, FP(False Positive)는 정답은 정상인데 모델이 결함이라고 잘못 예측한 픽셀 수를 의미한다. FN(False Negative)는 정답은 결합인데 모델이 정상이라고 잘못 예측한 픽셀 수를 나타낸다.

I o U = \frac{T P}{T P + F P + F N}

(1)

또한 F1-Score는 Precision과 Recall의 조화평균으로 정 의되며, 분할 모델이 결함을 얼마나 균형 있게 탐지하는지 를 평가한다.

F1 - Score = \frac{2 \times Precision \times Recall}{Precision + Recall}

(2)

아래 <Figure 10>에서 전체 400 Epoch 동안의 학습 Loss 변화를 시각화한 결과를 볼 수 있다. Loss는 학습이 진행됨에 따라 지속적으로 감소하는 경향을 보였으며, 특 히 250 Epoch 이후에도 안정적인 하강 흐름을 유지하고 있다. 이는 데이터 규모가 제한된 환경에서도 모델이 특정 구간에 과도하게 적합되지 않고 꾸준히 수렴하는 방향으 로 학습되었음을 의미한다. 또한 ROI 기반 데이터 구성과 Loss Function의 조합, 그리고 학습률을 자동으로 조정하 는 ReduceLROnPlateau 스케줄러가 Overfitting 억제에 기 여했음을 시사하는 근거가 된다.

5.3 결함 검출 결과

<Figure 11>은 Attention U-Net 모델을 기반으로 크로메 이트 공정 내 결함 영역을 탐지한 시각적 결과를 제시한 다. 각 예시는 원본 이미지(Original), 실제 결함 마스크 (Ground Truth), 그리고 예측 마스크를 중첩한 결과 (Predicted Overlay)를 포함하며, 모델이 결함의 위치와 형 태를 비교적 안정적으로 재현함을 확인할 수 있다. 특히 크기가 매우 작은 결함이나 불규칙한 경계를 가지는 결함 에서도 경계선을 비교적 명확하게 복원하였으며, 이는 Attention U-Net이 지역적 특징을 정밀하게 포착하는 데 강점을 가진다는 점을 시각적으로 입증한다.

또한 본 연구에서는 모델의 시간 효율성도 함께 평가하 였다. Test Crop 이미지 60장을 대상으로 측정된 평균 추 론 시간은 82.694 ms(약 12.09 FPS)로 나타났으며, 이는 ROI 기반 단계적 탐지와 분할 구조 특성을 고려할 때 제 조 공정에서의 주기적 품질 점검 또는 저속 제조 라인 환 경에서 적용 가능한 처리 효율을 확보한 것으로 해석할 수 있다. 특히 본 프레임워크는 전체 이미지가 아닌 YOLO를 통해 축소된 ROI에 대해서만 U-Net 추론을 수행 하므로, 실제 공정 운용 시에는 전체 Pipeline의 처리 지연 이 단독 U-Net 추론 시간보다 더 낮아질 수 있다는 장점이 있다.

현업 적용 관점에서 본 모델은 크로메이트 공정에서 반 복적으로 발생하는 전형적 결함 패턴을 충분히 학습한 경 우, 해당 패턴을 가진 결함 영역을 안정적으로 탐지하는 성능을 보였다. <Figure 11>의 사례에서도 확인되듯이, 학 습 데이터에서 빈번하게 나타나는 결함 형태의 경우에는 표면 반사나 조명 변화로 인해 경계가 다소 흐려지는 상황 에서도 결함의 핵심 영역을 놓치지 않고 재현하는 모습을 확인할 수 있다. 이는 제조 공정 특성상 반복적으로 나타 나는 결함 패턴을 기반으로 이상을 모니터링하는 환경에 서 본 알고리즘이 높은 실용성을 지닌다는 점을 시사한다.

한편 <Figure 12>에서 Transformer 기반 모델은 결함이 존재하는 대략적 위치를 파악하는 데에는 일정 수준의 성 능을 보였으나, Attention U-Net에 비해 픽셀 단위 경계 복 원력은 다소 떨어지는 경향을 보였다. 특히 작은 결함이나 불규칙한 형태의 결함에서 경계가 흐려지거나 일부 픽셀 이 누락되는 사례가 반복되며, 이는 IoU 및 F1-score의 전 반적 하락으로 이어졌다. 이러한 차이는 Transformer가 전 역적 문맥 정보를 학습하는 데 강점을 갖는 반면, 제조 공 정처럼 미세한 구조 변화가 중요한 영역에서는 U-Net 기 반 구조의 지역적 특징 반영 능력이 더 유리하게 작용함을 보여준다.

6. 결 론

제조 공정에서의 결함 탐지는 제품의 신뢰성과 생산 효 율을 결정하는 핵심 요소로, 품질 관리 체계의 안정성을 확보하기 위해 반드시 해결해야 하는 중요한 과제이다. 특 히 스마트 제조와 공장 자동화가 빠르게 확산되고 있는 산업 환경에서는 결함을 조기에 발견하고 공정 변동에 즉 각 대응할 수 있는 지능형 검사 기술의 필요성이 더욱 증 가하고 있다. 이러한 맥락에서 높은 정확도와 안정성을 유 지하면서 다양한 제조 현장에 적용할 수 있는 결함 탐지 기술의 개발은 산업 현장에서 중요한 연구 주제로 자리하 고 있다.

본 연구에서는 이러한 요구를 충족하기 위해 YOLO 기 반 탐지 단계와 Attention 메커니즘이 적용된 U-Net 기반 세분화 모델을 통합한 하이브리드 결함 분석 프레임워크 를 제안하였다. 제안된 모델은 Accuracy 0.97, Precision 0.91, Recall 0.89, F1-score 0.93, IoU 0.88의 성능을 보이며 기존 CNN 및 Transformer 기반 접근보다 뛰어난 결과를 확인하였다. 특히 복잡한 반사, 미세 결함, 비정형 경계를 포함하는 크로메이트 공정 이미지에서도 안정적인 경계 복원 능력을 보였으며, YOLO를 통한 관심영역 기반 입력 구조를 결합함으로써 탐지 단계와 세분화 단계가 유기적 으로 연계되는 처리가 가능했다. 이러한 구조적 특징은 실 제 제조 현장에서 반복적으로 발생하는 전형적 결함 패턴 을 효과적으로 탐지하는 데 적합한 형태임을 실험을 통해 확인하였다.

학문적 관점에서 본 연구는 Attention U-Net이 의료 영 상에 국한되지 않고 제조 결함 분석이라는 새로운 도메인 에서도 유의미한 성능을 발휘할 수 있음을 실증적으로 확 장했다는 점에서 의의가 있다. 또한 탐지와 세분화라는 서 로 다른 비전 과제를 단일 파이프라인으로 통합함으로써 딥러닝 기반 제조 검사 기술의 활용 가능성을 넓히고, 공 장 자동화 환경에서 적용할 수 있는 실질적 이미지 분석 구조를 제시하였다.

향후 연구에서는 모델의 경량화와 최적화 전략을 통해 다양한 제조 속도와 설비 조건에 대응할 수 있는 확장성을 확보할 필요가 있다. 더불어 공정 환경에서 요구되는 실시 간 처리 성능을 만족시키기 위해 추론 속도 개선과 연산 효율화에 대한 추가 연구가 요구된다. 또한 공정별로 상이 한 결함 유형을 포함한 대규모 데이터셋 구축과 새로운 결함 패턴에 대한 적응력을 강화함으로써 제안된 프레임 워크의 일반화 가능성을 높일 수 있을 것이다. 이러한 후 속 연구는 제조 공정의 지능화와 자동화 수준을 더 향상시 키고, 딥러닝 기반 결함 탐지 분야의 기술 발전에 중요한 기반을 제공할 것으로 기대된다.

Figure

<Figure 1>.

YOLO-based Defect Detection And Cropping Process

<Figure 2>.

U-Net Architecture

<Figure 3>.

Diagram of the Attention Gate

<Figure 4>.

Attention U-Net Architecture

<Figure 5>.

Proposed Framework Overview

<Figure 6>.

Examples of Normal and Defective Chromate-Coated Images

<Figure 7>.

YOLO-based Detection Result

<Figure 8>.

Cropped for ROI Image

<Figure 9>.

Binary Mask Images Generated from Cropped Regions (white: defect, black: non-defect)

<Figure 10>.

Training Loss Curve Across 400 Epochs

<Figure 11>.

Visualization of Defect Detection Results Using Attention U-Net

<Figure 12>.

Visualization of Defect Detection Results Using the Transformer-based Model

Table

<Table 1>.

Composition of Original and Cropped Data

set	Original Image	Cropped Image
Train	100	100	100	100
Test	50	50	30	30

<Table 2>.

Hyperparameter Settings

Parameter	Value
Batch size	16
Learning rate	1e-3
Optimizer	Adam
Loss function	Focal Loss + Dice Loss
Scheduler	ReduceLROnPlateau
Epochs	400

<Table 3>.

Performance Comparison of Segmentation

	Accuracy	Precision	Recall	F1- Score	IoU
Attention U-Net	0.97	0.91	0.89	0.93	0.88
CNN	0.82	1	0.63	0.78	-
Transfomer	0.96	0.93	0.83	0.88	0.78

Reference

Amiri, M. and Shahbahrami, A., Automatic Defect Detection on Fabrics Using Attention U-Net Architecture, Multimedia Tools and Applications, 2021, Vol. 80, pp. 15529-15549.
Cao, X., Chen, B., and He, W., Unsupervised Defect Segmentation of Magnetic Tile Based on Attention Enhanced Flexible U-Net, in IEEE Transactions on Instrumentation and Measurement, 2022, Vol. 71, pp. 1-10.
Cho, W.H., Moon, S.B., and Choi, J.H., Image anomaly detection using Pre-trained CNN model, in Information and Control Symposium, 2023, pp. 262-263.
Dosovitskiy, A., Beyer, L., Kolesnikov, A. et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, in Proc. Int. Conf. Learning Representations (ICLR), 2021.
Gong, S.H., Jung, H.S., Lee, M.J., Lee, K.J., Oh, K.Y., and Chang, J.Y., Semantic Segmentation of Hazardous Facilities in Rural Area Using U-Net from KOMPSAT Ortho Mosaic Imagery, Korean Journal of Remote Sensing, 2023, Vol. 39, No. 6, pp. 1693-1705.
Im, Y.G., Youn, Y.J., Kang, J.G., Kim, S.Y., Jeong, Y.M., Choi, S.Y., Seo, Y.M., Lee, Y.W., Ship Detection from SAR Images Using YOLO: Model Constructions and Accuracy Characteristics According to Polarization, Korean Journal of Remote Sensing, 2023, Vol. 39, No. 5, pp. 997-1008.
Jeon, M.H., Khambampati, A.K., and Kim, K.Y., Residual Deposit Monitoring of Semiconductor Back-End Process Using U-net Model based on the Electrical Capacitance, Journal of IKEEE, 2024, Vol. 28, No. 2, pp. 36-45.
Jeong, W.Y., Kim, S.J., and Lee, C.W., New U-Net for Image Deblurring Using Deep Learning, The Transactions of The Korean Institute of Electrical Engineers, 2023, Vol. 72, No. 7, pp. 843-848.
Jo, G.H. and Song, Y.J., Performance Improvement of Semantic-Segmentation based on U-Net3+ Model using YOLO v5, The Journal of Korean Institute of Information Technology, 2024, Vol. 22, No. 12, pp. 1-8.
Jo, G.H., Hyun, K.M., and Song, Y.J., Parallel U-Net Based Semantic Segmentation Method Using Generated Data from YOLO V5, The Journal of Korean Institute of Communications and Information Sciences, 2023, Vol. 48, No. 3, pp. 319-326.
Jung, I.B. and Suh, S.M., YOLOv8-based Plastic Surface Inspector with Custom Labeling for Defect Detection, Journal of the Korea Society of Computer and Information, 2024, Vol. 29, No. 11, pp. 11-20.
KAMP, https://www.kamp-ai.kr/main.
Kim S.E. and Lim, J.S., CNN-ViT Hybrid Aesthetic Evaluation Model Based on Quantification of Cognitive Features in Images, Journal of IKEEE, 2024, Vol. 28, No. 3, pp. 352-359.
Kim, G.T., Wang, T.S., and Jang, S.W., Edge Detection and ViT-based Segmentation Model Auto Annotation Process, Journal of the Korea Institute of Information and Communication Engineering, 2024, Vol. 28, No. 11, pp. 1299-1310.
Kim, H.Y., Kim, J.H., Jeong, S.H., and Shim, C.B., Implementation of YOLO based Missing Person Search AI Application System, Korean Institute of Smart Media, 2023, Vol. 12, No. 9, pp. 159-170.
Kim, R.Y., Cha, H.J., and Kang, A.R., A Study on the Impact of Noise on YOLO-based Object Detection in Autonomous Driving Environments, Journal of the Korea Society of Computer and Information, 2024, Vol. 29, No. 10, pp. 69-75.
Kim, S.H. and Lee, S.D., YOLO-based Detection of Damaged Parcel Boxes and Data Augmentation Using DCGAN for Enhancement of Parcel Delivery Service Quality, Journal of High-Technology Fusion System, 2023, Vol. 31, No. 6, pp. 59-67.
Kim, S.H., Kwon, K.W., and Kim, J.H., A Study on Orthogonal Image Detection Precision Improvement Using Data of Dead Pine Trees Extracted by Period Based on U-Net model, Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography, 2022, Vol. 40, No. 4, pp. 251-260.
Kim, S.H., Lee, M.J., and Ha, J.C., Development of an Efficient CNN and ViT Integrated Model for Deepfake Image Detection, Journal of the Korea Institute of Information Security & Cryptology, 2025, Vol. 35, No. 3, pp. 513-526.
Kim, S.M., Son, J.M., and Kim, D.S., A Method for Concrete Crack Detection Using U-Net based Image Inpainting Technique, Journal of the Korea Society of Computer and Information, 2025, Vol. 25, No. 4, pp. 35-42.
Kim, S.W., Park, J.H., and Lee, S.C., Lightweight CNN-based Automotive Wheel Shape Classification for Resource-Constrained Environments, Journal of Society of Korea Industrial and Systems Engineering, 2025, Vol. 48, No. 2, pp. 20-26.
Lee, C.G. and Kim, L.J., A Method for Predicting the Future State of Fluids Using Attention U-Net Neural Networks, Database Research, 2021, Vol. 37, No. 3, pp. 3-15.
Lee, C.Y. and Kim, M.J., Anomaly Detection to Distinguish Structural Differences of Manufacturing Images, Journal of the Institute of Electronics and Information Engineers, 2021, Vol. 58, No. 11, pp. 57-65.
Lee, C.Y., Do, K.D., Chang, S.Y., and Kim, I.H., Automated Waterline Extraction and Shoreline Estimation Using U-Net Based Video Monitoring System, Journal of Coastal Disaster Prevention, 2025, Vol. 12, No. 1, pp. 1-15.
Lee, H.S., Ha, S.H., and Oh, S.H., Deep Learning Models for Fabric Image Defect Detection: Experiments with Transformer-based Image Segmentation Models, The Journal of Information Systems, 2023, Vol. 32, No. 4, pp. 149-162.
Lee, Y.H. and Kim, H.J., A Comparative Analysis of the YOLO Series (V1 to V11) and Their Applications, Journal of the Semiconductor & Display Technology, 2024, Vol. 23, No. 4, pp. 190-198.
Lee, Y.H. and Kim, Y.S., Experimental Comparison of CNN and YOLO Performance for Object Detection, Journal of the Semiconductor & Display Technology, 2020, Vol. 19, No. 1, pp. 85-92.
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B., Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows,” in Proc. IEEE/CVF Int. Conf. Computer Vision (ICCV), 2021, pp. 10012-10022.
Park, H.M., Kim, J.W., and Kim, J.Y., A Real-Time Abnormal Behavior Detection Model Using Yolov5 is Proposed, Journal of the Korea Society of Computer and Information, 2025, Vol. 30, No. 2, pp. 91-98.
Park, J.Y., Kim, H.J., Nam, D.M., Yoo, S.H., Kim, N.H., and Jung, J.H., Development of a Semantic Segmentation Method for Large-Scale Point Clouds Using a Voxel-Based 3D U-Net, Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography, 2025, Vol. 43, No. 4, pp. 437-447.
Park, S. and Shin, Y.G., U-Net-Based Generative Adversarial Network, Journal of the Institute of Electronics and Information Engineers, 2021, Vol. 58, No. 5, pp. 61-67.
Patro, B.N., Namboodiri, V.P., and Agneeswaran, V.S., SpectFormer: Frequency and Attention is what you need in a Vision Transformer, 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Tucson, AZ, USA, 2025, pp. 9543-9554.
Powell, D., Magnanini, M.C., Colledani, M., and Myklebust, O., Advancing Zero Defect Manufacturing: A state-of-the-art Perspective and Future Research Directions, Computers in Industry, 2022, Vol. 136.
Psarommatis, F. and Azamfirei, V., Zero Defect Manufacturing: A Complete Guide for Advanced and Sustainable Quality Management, Journal of Manufacturing Systems, 2024, Vol. 77, pp. 764-779.
Son, G.Y. and Shin, B.J., A Study on Weld Defect Classification Using CNN to Enhance Non-destructive Testing, The Journal of Korean Institute of Next Generation Computing, 2024, Vol. 20, No. 2, pp. 30-38.
Sultana, A., Enhancing Breast Cancer Image Analysis Through Attention Mechanisms: A Comparative Study of U-Net and Attention U-Net models, In 2024 IEEE International Conference on Computing, Applications and Systems (COMPAS), 2024, pp. 1-8.
Zhou, X., Zhang, Y., Ren, Z., Mi, T., Jiang, Z., Yu, T., and Zhou, S., A Unet-inspired Spatial-Attention Transformer Model for Segmenting Gear Tooth Surface Defects, Advanced Engineering Informatics, 2024, Vol. 62, Part D.