1. 서 론
자동차 부품 제조 공정은 다양한 모델을 단일 생산 라 인에서 처리한다. 동일한 장비와 자원을 여러 제품 라인에 서 공유함으로써 생산 비용을 절감할 수 있기 때문이다. 그 때문에 다양한 모델이 혼합되는 문제가 발생할 수 있 어, 빠르고 정확하게 식별하고 구분할 수 있는 기술이 필 요하다[9, 10].
기존에는 인력을 투입해 모델을 수동으로 식별하고 분 류했다. 많은 시간과 인력이 소모되면서도 오류 가능성도 높고 일관된 품질 유지가 어려웠다. 고품질과 효율성을 중 요하게 여기는 현대의 제조 공정, 특히 자동차 산업에서는 경쟁력과 직결된 문제였다.
머신러닝(machine learning)은 이러한 문제를 해결할 중 요한 기회를 제공한다. 머신러닝은 대량의 데이터를 학습 하여 패턴을 인식하고, 이를 바탕으로 모델을 실시간으로 식별하고 구분할 수 있다. 이를 통해 생산 공정의 인력, 시간, 비용을 절감하면서도 정확성과 효율성을 확보할 수 있다.
최근 머신러닝과 딥러닝(deep learning) 기술의 발전으 로 이미지 분류와 패턴 인식 분야에서 중요한 성과가 이루 어졌다. 특히 합성곱 신경망(CNN: convolutional neural networks)은 이미지 데이터를 효율적으로 처리하고 특징 을 추출하여 높은 정확도로 분류하는 강력한 도구가 되었 다. CNN은 손글씨 및 숫자 인식, 일반 이미지 분류, 교통 표지판 인식 등 다양한 데이터셋(data set)에 성공적으로 적용되어 그 유연성을 입증했다[1].
LeCun et al.[9]이 개발한 LeNet-5와 같은 초기 CNN 구 조는 이미지의 특징을 자동으로 학습하여 분류 작업을 수 행하는 데 뛰어난 성능을 보여주었다. CNN의 성공으로 전통적으로 수작업으로 이루어지던 특징 추출 과정이 자 동화되었고, 이는 CNN이 여러 분야에서 본격적으로 활용 되는 계기가 되었다.
CNN과 같은 심층 학습 모델은 제조업의 이미지 기반 품질 관리와 제품 분류 작업에 특히 유용하다. 하나의 생 산 라인에서 다양한 모델의 제품을 제조할 때, 이미지 분 류를 통해 이를 구별하는데 우수한 성능을 발휘할 것으로 기대된다.
그러나 최근의 작업들은 대규모 자본이 투입된 고성능 모델에 집중되어 있어, 중소 규모 기업들은 이 기술의 혜 택을 누리기 어렵다. 저비용에 효율적인 머신러닝의 개발 과 적용이 요구된다[12].
본 논문에서는 자동차용 타이어 휠 제조 공정에 적용 가능한 기존의 대표적인 머신러닝 아키텍처들의 특징을 파악하고, 저비용에 효율적인 활용이 가능한 Custom CNN 을 제시하는 내용을 소개한다.
2. 연구배경
2.1 주조식 제조 공정과 머신러닝 응용
자동차용 알루미늄 휠 제조 공정에서 머신러닝 기술의 도입은 생산성과 품질 관리 효율성을 극대화할 수 있게 한다. 주요 응용 사례는 다음과 같다.
2.1.1 모델 자동 분류
머신러닝 기반 이미지 분류 시스템을 통해 주조 후 다 양한 휠 모델을 자동으로 식별하고 분류할 수 있다. 이를 통해 작업자의 개입을 줄이고 공정 속도를 높일 수 있다. Parlak and Emelet[11]은 X-ray 이미지 데이터를 활용하여 주조된 알루미늄 부품의 내부 결함을 효과적으로 감지하 고 분류하는 딥러닝 기반 접근법을 제안하였다.
2.1.2 품질 관리 자동화
CNN 기술을 적용하여 시각 검사 및 균형 검사의 정확 도를 개선하며 결함 검출 과정의 신뢰성을 높일 수 있다. He et al.[4]은 저압 다이캐스팅 공정에서 발생하는 기공 결함과 같은 품질 문제를 해결하기 위해 프로세스 매개변 수 최적화를 연구하였다.
2.1.3 공정 데이터 최적화
생산 과정에서 발생하는 데이터를 분석하여 공정 설계 를 최적화하고 생산 비용을 절감하는 연구가 진행되고 있 다. Dong et al.[2]은 시뮬레이션과 실험적 검증을 결합하 여 A356 알루미늄 합금 휠 허브의 저압 다이캐스팅 공정 을 최적화하였다.
2.1.4 혼입 방지 및 물류 효율화
포장 및 배송 과정에서 휠 모델을 정확히 식별함으로써 제품 혼입을 방지하고 물류 과정의 효율성을 극대화할 수 있다. 머신러닝 기반 분류 시스템은 물류 단계에서 제품 식별 오류를 줄이고 공급망 전반의 효율성을 높이는 데 기여한다[4, 11].
2.2 자동 분류를 위한 머신러닝 특징 비교
본 장에서는 다양한 머신러닝 아키텍처의 특징을 소개 한다. 각각의 아키텍쳐는 데이터 크기, 연산 복잡도, 메모 리 사용량 등에 따라 적합한 환경이 다르기에 제조 공정의 요구 사항에 맞춰 선택적으로 적용할 수 있다.
서론에서 언급하였듯이, 중소 규모의 기업들에게는 저 비용에 효율적인 머신러닝의 개발과 적용이 필요하기에 이러한 기준으로 검토하였다.
2.2.1 LeNet-5
LeNet-5는 초기 CNN 구조로, 작은 이미지 데이터(예: 28×28 크기)를 처리하는 데 특화된 모델이다[10].
2.2.2 ShuffleNet
ShuffleNet은 모바일과 같은 제한된 자원 환경에서 최적 화된 경량 모델이다. 이 모델은 채널 셔플링(channel shuffling) 과 포인트별 합성곱(grouped convolutions)을 활용하 여 연산량을 크게 줄이는 것이 특징이다[15].
2.2.3 MobileNet
MobileNet은 깊이별 분리 합성곱(depthwise separable convolutions)을 사용하여 모델 크기를 줄이고 계산량을 감 소시킨 경량 네트워크다[6].
2.2.4 AlexNet
AlexNet은 2012년 ILSVRC에서 우승한 모델로, 딥러닝 분야의 발전을 이끈 모델이다. 5개의 합성곱 레이어와 3개 의 완전 연결 레이어로 구성되어 있다[8].
2.2.5 GoogLeNet(inception)
GoogLeNet은 inception 모듈을 활용해 네트워크 깊이를 늘리면서도 계산량을 최소화했다. 다양한 크기의 필터를 병렬로 적용해 특징 학습 효율을 높인다[14].
2.2.6 VGGNet(VGG16/19)
VGGNet은 심플하고 깊은 구조로 설계되었으며, 3×3 합성 곱 레이어를 반복적으로 사용하여 높은 표현력을 가진다[13].
2.2.7 ResNet
ResNet은 잔차 학습(residual learning)을 도입하여 매우 깊은 네트워크를 효율적으로 학습할 수 있다. 그래디언트 소실 문제를 해결하며, 50층 이상의 깊은 구조에서도 안정 적인 학습을 가능하게 한다[3].
중소 제조 기업들은 예산의 한계로 인해 고성능 설비보 다는 적절한 기술을 적용하여 최대의 효과를 창출하는 것 이 중요하다. 따라서 고성능 그래픽 프로세서나 대용량 메 모리를 필요하지 않은 아키텍처를 선택해야 한다.
<Figure 1>은 소개한 아키텍쳐들의 메모리와 GPU의 계 산능력을 기준으로 검토한 것이다. LeNet-5, ShuffleNet, MobileNet, AlexNet이 비교적 저사양 그래픽 프로세서와 메모리를 요구하고 있음을 알 수 있다.
3. 연구내용
3.1 실험 자료 선정 및 컴퓨터 사양
자동차용 타이어 휠의 제조 공정에 저사양 환경용 머신 러닝의 적용 가능성을 확인하기 위하여 <Figure 2>의 9가 지 모델의 휠을 대상으로 분류실험을 계획하였다.
선정된 모델은 170×170 크기의 대표 사진을 각각 1개씩 선정하여 1°씩 회전시키며 360개의 샘플을 준비하였다. 각 샘플은 회전 과정에서 1∼1.2배 사이의 무작위 비율로 크기를 조정하였다. 전체 샘플 중 20%는 학습용 샘플과 분리하여 머신러닝의 정확도 검증에 활용하였다. 학습과 평가는 애플 맥북 프로 M1 Pro(16GB)를 사용하여 수행하 였다.
3.2 머신러닝 아키텍쳐
저비용에 효율적인 머신러닝의 개발과 적용이 본 연구 의 목적이기에, 2.2장에서 소개한 머신러닝 아키텍쳐 중, 비교적 저사양 환경을 요구하는 LeNet-5, ShuffleNet, MobileNet을 선정하여 <Figure 2>의 9가지 모델의 휠을 학 습시켰다. 또한 해당 아키텍쳐의 학습 효율성을 평가하기 위하여 <Figure 1>에서 가장 높은 사항을 요구하는 것으로 파악 된 ResNet 아키텍쳐를 사용하여 같이 학습하고 그 결과를 비교하고자 하였다.
LeNet-5, ShuffleNet, MobileNet, ResNet은 Matlab에서 제공하는 deep network designer와 add-on 기능을 활용하 여 학습을 진행하였다.
연구의 목적에 충실하기 위하여 요구사양이 가장 낮은 LeNet-5를 기초 아키텍쳐로 선정하여 다음과 같이 구성하 였다(<Figure 3>).
-
1) Image Input Layer의 경우, 170×170 크기의 RGB로 입력을 받는 역할을 수행한다.
-
2) Convolution 2D Layer의 경우, 3×3 크기의 필터 N개 씩 적용해서 이미지의 크기는 유지하지만 채널의 수 가 N개 로 늘어나 각각의 픽셀이 더 많은 정보를 포 함하게 된다.
-
3) Average Pooling2D Layer의 경우, 2×2 필터를 사용하 여 2픽셀씩 이동하며, 각 2×2 영역에서 평균값을 추 출한다. 출력 이미지의 사이즈는 절반으로 줄어들어 85×85 가 되고 채널의 수는 유지 된다.
-
4) Tanh Layer의 경우, 활성화 함수로 사용, 입력값을 -1에서 1 사이로 스케일링하여 비선형적으로 변환시 켜 특징 추출을 용이하게 만든다.
-
5) Fully Connected Layer의 경우, 분류 작업을 수행한다.
-
6) Softmax Layer의 경우, 확률을 계산하여 이미지를 9 개의 클래스로 분류한다.
-
7) Classification Layer의 경우, 최종 이미지를 특정 카테 고리로 분류한다. 이미지는 아키텍처에 따라 구성된 네트워크를 통과하면서 사이즈가 줄어들고, 채널 수 는 각 단계에서 필터에 의해 변경된다. 각 Convolution 2D Layer 층에서 필터가 이미지의 특징 을 추출하고, Average Pooling을 통해 이미지의 공간 적 정보가 점차 축소되며 중요한 정보만 남긴다.
-
8) Convolution 2D Layer의 필터 개수를 16, 16, 120로 변경하며 반복한다. 진행 단계에 따라 필터 수를 늘 려 복잡하고 추상적인 특징을 결합하고 복합적인 패 턴 학습을 진행한다.
3.3 Custom CNN 아키텍쳐
저사양 환경용 머신러닝을 조금 더 효율적으로 활용하 기 위하여 3.2장에서 학습한 머신러닝 아키텍쳐를 다음의 4가지 관점에서 개선하였다.
첫째, 활성화 함수를 변경하였다. LeNet-5 아키텍처의 Tanh 활성화 함수 대신 ReLU를 사용하였다. 활성화 함수 는 신경망에서 비선형성을 도입해 복잡한 데이터 표현을 가능하게 하는 핵심 요소이다. 대표적인 활성화 함수인 Tanh와 ReLU는 각각 다음과 같은 특성과 효과를 가진다.
-
1) Tanh: 출력 범위가 -1에서 1 사이로 제한되며, 비선형 성을 제공한다. 그러나 출력값이 포화 구간에 들어가 면 기울기 소실(vanishing gradient) 문제가 발생할 수 있어, 신경망이 깊어질수록 학습 속도가 저하될 수 있다.
-
2) ReLU (rectified linear unit): 양수 입력은 그대로 전달 하고, 음수 입력은 0으로 출력하는 함수이다. 계산이 단순하고 기울기 소실 문제를 효과적으로 줄여 깊은 신경망에서도 학습이 원활하다. 다만 음수 입력이 지 속되면 뉴런이 비활성화되는 “dying ReLU” 문제가 발생할 수 있다.
둘째, Average Pooling 대신 Max Pooling을 사용하였다. 풀링(pooling)은 합성곱 신경망에서 데이터의 공간적 크기 를 줄이고 연산량을 감소시키는 핵심적인 다운샘플링 기 법이다. Average Pooling과 Max Pooling은 각각 다음과 같 은 특성과 활용 가능성을 제공한다.
-
1) Average Pooling: 필터 영역 내 값들의 평균을 계산하 여 특징을 추출한다. 이 방식은 입력 데이터의 부드러 운 특징을 보존하고 노이즈에 강한 결과를 제공한다.
-
2) Max Pooling: 필터 영역 내에서 최대값을 선택하여 다운 샘플링한다. 이는 중요한 특징을 강조하는 데 효 과적이며, 특히 객체 감지 분야에서 널리 사용된다.
본 연구는 자동차 휠 형상분류를 그 대상으로 한다. 자 동차 휠은 <Figure 2>와 같이 도형의 규칙적인 또는 반복 적인 패턴으로 구성되었기에, 휠간의 차별적인 특징을 강 조하여 구분하는 것이 더 효율적일 것이다. 따라서 custom CNN에서는 Max Pooling을 사용하는 것이 더 효율적이라 판단하였다.
셋째, Grouped Convolution을 활용하였다. Grouped Convolution의 사용은 연산량을 줄이면서도 특징 학습 성 능을 유지하거나 향상시키는 데 유리하게 만들어주고, 대 규모 네트워크를 경량화할 수 있도록 해준다. 때문에 연산 효율성과 학습 성능 간의 균형을 효과적으로 달성하도록 도와준다. Grouped Convolution 2D Layer의 경우, 입력 채 널을 여러 그룹으로 나누고, 각 그룹에 독립적으로 합성곱 연산을 수행하게 되어 전체 연산량이 감소하게 된다.
넷째, Convolution 필터(Filter) 개수를 변화시켜 연산 효 율성과 특징 학습 최적화 그리고 일반화 성능 강화를 꾀했 다. 초기 계층에서는 32개의 필터를 사용하여 이미지의 기 본적인 구조인 엣지(edge), 코너(corner), 텍스처(texture)와 같은 저수준 특징을 추출하는 데 집중하게 했다. 중간 계 층에서는 필터 개수를 16개, 32개, 16개로 변경시킴으로 써, 데이터의 고수준 특징(복합적인 패턴, 물체 구조)을 학 습할 수 있도록 하였다. 이를 통해 다양한 특징 표현을 포 괄하면서 연산 효율을 높였다. 마지막 단계에서는 필터 개 수를 감소(16 → 8)시켜 학습된 고수준 특징을 압축하고, 최종 분류 계층에 중요한 정보만 전달하도록 설계하였다.
이상의 특징을 반영한 Custom CNN 아키텍쳐의 구성은 <Figure 4>와 같다.
4. 아키텍쳐 성능 평가
LeNet-5, ShuffleNet, MobileNet, ResNet, Custom CNN 의 5가지 모델을 각각 10회씩 학습시키고 평균값을 산출 하였다. 테스트용 데이터는 9개 클래스별로 360개씩의 이 미지를 준비하고, 그중 20%를 무작위로 추출하여 평가에 사용하였다. 테스트 결과는 <Table 1>과 같다.
정확성 평가에서는, 72×9개의 테스트 이미지 중 LeNet-5, MobileNet, ResNet이 각각 1건씩 오분류를 보였 다. 즉, 각 모델이 72개의 테스트 샘플 중 1개를 잘못 분류 한 것이다. 반면 ShuffleNet과 Custom CNN은 모든 샘플을 정확하게 분류하였다.
학습 시간 측면에서는 Custom CNN이 약 11분으로 가 장 빠른 성능을 보였다. 특히 Custom CNN은 다른 모델들 보다 더 짧은 학습 시간으로도 오분류가 단 한 건도 발생 하지 않았음을 확인할 수 있다.
LeNet-5는 상대적으로 짧은 학습 시간을 가졌지만, 오 분류가 발생하여 정확성 측면에서 Custom CNN이 더 우 수함을 확인할 수 있다.
ShuffleNet은 정확도 측면에서 Custom CNN과 동등한 성능을 보였으나, 학습 시간이 5배가량 길기에 효율성 측 면에서 Custom CNN이 더 우수함을 확인할 수 있다. ShuffleNet 역시 Grouped Convolution을 적용하고 있어 Grouped Convolution이 향상된 학습 성능을 제공함을 확 인할 수 있다.
5. 결 론
머신러닝은 제조업의 이미지 기반 품질 관리에 매우 유 용하다. 그러나 대부분의 기존 연구들이 대규모 자본의 투 입이 필요한 고성능 모델에 집중되어 있어, 중소 규모 기 업들은 이 기술의 혜택을 누리기 어렵다.
본 연구는 저 사양 환경에서도 자동차용 타이어 휠 형 상을 분류할 수 있는 저비용의 경량 머신러닝을 구축하는 것을 목적으로 다양한 신경망 아키텍쳐들을 대상으로 학 습의 효율성이라는 관점에서 특징을 파악하였다. 구체적 으로 LeNet-5, ShuffleNet, MobileNet, ResNet의 머신러닝 아키텍쳐의 특징을 파악하고, 학습의 효율성이라는 관점 에서 각 아키텍쳐들의 장점이라 판단되는 내용을 고려하 여 Custom CNN을 구성하였다.
그리고 기존의 머신러닝 아키텍쳐와 Custom CNN의 성 능을 학습 시간과 정확성 기준으로 평가하여, Custom CNN이 학습 시간과 정확성 측면에서 가장 우수한 성능을 보임을 확인하였다.
Custom CNN은 grouped convolution과 필터 수의 단계 적 감소를 활용해 연산량을 효과적으로 줄이면서도 주요 특징을 성공적으로 학습했고, 이는 복잡한 데이터셋에서 도 간단하면서 우수한 성능을 보일 수 있는 가능성을 보여 준다.
이러한 가능성은 다품종 소량생산에 머신러닝을 적용할 경우에 대하여 실용성을 증가시킨다. 다품종 소량생산의 경우, 학습 시간은 실용화 과정의 중요한 제약 요인이다. 짧은 시간 안에 높은 정확성을 가지는 결과를 도출한다는 것은 실제 환경에서 데이터 변경이나 새로운 데이터셋 적용 시 빠른 재학습을 가능하게 할 수 있음을 의미한다.
이는 효율적인 머신러닝 아키텍처를 적용함으로써 투 자 비용의 절감과 대규모 전력 사용에 따르는 환경 영향의 최소화를 기대할 수 있게 한다.
다만, 다음과 같은 면에서 본 연구 결과를 조심스레 받 아들일 필요는 있다. 최신 기술을 활용한 MobileNet과 ResNet은 높은 계산 복잡도와 긴 학습 시간에도 불구하고, Custom CNN과 ShuffleNet보다 좋은 성능을 보이지 못했 다. 이는 분류하는 특징이 <Figure 2>의 자동차 휠과 같이 도형의 규칙적인 또는 반복적인 패턴으로 구성된 특별한 경우에만 grouped convolution과 필터 수의 단계적 감소를 통해 초기에 빠르게 저수준 특징을 추출하는 것이 더 효율 적일 수 있음을 배제할 수 없다. 따라서 본 연구내용을 다 른 이미지 분류 작업이나 더 복잡한 데이터셋을 대상으로 확장하여 검증하는 추가 연구가 필요하다.
또한, 본 연구의 결과만으로는 Grouped convolution과 convolution fileter 수의 단계적 감소 중에서 어느 것이 학 습시간 감소와 정확도 향상에 더 많은 영향을 주었는지 확인할 수 없다. 이는 자원적 제한이 있는 중소기업의 입 장에서 저비용의 효율적인 머신러닝 아키텍쳐를 빠르게 구현하려는 목적이 앞서다보니, 위와 같은 체계적인 접근 을 고려하지 못하고, 다양한 효과를 동시에 적용하는 형식 으로 연구를 진행하였기 때문이다. 따라서 앞서 언급한 추 후연구에서 이 부분도 함께 고려하여 진행한다면 더욱 가 치있는 결과를 얻을 수 있으라리 판단된다.