Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.49 No.1 pp.10-20
DOI : https://doi.org/10.11627/jksie.2026.49.1.010

Real-Time On-Device Semantic Segmentation System for Recycling Waste Sorting

Min-Jun Kim^*

, Chunghun Ha^**†

^*Department of Software and Communication Engineering, Hongik University
^**Department of Industrial and Data Engineering, Hongik University

^†Corresponding Author : chunghun.ha@hongik.ac.kr

Received 09/12/2025 Finally Revised 03/01/2026 Accepted 08/01/2026

Abstract

This study presents the development of an AI-based real-time on-device segmentation system designed to support recyclable waste sorting. A lightweight semantic segmentation model was implemented by combining the MobileViT-x-small backbone with the DeepLabV3 architecture, enabling pixel-level classification of recyclable items and intuitive visualization on a smartphone screen. A total of 200 real-world images were collected, with 150 used for training and 50 for testing. To enhance generalization under limited data conditions, the training set was expanded to 750 images through geometric and color-based augmentation techniques. The trained model was subsequently converted into ONNX format and deployed within a Flutter-based mobile application, allowing real-time inference directly on the device without reliance on external servers. The proposed system overlays semi-transparent masks and class labels onto the live camera feed, thereby reducing sorting errors and promoting active user participation in everyday recycling practices.

Key Words : On-Device Semantic Segmentation , Overlay , Data Augmentation , DeepLabV3 , MobileViT-x-small

실시간 온디바이스 재활용품 분리배출 세그먼테이션 시스템

김민준^*, 하정훈^**†

^*홍익대학교 소프트웨어융합학과
^**홍익대학교 산업․데이터공학과

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

현대 사회는 1인 가구의 증가와 배달․택배 문화의 확산으로 인해 플라스틱 및 일회용 포장재 사용량이 꾸준히 증가하고 있다. 우리나라의 경우, 1인당 연간 플라스틱 소비량이 약 34kg에 달하는 것으로 보고되며, 생활폐기물 중 상당 부분이 재활용 가능한 자원임에도 불구하고 실제 재활용률은 기대치에 미치지 못하고 있다[5]. 특히 재활용 봉투 내 약 30%는 재활용이 가능한 품목임에도 불구하고, 시민들이 정확한 분리배출 기준을 알지 못하거나 혼동하는 경우가 많아 혼합 배출과 오분류가 빈번하게 발생하며, 이를 줄이기 위한 정보 제공 및 안내의 필요성이 제기된다[9,14]. 이러한 문제는 선별 과정에서 추가적인 인력과 비용 부담을 초래하며, 오염된 재활용품은 결국 소각 또는 매립으로 처리되어 환경적․경제적 손실을 야기한다. 따라서 단순한 인식 개선 캠페인만으로는 한계가 있으며, 실제 배출 상황에서 시민들이 즉각적으로 참고할 수 있는 실시간 안내 도구의 필요성이 대두되고 있다.

본 연구의 목적은 AI 기반 시맨틱 세분화(Semantic Segmentation) 기술을 활용하여, 사용자가 스마트폰 카메라로 폐기물을 촬영했을 때 재활용품의 종류를 실시간으로 구분하고 화면에 시각적으로 표시해 주는 온디바이스(On-Device) 분리배출 지원 시스템을 구현하는 데 있다. 제안하는 시스템은 학습된 모델을 단말기 내부에 탑재함으로써 서버로 이미지를 전송하지 않고도 추론이 가능하므로, 네트워크 지연 없이 빠른 응답 속도를 제공하는 동시에 개인정보 보호 측면에서도 유리하다. 또한 픽셀 단위 분류 결과를 활용함으로써 단순히 재활용 가능 여부를 판별하는 수준을 넘어, 하나의 물체에 포함된 다양한 재질, 예컨대 페트병과 유리병, 비닐 라벨 등을 세분화하여 표시할 수 있다. 더 나아가 본 시스템은 Flutter 기반 애플리케이션으로 구현되어 안드로이드 모바일 환경에서 손쉽게 배포․확장이 가능하다는 장점을 지닌다[7]. 궁극적으로 본 연구는 인공지능 기술을 활용하여 시민들의 분리배출 부담을 줄이고 보다 정확한 재활용 습관 형성을 지원함으로써, 지속가능한 자원 순환 사회 구축에 기여하고자 한다.

최근 모바일 환경에서의 시맨틱 세분화를 위해 다양한 경량화 연구가 활발히 이루어지고 있다. Apple은 HyperDETR와 같은 Transformer 계열 모델에 대해 디코더 레이어 축소 등의 경량화 기법을 적용하고, iOS 기기의 Neural Engine에서 저지연 추론을 달성하였다[2]. 이처럼 선행 연구는 주로 구조 축소, pruning 등의 모델 경량화 기법과 더불어 Core ML, TensorFlow Lite 등 특정 플랫폼 전용 프레임워크를 활용하여 해당 하드웨어에 최적화된 형태로 모델을 배포하는 경향을 보인다[1,8].

본 연구에서는 Apple이 공개한 사전학습 모델인 DeepLabV3-MobileViT-x-small을 기반으로 하였다[4,11]. 이 모델은 MobileViT 아키텍처를 통해 구조적 경량화와 시맨틱 세분화 정확도를 균형 있게 달성한다[11]. 해당 모델을 ONNX 형식으로 변환한 뒤, ONNX Runtime을 이용하여 안드로이드 기반 디바이스에서 온디바이스 추론을 수행하였다[12]. ONNX Runtime은 CPU, GPU, NNAPI(Android Neural Networks API) 등 다양한 하드웨어 백엔드를 지원하는 범용 추론 엔진이며, 본 연구에서는 범용성과 안정성을 우선시하여 CPU 기반 추론 방식을 채택하였다[12].

이러한 접근은 HyperDETR와 같이 특정 벤더의 하드웨어 가속기에 강하게 결합된 선행 연구와 달리, ONNX 형식과 ONNX Runtime을 활용함으로써 특정 플랫폼에 종속되지 않으면서도 중저가 안드로이드 기기를 포함한 보다 넓은 사용 환경을 대상으로 한다는 점에서 의의가 있다. 또한 일반 사진 편집이나 범용 객체 인식이 아닌, 국내 생활 폐기물 분리배출 상황에 특화된 도메인별 시맨틱 세분화를 구현했다는 점에서 기존 연구와 차별화된다[2, 4, 11, 12]. 공개된 사전학습 모델을 활용하여 프레임워크 독립적이면서도 확장 가능한 구조로 온디바이스 추론을 구현함으로써, 전용 가속기에 대한 세밀한 최적화 없이도 모바일 환경에서 실용적으로 동작하는 ONNX 기반 시맨틱 세분화 시스템을 구현할 수 있음을 보여준다.

2. 관련 연구

2.1 Semantic Segmentation

<Figure 1>은 물체를 인식하는 대표적인 기법들을 소개하고 있다. 물체 인식 분야에서는 대표적으로 Object Detection(객체 검출)과 Semantic Segmentation(시맨틱 세분화), Instance Segmentation(인스턴스 세분화) 기법이 활용된다[17]. 본 연구 초기에는 재활용품의 종류를 인식하기 위해 Object Detection 방식을 고려하였다. 그러나 Object Detection은 물체를 사각형 박스로 감싸는 구조적 특성으로 인해, 대상 주변의 불필요한 배경 영역까지 함께 포함되는 한계를 지닌다. 특히 하나의 물체가 복합적인 재질로 이루어져 있거나, 여러 재활용품이 서로 겹쳐 있는 경우에는 박스가 중첩되면서 각 클래스의 경계를 명확히 구분하기 어렵다. Instance Segmentation은 개별 객체를 구분하는 데 강점을 가지지만, 재활용품 분리배출 문제에서는 '몇 개'인지보다 '무슨 종류인지'가 더 중요한 과제이다.

이에 따라 본 연구에서는 동일한 클래스를 하나의 집합으로 간주하고, 이미지의 모든 픽셀을 클래스 단위로 라벨링하는 시맨틱 세분화를 문제 해결에 가장 적합한 접근법으로 선택하였다[2]. 시맨틱 세분화는 플라스틱, 유리, 캔, 비닐 등 재질별 영역을 정밀하게 분리할 수 있으며, 픽셀 기반 마스크를 활용해 모바일 화면 위에 반투명 오버레이 형태로 시각화하기 용이하다. 이는 사용자에게 직관적이고 실시간적인 안내를 제공하는 데 효과적이라는 점에서 본 연구의 목적과 부합한다.

2.2 MobileViT

MobileViT는 기존의 경량 CNN 기반 모바일 네트워크와 달리, CNN의 국소 패턴 추출 능력과 Transformer의 전역적 문맥 이해 능력을 결합한 구조로 설계된 모델이다[11]. 얕은 계층에서는 합성곱 연산을 통해 모서리와 질감 같은 세부 패턴을 효율적으로 추출하고, 중간 계층에서는 이미지를 패치 단위로 분할하여 Transformer 블록에 입력함으로써 이미지 내 서로 멀리 떨어진 영역 간의 관계까지 학습할 수 있다. 이러한 구조적 특징 덕분에 MobileViT는 파라미터 수와 연산량을 최소화하면서도 복잡한 물체를 효과적으로 구분할 수 있는 성능을 확보한다.

본 연구에서는 PASCAL VOC 벤치마크에서 약 77.1%의 mIoU와 2.9M 파라미터를 기록한 MobileViT-x-small 구성을 백본으로 채택하였다[6, 11]. 이는 세분화 작업에 필요한 구분 능력을 유지하면서도 스마트폰과 같은 모바일 환경에서 실시간으로 동작할 수 있을 만큼 연산 부담이 낮아 적합하다. 더 나아가 DeepLabV3 구조를 결합하여, 서로 다른 크기의 필터를 동시에 적용함으로써 작은 물체부터 큰 물체까지 폭넓게 포착할 수 있도록 설계하였다[4]. 이러한 모델 구조 선택은 연산 자원이 제한된 온디바이스 환경에서 재활용품 세그먼테이션을 정확성과 속도 면에서 균형 있게 해결하기 위한 핵심적인 전략이라 할 수 있다.

3. 시스템 설계

3.1 데이터 수집

본 연구에서는 실제 분리수거장, 편의점, 대형마트 등 다양한 생활 환경에서 재활용품을 직접 촬영하거나 수집하여 총 200장의 이미지를 확보하였다. 이후 Polygon 방식으로 픽셀 단위 라벨링을 수행하였으며, 캔(Can), 유리(Glass), 종이(Paper), 플라스틱(Plastic), 비닐(Vinyl)의 5가지 클래스로 분류하였다.

<Table 1>은 데이터셋의 클래스별 분포를 나타낸다. Plastic 클래스가 가장 높은 비율을 차지하였으며, Paper, Can, Vinyl, Glass 순으로 분포하였다. 세그먼테이션 결과의 시각적 구분을 위해 각 클래스에 고유한 색상을 할당하여 예측 결과를 직관적으로 확인할 수 있도록 하였다. 클래스별 데이터 수가 원본 이미지 수보다 많은 이유는 복합 재질을 포함한 객체가 다수 존재하여 동일 이미지 내에서 여러 클래스가 중첩되었기 때문이다.

3.2 데이터 증강

3.2.1 데이터 증강의 필요성

딥러닝 기반 시맨틱 세분화는 일반적인 분류 문제보다 훨씬 많은 양의 픽셀 단위 라벨링 데이터를 요구한다. 그러나 객체의 경계를 픽셀 단위로 정밀하게 그리는 작업은 시간과 전문성이 요구되며, 대규모 데이터셋을 단기간에 구축하기 어렵다는 한계를 가진다. 본 연구에서 확보한 학습용 이미지는 총 150장으로, 다양한 조명․배경․촬영 각도를 충분히 포괄하기에는 부족하였다. 이러한 상태에서 모델을 학습할 경우 특정 환경에 과도하게 적응하여 새로운 환경에서 성능이 급격히 저하되는 과적합(Overfitting) 문제가 발생할 수 있다.

이를 보완하기 위해 본 연구에서는 데이터 증강(Data Augmentation) 기법을 적용하여 학습 데이터의 다양성과 양을 동시에 확장하였다[16]. 데이터 증강은 원본 이미지를 좌우 반전, 회전, 색상 변환 등 다양한 방식으로 변형하여 통계적으로는 유사하지만 서로 다른 샘플을 생성하는 방법이다. 이를 통해 모델은 다양한 형태의 변형에 반복적으로 노출되면서 일반화 성능을 향상시킬 수 있으며, 추가 촬영과 라벨링 없이도 데이터셋 규모를 확장하여 비용을 절감할 수 있다. 또한 클래스 불균형 문제를 해결하기 위해 손실 함수에 클래스 가중치(class weights)를 부여하여 빈도수가 적은 클래스의 오차를 더 크게 반영하도록 설계하였다. 즉, 증강은 모든 클래스에 동일하게 적용하되 학습 단계에서는 소수 클래스의 학습 비중을 높여 불균형을 완화하였다.

3.2.2 적용된 데이터 증강 기법

데이터 증강은 학습 단계에서만 적용하였으며, 테스트 단계에서는 원본 이미지만을 사용하여 모델의 일반화 성능을 공정하게 평가하였다. 주요 증강 기법은 세 가지로 요약된다. 첫째, 수평 반전(Horizontal Flip)을 통해 좌우 방향성이 바뀐 이미지를 생성하여 재활용품 배치 방향에 대한 민감도를 줄였다. 둘째, 회전(Rotate) 변환을 ±10도 범위 내에서 적용하여 사용자 손 위치나 촬영 각도 변화에 강건한 표현을 학습하도록 하였다. 셋째, ColorJitter를 통해 밝기, 대비, 채도, 색조를 소폭 변화시켜 다양한 조명 조건과 스마트폰 기기별 카메라 특성 차이를 반영하였다. 기하학적 변환(좌우 반전, 회전)은 입력 이미지와 시맨틱 세분화 마스크에 동일하게 적용하여 공간적 정합성을 유지하였으며, 색상 변환은 이미지에만 적용하여 픽셀별 클래스 레이블 정보가 변경되지 않도록 하였다. 이러한 설계를 통해 모델은 다양한 외형적 변화를 경험하면서도 픽셀 단위 라벨의 일관성을 유지할 수 있었다.

(1) 증강 파이프라인 구성

데이터 증강은 Albumentations 라이브러리의 Compose 기능을 활용하여 하나의 파이프라인으로 구성하였다[3]. 전체 파이프라인의 적용 확률을 p=1.0으로 설정하여 학습용 이미지가 데이터로더를 통과할 때마다 반드시 증강 과정을 거치도록 하였다. 파이프라인 내부에는 세 가지 변환이 순차적으로 배치되었으며, 각 변환은 고유의 확률을 가진다. HorizontalFlip은 50% 확률로 좌우 반전, Rotate(±10)은 40% 확률로 회전, ColorJitter는 30% 확률로 밝기․대비․채도․색조 변환을 적용하였다. 각 변환은 독립적으로 적용 여부가 결정되므로, 한 번의 파이프라인 통과에서 세 변환이 모두 적용될 수도 있고 일부만 적용될 수도 있으며, 이론적으로는 어떤 변환도 적용되지 않을 가능성도 존재한다. 이러한 확률적․조합적 증강 전략을 통해 동일한 원본 이미지라도 학습 과정에서 매 에포크마다 서로 다른 형태로 변형된 샘플로 입력될 수 있으며, 이는 모델이 다양한 촬영 조건과 환경 변화에 보다 잘 적응하도록 돕는다. 결과적으로 원본 150장의 학습 이미지는 효과적으로 750장 규모의 학습 세트로 확장되었으며, 제한된 데이터 환경에서도 안정적인 세그먼테이션 성능을 확보하는 데 중요한 역할을 수행하였다(<Table 2> 참조).

4. 모 델

4.1 DeepLabV3-MobileViT-x-small 개요

본 연구에서는 Apple이 제안한 MobileViT 아키텍처를 백본으로 활용한 DeepLabV3-MobileViT-x-small Semantic Segmentation 모델을 채택하였다. 이 모델은 합성곱 신경망(CNN)의 지역적 특징 추출 능력과 Transformer 기반 MobileViT의 전역 문맥 이해 능력을 결합한 경량 하이브리드 구조로, 모바일 환경에서의 실시간 추론을 목표로 설계되었다. MobileViT 백본은 입력 이미지를 패치 단위로 분할한 뒤 self-attention을 통해 패치 간의 관계를 학습함으로써, 물체의 형태, 질감, 배경 정보를 종합적으로 고려하는 표현을 생성한다. 경량 구조임에도 self-attention 기반의 전역 문맥 정보를 활용하여 객체와 배경의 관계를 효과적으로 반영할 수 있으나, 경량화로 인한 표현 용량 제한과 패치 기반 처리 특성상 미세 경계 정보 손실 가능성이 존재한다. DeepLabV3 디코더는 Atrous Spatial Pyramid Pooling(ASPP)을 통해 서로 다른 수용영역(receptive field)을 동시에 고려하여 다중 스케일 문맥 정보를 통합한다. 이는 작은 물체부터 큰 물체까지 다양한 크기의 객체를 효과적으로 포착할 수 있게 하며, 재활용품이 배경과 혼재하거나 형태가 복잡한 경우에도 안정적인 분리를 가능하게 한다. 다만 구조적 특성으로 인해 미세 경계가 다소 거칠어질 수 있으며, 고해상도 입력이나 실시간 조건에서는 연산 부담이 증가할 수 있으므로, 온디바이스 환경에서는 백본 경량화 및 입력 해상도 선택을 통한 효율–성능 균형이 중요하다. 백본 네트워크는 Hugging Face에서 제공하는 사전학습 MobileViT 계열 모델 중 MobileViT-x-small 구성을 선택하였다. 이 구성은 약 2.9M 파라미터 규모로 모바일 환경의 메모리 및 연산 제약을 충족하면서도 세그멘테이션에 필요한 표현력을 확보할 수 있다. 선정된 백본 위에 DeepLabV3 세그멘테이션 헤드를 결합한 후, 직접 라벨링한 재활용 데이터셋(플라스틱, 유리, 캔, 비닐 등)을 이용해 파인튜닝을 수행하여, 일반적인 물체 인식에 최적화된 사전학습 가중치를 재활용품 분리배출 문제에 특화된 표현으로 재학습시켰다. 본 연구의 목표는 외곽선의 픽셀 단위 정밀도보다 사용자가 분리배출을 판단할 수 있도록 재질 클래스의 위치와 영역을 안정적으로 제시하는 것이다. YOLO와 같은 객체 검출/인스턴스 분할 계열 접근도 가능한데 동일한 커스텀 데이터셋과 파라미터 규모(2.9M) 조건에서 두 계열을 비교하는 실험을 진행했다.

4.2 모델 구조

<Figure 2>는 본 연구에서 사용한 모델의 구조이다. 입력 해상도 512×512 RGB 이미지를 기준으로 설계되었다. 먼저 3×3, stride 2 합성곱을 통해 해상도를 256×256 특징맵으로 축소한 뒤, MobileNetV2 기반 inverted residual(MV2) 블록을 연속적으로 적용하여 해상도를 128×128 → 64×64 → 32×32 → 16×16으로 단계적으로 다운샘플링하였다. 중간 단계인 32×32와 16×16 해상도에서는 패치 크기 2×2를 사용하는 MobileViT 블록을 삽입하여, 각 단계마다 2개, 4개, 3개의 Transformer 계층을 쌓아 국소 CNN 특징과 전역 self-attention 특징을 동시에 학습하도록 구성하였다. 마지막으로 1×1 합성곱을 통해 채널 수를 정렬한 후, DeepLabv3의 ASPP 모듈을 통해 다중 스케일 문맥 정보를 통합하고 업샘플링을 적용하여 출력 해상도를 입력 크기와 동일한 512×512로 복원한 뒤, 각 픽셀에 대해 클래스별 로짓(logits)을 산출하였다. 이러한 ASPP 기반 다중 스케일 문맥 통합은 작은 재활용품부터 큰 배경 객체까지 다양한 스케일의 정보를 효과적으로 반영할 수 있도록 한다.

4.3 손실 함수

식 (1)은 Cross-Entropy(CE) Loss를 나타낸다. 모델이 예측한 확률 분포와 실제 정답 분포 간의 차이를 계산하는 손실 함수이다.

C E = - \sum_{i}^{C} t_{i} \log (f {(s)}_{i})

(1)

$t_{i}$ 는 GT Label로 one-hot형태로 표현하고 $f {(s)}_{i}$ 는 softmax 함수를 통해 계산된 클래스 $i$ 에 대한 예측확률이다. $C$ 는 객체 클래스 수를 의미한다.

식 (2)는 Dice Loss를 나타낸다. 예측 영역과 정답 영역이 겹치는 비율이 전체 영역에서 얼마나 차지하는지를 나타낸다.

D i c e (p, g) = \frac{2 \sum p_{i} g_{i}}{\sum p_{i} + \sum q_{i}}

(2)

$p_{i}$ 는 모델이 픽셀 $i$ 를 1이라고 예측한 값이고 $g_{i}$ : 정답 픽셀 값(0 또는 1)을 의미하며 $D i c e L o s s (p, g) = 1 - D i c e (p, g)$ 이다[13].

시맨틱 세분화 학습에는 Cross-Entropy Loss(CE)와 Dice Loss를 결합한 복합 손실 함수를 사용하였다. Cross-Entropy Loss는 각 픽셀에 대해 모델이 예측한 확률 분포와 실제 정답(one-hot 레이블) 분포 간의 차이를 최소화하여 픽셀 단위 분류 정확도를 안정적으로 향상시킨다. Dice Loss는 예측 마스크와 정답 마스크 간의 겹침 비율(2 × 교집합 / 합집합)에 기반해 정의되며, 특히 작은 객체나 얇은 경계에서의 미세한 손실에도 민감하게 반응한다[13].

본 연구에서 CE는 전체 픽셀 분포를 안정적으로 학습시키고, Dice는 객체 영역의 겹침률과 경계 품질을 보완하도록 설계하였다. 두 손실의 결합 비율은 여러 번의 실험을 통해 결정했으며, CE 비중을 높일수록 학습 안정성과 클래스 구분이 개선되는 반면 Dice 비중을 높일수록 객체 영역의 겹침 품질이 향상되는 경향이 있었다. 다만 CE 비중이 과도하면 픽셀 단위 정확도는 높아도 경계가 흐려지거나 작은 객체/얇은 영역이 누락되는 문제가 발생했고, Dice 비중이 과도하면 겹침 최적화에 치우쳐 학습이 불안정해지거나 예측 확률이 극단화되어 클래스 간 구분 및 일반화 성능이 저하될 수 있었다. 따라서 본 연구에서는 검증 Dice, 학습 안정성, 그리고 클래스별 성능 균형을 종합적으로 고려했을 때 가장 우수했던 0.6:0.4를 최종 채택하였다. 또한 클래스 불균형을 완화하기 위해 각 클래스의 픽셀 수에 역비례하는 가중치를 적용하되, 지나치게 큰 가중치로 인한 학습 불안정을 방지하기 위해 상한값을 두고 클리핑(clipping)하였다.

4.4 평가 지표

모델 성능 평가는 Dice Score(F1-Score)를 주요 지표로 사용하였다. 이는 본 연구의 데이터 특성과 실용적 목적에 가장 적합한 지표이며, 다음과 같은 이유에서 선택되었다.

첫째, Dice Score는 클래스 불균형 문제에 강건하다. 본 연구의 데이터셋은 배경 클래스가 전체 픽셀의 약 70~80%를 차지하며, 재활용 쓰레기 객체는 20~30%에 불과한 심각한 클래스 불균형을 보인다. Pixel Accuracy는 (TP + TN) / (TP + TN + FP + FN)으로 계산되어 배경 픽셀(TN)이 압도적으로 많은 경우 실질적인 성능 평가가 어렵다. 예를 들어, 배경이 75%를 차지하는 이미지에서 모든 픽셀을 배경으로 예측하면 Pixel Accuracy는 75%가 되지만 실제로는 객체를 전혀 탐지하지 못한 것이다. 반면 Dice Score는 2TP / (2TP + FP + FN)로 계산되어 분모에서 TN을 완전히 제외하므로, 배경 픽셀 수와 무관하게 관심 객체의 검출 성능만을 순수하게 측정할 수 있다.

둘째, Dice Score는 작은 객체에 대해 높은 민감도를 보인다. 플라스틱 빨대, 얇은 비닐 조각 등은 전체 이미지에서 약 5% 수준의 면적을 차지하는데, Pixel Accuracy는 이러한 작은 객체에서 모델 간 성능 차이를 구분하기 어렵다. Dice Score는 Precision과 Recall의 조화평균으로서 작은 객체에 대해서도 0~1 범위에서 명확한 성능 차이를 나타내며, 모델 비교와 해석이 용이하다.

셋째, Dice Score는 경계 영역 오차에 적절한 민감성을 갖는다. mIoU는 TP / (TP + FP + FN)로 계산되며 Dice Score와는 IoU = Dice / (2 - Dice)의 관계를 갖는다. IoU는 분모에 TP를 한 번만 포함하여 경계 오차에 더 가혹한 패널티를 부여하나, 본 연구는 픽셀 단위 완벽도보다 재활용 쓰레기의 종류를 사용자에게 실시간으로 안내하는 것이 목적이므로 적절한 수준의 엄격함을 가진 Dice Score가 더 적합하다.

넷째, Dice Score는 다중 클래스 평가에서 공정성을 보장한다. 본 연구는 5개 클래스(캔, 유리, 종이, 플라스틱, 비닐)와 배경을 다루며 각 클래스의 면적이 크게 다르다. Dice Score는 클래스별로 계산 후 평균(mean Dice)을 구하면 클래스 크기와 무관하게 모든 클래스를 동등하게 평가할 수 있다.

결론적으로, Pixel Accuracy는 클래스 불균형으로 인해 변별력이 부족하며, mIoU는 작은 객체와 경계 오차에 지나치게 민감하다. Dice Score는 관심 객체의 검출 성능을 직접 측정하고 객체 크기에 무관한 공정한 평가를 제공하므로, 본 연구에서는 Dice Score를 주 평가 지표로, Pixel Accuracy와 mIoU를 보조 지표로 사용하였다.

4.5 학습 설정

학습 설정은 온디바이스 환경에서의 추론 효율성과 학습 안정성을 고려하여 구성하였다. 학습률(learning rate)은 5e-5로 설정하고, 최적화 알고리즘은 AdamW를 사용하여 가중치 감쇠를 통해 일반화 성능을 향상시켰다. 배치 크기(batch size)는 16으로 설정하였으며, 최대 에포크 수는 300으로 두었다. 조기 종료(early stopping)는 학습 데이터에서의 Dice Score 개선이 40 epoch 동안 관찰되지 않을 경우 학습을 종료하도록 설정하였다. 학습률 스케줄러는 초기 warm-up 단계를 포함한 Cosine Annealing 방식을 적용하여, 초반에는 학습률을 점진적으로 증가시키고 후반에는 부드럽게 감소시키도록 설계하였다. 학습은 CUDA 지원 GPU 환경에서 수행되어 제한된 데이터셋 규모에서도 안정적인 수렴과 충분한 학습 반복을 확보하였다.

4.6 실험 환경 및 추론 성능

온디바이스 성능 평가를 위해 Samsung Galaxy Tab S7(Snapdragon 865+, 8GB RAM, Android 12)을 사용하였으며, ONNX Runtime을 통해 CPU 모드로 추론을 수행하였다. 카메라 셔터부터 결과 출력까지의 end-to-end 추론 시간은 약 7.0s로 측정되었다. 이는 이미지 캡처, 전처리, 모델 추론, 후처리, 화면 렌더링의 전 과정을 포함한 시간이며, 모바일 환경에서 실용적인 응답 속도를 제공함을 확인하였다.

5. 결 과

5.1 데이터 증강 전후 성능 비교

데이터 증강을 적용한 결과, Test Dice Score가 약 8.4% 향상되어 최종적으로 0.9402를 기록하였다. 이는 동일한 모델 구조와 학습 설정 하에서 Horizontal Flip, Rotate, ColorJitter와 같은 기하학적․색상 변환을 학습 데이터에 적용함으로써, 모델이 다양한 조명 조건, 촬영 각도, 배경 변화에 보다 강건하게 적응하도록 학습되었음을 의미한다. 특히 실내․실외 환경, 그림자․역광, 다양한 스마트폰 카메라 센서 차이를 포함한 실제 사용 환경에서도 예측 성능이 안정적으로 유지되어, 일반화 성능이 크게 개선된 것을 계량적으로 확인할 수 있었다.

증강 미적용 시 Test Dice Score는 0.8673였으나, 증강을 적용한 경우 0.9402로 향상되었으며, 이는 약 8.4%의 개선 효과를 보여준다. 이러한 결과는 제한된 데이터셋 환경에서도 데이터 증강 기법이 모델의 일반화 성능을 실질적으로 개선하는 데 효과적임을 입증한다(<Figure 3>, <Table 3> 참조).

5.2 최종 모델 선정

테스트 50개 샘플 기준으로 증강 후 총 750장의 증강된 이미지로 Fine-tunning한 DeepLabV3-MobileViT-x-small와 YOLO11n-seg[18]의 Dice, mIoU, Pixel Accuracy 성능을 비교하였다. Dice: 0.9402, mIoU: 0.8884, Pixel Accuracy: 0.9878을 기록하였으며, YOLO11n-seg는 Dice: 0.7793, mIoU: 0.7503, Pixel Accuracy: 0.9415로 나타났다. 따라서 경량 구조의 제약을 만족하면서도 재질 영역 분해 및 시각적 안내라는 본 과제의 목표에 적합한 성능을 종합적으로 고려하여, MobileViT-x-small 기반 DeepLabV3 모델을 최종 채택하였다(<Table 4> 참조).

5.3 클래스별 성능

클래스별 Dice Score는 Plastic 0.9414, Vinyl 0.8644, Glass 0.8656, Paper 0.8645, Can 0.7593 순으로 나타났으며, 전체 평균은 0.8590을 기록하였다. 이는 증강 적용 후 전체 Test Dice Score 0.9402와 차이를 보이는데, 평가 방식의 차이에 기인한다. 전체 Test Score는 모든 픽셀에 대한 평균 성능을 의미하는 반면, 클래스별 Score는 각 클래스가 존재하는 영역만을 대상으로 개별 계산한 후 산술 평균한 값이다. 따라서 데이터셋 내 클래스 분포와 객체 크기에 따라 두 지표 간 차이가 발생할 수 있다. 각 클래스의 성능은 재질의 시각적 특성, 데이터 분포, 그리고 객체의 복잡도에 따라 차별화된 양상을 보였다.

5.3.1 우수 성능 클래스 분석(Plastic, Glass, Paper, Vinyl)

Plastic 클래스는 0.9414의 높은 Dice Score를 달성하여 본 연구의 시맨틱 세분화 시스템이 가장 일반적인 재활용품에 대해 우수한 분류 성능을 보유하고 있음을 입증하였다. 이는 페트병, 플라스틱 용기 등 다양한 형태의 학습 데이터를 통해 모델이 투명 및 반투명 재질의 경계선을 효과적으로 학습한 결과로 해석된다. 플라스틱은 일상에서 가장 빈번하게 접하는 재활용품이므로, 높은 정확도는 실제 사용자 경험 측면에서 중요한 의미를 갖는다.

Glass 클래스는 0.8656의 성능을 달성하였다. 유리는 투명성과 반사 특성으로 인해 배경이 비치는 복잡한 시각적 조건을 형성하지만, 경량 모델임에도 불구하고 안정적인 시맨틱 세분화 성능을 보였다. 유리병은 수집한 학습 데이터가 비교적 일정한 형태와 두께를 가지고 있어 모델이 일관된 특징을 학습할 수 있었던 것으로 분석된다.

Paper 클래스는 0.8645의 Dice Score를 기록하였다. 본 연구에서는 종이 단일 재질로만 구성된 박스류를 데이터셋에서 제외하였다. 이는 박스가 누구나 쉽게 구분 가능하며 하나의 이미지에서 과도하게 많은 픽셀을 차지하여 클래스 불균형을 야기할 수 있기 때문이다. 따라서 데이터셋에 포함된 종이류는 컵홀더, 스티커 등 대부분 복합 재질 중 일부로 구성되어 있으며, 각 물체마다 종이 부분의 위치와 비율이 상이하다. 이러한 높은 변동성에도 불구하고 0.8645의 성능은 복합클래스에서도 분류 기능을 수행하기에 충분한 수준으로 평가된다.

Vinyl 클래스는 0.8644의 성능을 기록하였다. 비닐류는 투명하고 얇은 재질 특성으로 인해 세그먼테이션이 까다로운 대상임에도 불구하고 안정적인 결과를 보였다. 특히 데이터 증강 기법 중 ColorJitter가 다양한 조명 환경을 효과적으로 시뮬레이션하여 투명 재질의 경계 학습에 기여한 것으로 판단된다. 이는 본 연구에서 적용한 증강 전략의 유효성을 보여주는 사례이다.

5.3.2 중간 성능 클래스의 특성 분석(Can)

Can 클래스는 0.7593의 성능을 보였다. 캔류는 음료 캔, 참치 캔, 통조림 캔 등 종류가 매우 다양하며, 작은 음료 캔부터 큰 통조림 캔까지 크기 범위가 넓다. 또한 금속 표면의 강한 반사 특성과 다양한 인쇄 디자인, 찌그러진 형태 등 시각적 변동성이 크다. 이처럼 캔류가 가진 높은 다양성을 150장이라는 제한된 학습 데이터로 충분히 포괄하기 어려웠던 것이 상대적으로 낮은 성능의 주요 원인으로 분석된다. 그럼에도 불구하고 0.70 이상의 성능을 유지한 것은 모델의 일반화 능력을 보여주는 결과이며, 향후 다양한 크기와 형태의 캔류 데이터를 추가 확보함으로써 성능 향상의 여지가 있다.

5.3.3 클래스별 성능의 해석 및 기술적 의의

클래스별 성능 분포는 각 재질의 고유한 시각적 특성과 데이터 구성 전략이 시맨틱 세분화 난이도에 영향을 미친다는 점을 보여준다. Plastic과 Glass는 경계가 비교적 명확하고 형태 일관성이 높아 우수한 성능을 나타냈으며, Vinyl의 경우 투명하거나 반투명한 특성과 주름 등의 변형에도 불구하고 데이터 증강 및 학습 전략을 통해 높은 성능을 달성하였다. 이는 일상에서 가장 흔히 접하는 재활용품의 정확한 분류가 가능함을 의미한다. Paper와 Can 클래스의 경우, 복합 재질 및 높은 형태 다양성으로 인해 상대적으로 낮은 성능을 보였으나 이는 해당 재질의 본질적 복잡성에 기인한 것이다. 중요한 점은 모든 클래스에서 0.70 이상의 성능을 달성하여 실용적 활용 가능성을 입증했다는 것이다. 데이터 분포 측면에서 Plastic이 37.11%로 가장 높은 비율을 차지하였으며, 이는 실제 재활용 환경의 분포를 반영한 것이다. 모델이 실제 사용 환경의 데이터 분포에 맞춰 학습되었다는 점은 실용성 측면에서 긍정적으로 평가할 수 있다.

5.3.4 온디바이스 환경에서의 성능 의의

본 연구는 제한된 연산 자원을 가진 온디바이스 환경에서 클래스별 평균 0.8590의 Dice Score를 달성하였다. 이는 서버 기반 모델에 비해 경량화된 구조를 사용하면서도 실용적 수준의 정확도를 확보했음을 의미한다. 특히 학습 데이터 150장(증강 후 750장)이라는 소규모 데이터셋으로 이러한 성능을 달성한 것은 DeepLabV3-MobileViT-x-small 아키텍처의 효율성과 데이터 증강 전략의 효과성을 입증하는 결과이다. 클래스별 성능 차이는 향후 연구에서 클래스 특화 증강 기법, 가중치 조정, 다양한 크기와 형태의 추가 데이터 수집을 통해 개선될 수 있다.

전체적으로 본 연구의 세그먼테이션 시스템은 실시간 온디바이스 재활용품 분류라는 목표에 부합하는 성능을 달성하였으며, 실제 환경에서의 활용 가능성을 확인하였다(<Table 5> 참조).

6. 애플리케이션 구현

본 연구에서 제안하는 시스템은 On-Device AI 방식으로 설계되어, 학습된 시맨틱 세분화 모델이 외부 서버가 아닌 스마트폰에서 직접 실행된다. 이에 따라 사용자는 인터넷 연결이 없는 환경에서도 애플리케이션을 사용할 수 있으며, 이미지가 서버로 전송되지 않기 때문에 네트워크 지연이 발생하지 않고 개인정보 보호 측면에서도 유리하다. 이러한 특성은 제안 시스템이 일상적인 분리배출 상황에서 언제 어디서나 안정적으로 활용 가능한 실용적 도구임을 뒷받침한다.

모델 학습은 PyTorch 환경에서 수행되었으며[15], 학습이 완료된 시맨틱 세분화 모델은 ONNX(Open Neural Network Exchange) 형식으로 변환하였다[12]. 변환된 ONNX 모델은 Flutter 기반 모바일 애플리케이션에 탑재되었고, 앱 내부의 ONNX Runtime C++ 엔진을 통해 고속 추론이 가능하도록 구현하였다[12]. 구체적으로는 Flutter 카메라 플러그인을 통해 입력 받은 이미지를 512×512 RGB로 리사이즈한 뒤, 학습 단계와 동일한 정규화 전처리를 수행하여 ONNX 모델에 입력한다. 이후 생성된 픽셀 단위 분류 결과를 원본 해상도에 맞게 복원하고 색상 마스크와 라벨을 생성하여, 실시간 카메라 화면 위에 오버레이 형태로 제공한다.

모든 연산은 스마트폰 내부에서 완료되므로 사용자가 촬영한 폐기물 이미지는 외부 서버로 전송되지 않으며, 지하주차장이나 야외 등 네트워크 연결이 불안정한 환경에서도 안정적으로 분리배출 안내를 받을 수 있다. 또한 Flutter는 단일 코드베이스로 안드로이드와 iOS를 모두 지원하는 크로스 플랫폼 UI 프레임워크이므로, 향후 다양한 플랫폼으로의 확장에도 용이하다[7]. 최종적으로 빌드된 애플리케이션은 연구자의 개인 스마트폰에 설치하여, 실시간 오버레이 동작, 응답 속도 및 전반적인 사용성을 중심으로 테스트를 수행하였다. 다음 <Figure 4>~<Figure 7>은 테스트 결과이다.

<Figure 8>은 애플리케이션의 실행 과정을 나타낸 다이어그램이다. 이미지 촬영 후 전처리, 모델 추론, 후처리, 오버레이 시각화로 이어지는 전체 파이프라인을 도식화하였다.

유사하게 딥러닝 결과를 서비스로 제공한 사례[10].

7. 결 론

7.1 연구의 의의

본 연구는 인공지능 기술을 활용하여 일반 사용자가 일상에서 직접 활용할 수 있는 온디바이스 분리배출 보조 시스템을 구현했다는 점에서 의의가 크다. 첫째, 모델을 서버가 아닌 스마트폰 내부에 탑재하는 방식을 채택함으로써 실시간 응답성과 개인정보 보호를 동시에 달성하였다. 이는 인터넷 연결이 불안정한 환경에서도 안정적으로 사용할 수 있으며, 촬영한 이미지가 외부 서버로 전송되지 않기 때문에 민감 정보 유출 위험을 최소화할 수 있다는 점에서 실제 서비스 관점의 장점을 가진다. 둘째, 단순 분류나 객체 검출이 아닌 시맨틱 세분화를 적용하여 복합 재질로 이루어진 제품에서도 플라스틱, 유리, 캔, 비닐 등 각 부분을 픽셀 단위로 정밀하게 구분할 수 있도록 하였다. 이는 실제 분리배출 상황에서 "이 물체를 어떤 재질 기준으로 처리해야 하는가?"라는 요구를 충실히 반영한 접근이다. 셋째, 제한된 150장의 라벨링 데이터라는 현실적 제약 속에서도 데이터 증강, 경량 모델, 온디바이스 추론까지 전체 파이프라인을 구축하여 학습–배포–실사용 테스트를 일관되게 연결했다는 점에서 교육․연구용 사례로도 활용 가능하다. 특히 PyTorch로 학습한 시맨틱 세분화 모델을 ONNX 포맷으로 변환하고, Flutter 애플리케이션 내부의 C++ Runtime을 통해 직접 실행하는 일관된 온디바이스 파이프라인을 구축함으로써, 별도의 서버 없이도 실시간 분리배출 지원 시스템을 완성하였다[7, 12, 15].

7.2 한계점

첫째, 데이터셋 규모와 다양성이 상용 서비스 수준에는 아직 부족하다. 학습 데이터는 150장(증강 후 750장)에 불과하여 촬영 환경, 조명, 배경, 사용자 습관을 충분히 포괄하기 어렵다. 특히 오염된 폐기물, 구겨진 포장재, 복잡한 배경에서의 작은 물체 등 난이도 높은 상황에서는 성능 저하가 발생할 가능성이 있다. 둘째, 현재 모델은 5가지 재질(Plastic, Vinyl, Glass, Paper, Can)로 제한되어 있어 실제 생활에서 자주 등장하는 스티로폼, 의류, 복합포장재, 음식물 등은 직접적으로 다루지 못한다. 이는 실사용 시 "앱에 없는 재질은 어떻게 처리해야 하는가"라는 공백을 남길 수 있다. 셋째, 본 연구는 단일 지역․단일 기준의 분리배출 규칙을 전제로 하고 있어, 지자체별․국가별로 상이한 규정을 반영하지 못한다는 한계가 있다.

7.3 향후 연구 및 발전 방향

향후 연구에서는 다음과 같은 확장 방향을 고려할 수 있다.

첫째, 데이터셋 규모와 다양성 확대가 필요하다. 실제 가정, 음식점, 학교 등 다양한 환경에서 촬영된 이미지를 추가 수집하고, 오염된 재활용품과 복잡한 배경을 포함한 데이터셋을 확보하여 강건성을 높여야 한다. 이를 위해 조명(실내/실외/역광), 배경(단순/복잡), 촬영 거리, 오염․변형 여부를 범주화한 수집 프로토콜을 정의하고 각 조건이 균형 있게 포함되도록 데이터를 확장할 계획이다. 라벨링 효율을 높이기 위해서는 모델의 예측 불확실도가 높은 샘플을 우선적으로 선별하여 추가 라벨링하는 불확실도 기반 샘플링(uncertainty sampling)을 적용할 수 있다.

둘째, 클래스 확장 및 세분화를 통해 실용성을 향상시킬 필요가 있다. 현재 모델은 플라스틱을 단일 클래스로 처리하고 있으나, 실제 플라스틱은 투명/불투명, 병/용기/필름, 라벨 부착 여부 등 동일 재질 내에서도 변이가 크고 분리배출 규정도 세부 종류에 따라 다르다. 따라서 플라스틱 클래스를 투명 페트병, 불투명 용기, 필름류 등으로 세분화하고, 종이팩, 스티로폼, 복합 포장재, 의류 등 실제 생활과 밀접한 품목을 추가하여 실사용 환경을 충분히 포괄할 수 있도록 확장해야 한다. 특히 구겨짐, 오염, 반사 등 형태적 변화가 큰 샘플을 포함한 데이터를 확보하여 형태적 단서 기반의 구분 성능을 강화할 계획이다.

셋째, 지역별 분리배출 규정 연동을 통해 실용성을 높일 수 있다. 지자체 및 국가별 가이드를 데이터베이스화하고 위치 기반 맞춤형 안내를 제공하는 시스템으로 확장할 수 있다.

넷째, 사용자 인터페이스 측면에서는 시맨틱 세분화 결과에 영역별 설명을 제공하고, 사용자 피드백을 수집하여 데이터셋 확장 및 모델 재학습에 활용하는 선순환 구조를 구축할 수 있다. 장기적으로는 바코드․QR․제품 데이터베이스와 연동하여 멀티모달 기반 분리배출 도우미로 확장하는 것도 고려할 수 있다.

7.4 모델 경량화

이미 경량 구조를 사용하고 있지만, 양자화(quantization), 프루닝(pruning), 지연 로딩(lazy loading) 등 추가적인 최적화 기법을 적용하여 배터리 소모와 발열을 줄이고 더 많은 기기에서 안정적으로 구동될 수 있도록 개선할 수 있다. 또한 저사양 기기용 초경량 버전과 고성능 기기용 고정밀 버전을 병행 제공하는 멀티 프로파일 모델 전략도 고려할 수 있다. 사용자 인터페이스 측면에서는 시맨틱 세분화 마스크뿐 아니라 영역별 설명 툴팁을 제공하여 교육적 효과를 높이고, 사용자 피드백을 수집하여 데이터셋 확장과 모델 재학습에 활용하는 선순환 구조를 구축할 수 있다. 장기적으로는 바코드, QR, 제품 데이터베이스와 연동하여 멀티모달 분리배출 도우미로 확장하는 것도 가능하다.

7.5 종합적 결론

본 연구는 DeepLabV3-MobileViT-x-small 모델을 기반으로 한 실시간 온디바이스 재활용품 시맨틱 세분화 시스템을 설계․구현하였다. 직접 촬영․라벨링한 150장의 데이터를 증강하여 750장으로 확장하고, 이를 통해 Test Dice Score 0.9402를 달성하였다.

학습된 PyTorch 모델을 ONNX 포맷으로 변환하여 Flutter 애플리케이션에 통합함으로써, 스마트폰 단말기에서 짧은 지연 시간으로 실시간 세그먼테이션이 가능함을 확인하였다. 제안 시스템은 서버가 아닌 단말기 내부에서 모델을 실행하는 온디바이스 구조를 채택하여 네트워크 연결이 없는 환경에서도 안정적으로 동작하며, 개인정보 보호 측면에서도 강점을 가진다. 또한 시맨틱 세분화를 활용하여 복합 재질 제품을 픽셀 단위로 정밀하게 구분할 수 있어 실제 분리배출 상황에서 사용자의 판단을 지원한다. 향후 데이터셋 확장, 클래스 세분화, 지역 정책 연동, 모델 최적화, 사용자 피드백 시스템 도입 등을 통해 본 시스템은 시민들의 분리배출 행동을 실질적으로 변화시키는 수준의 서비스로 발전할 수 있을 것이다. 이는 인공지능 기술을 환경 보호와 자원 순환이라는 사회적 가치에 접목한 사례로서, 향후 스마트 재활용․그린 ICT 분야의 기반 기술로 활용될 가능성을 보여준다.

Figure

<Figure 1>.

Detection and Segmentation [17].

<Figure 2>.

MobileViT backbone Architecture [11].

<Figure 3>.

Train Dice Score Curve

<Figure 4>.

Single Class: Can

<Figure 5>.

Single class: Vinyl

<Figure 6>.

Two-class combination: Plastic, Paper

<Figure 7>.

Three-class combination: Plastic, Glass, Paper

<Figure 8>.

Application Diagram of the Proposed on-device Recycling Guidance System

Table

<Table 1>.

Class-wise Color and Count

Class Name	Count	Color
Plastic	141	Red
Paper	83	Light Green
Can	51	Cyan
Vinyl	51	Magenta
Glass	47	Yellow

<Table 2>.

Dataset Split (Train / Test)

Split	Images	Augmentation	Usage
Train	150	750	Model Training
Test	50	Not applied	Final Evaluation Only

<Table 3>.

Test Score Changes before and after Augmentation

Without augmentation	0.8673
With augmentation	0.9402
Improvement rate	+8.41%

<Table 4>.

Model Comparison

Model	Dice	mIoU	Pixel_Accuracy
DeepLabV3-MobileViT-x-small	0.9402	0.8884	0.9878
YOLOl1n-seg	0.7793	0.7503	0.9415

<Table 5>.

Test Dice Score by Class

Class Name	Dice Score
Plastic	0.9414
Vinyl	0.8644
Glass	0.8656
Paper	0.8645
Can	0.7593

Reference

Apple Inc., Core ML, Apple Developer Documentation. Available: https://developer.apple.com/documentation/coreml/ (accessed Dec. 29, 2025).
Apple Machine Learning Research, On-device Panoptic Segmentation for Camera Using Transformers, Oct. 19, 2021. Available: https://machinelearning.apple.com/research/panoptic-segmentation (accessed Dec. 29, 2025).
Buslaev, A., Iglovikov, V.I., Khvedchenya, E., Parinov, A., Druzhinin, M., and Kalinin, A.A., Albumentations: Fast and Flexible Image Augmentations, Information, Vol. 11, No. 2, art. 125, 2020.
Chen, L.-C., Zhu, Y., Papandreou, G., Schroff, F., and Adam, H., Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation, in Proc. ECCV, 2018, pp. 833-851. (arXiv:1802.02611)
Chosun Ilbo, Exclusive: Rise of Single-Person Households and Food Delivery… 34 kg of Plastic Waste Per Person Per Year, Aug. 8, 2024. Available: https://www.chosun.com/national/transport-environment/2024/08/08/ACHDGOMPI5D6PI6ALNSNIUBEJQ/ (accessed Dec. 29, 2025).
Everingham, M., van Gool, L., Williams, C.K.I., Winn, J., and Zisserman, A., The PASCAL Visual Object Classes (VOC) Challenge, International Journal of Computer Vision, 2010, Vol. 88, No. 2, pp. 303-338.
Google, Flutter. Available: https://flutter.dev/ (accessed Dec. 29, 2025).
Google, TensorFlow Lite. Available: https://www.tensorflow.org/lite/ (accessed Dec. 29, 2025).
Kim, D.H., Persistent Waste Sorting Issues: How Should We Dispose to Increase Recycling Rates?, Chungcheong Review, Aug. 6, 2025. Available: https://www.ccreview.co.kr/news/articleView.html?idxno=333676 (accessed Dec. 29, 2025).
Kong, I.-H., Jeong, D.-H., and Jeong, G.-H., Development of Deep Learning-based Land Monitoring Web Service, Journal of Korean Society of Industrial and Systems Engineering, 2023, Vol. 46, No. 3, pp. 275-284.
Mehta, S. and Rastegari, M., MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Trans-former, in Proc. ICLR, 2022. Available: https://openreview.net/forum?id=vh-0sUt8HlG (accessed Dec. 29, 2025). (arXiv:2110.02178)
Microsoft, ONNX Runtime. Available: https://onnxruntime.ai/ (accessed Dec. 29, 2025).
Milletari, F., Navab, N., and Ahmadi, S.-A., V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation, in Proc. 3DV, 2016, pp. 565-571. (arXiv:1606.04797)
Oh, M., Ma, S., Choi, S.-Y., and Lee, M., E-Waste Recycling through the Lens of Consumer Resistance and Social Value Creation: Impacts of Perceived Benefits, Perceived Risks, and Information Publicity, Journal of Korean Society of Industrial and Systems Engineering, 2025, Vol. 48, No. 3, pp. 157-170.
Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., Desmaison, A., Kopf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J., and Chintala S., PyTorch: An Imperative Style, High-Performance Deep Learning Library, in Advances in Neural Information Processing Systems (NeurIPS), 2019. (arXiv:1912.01703)
Shorten, C. and Khoshgoftaar, T.M., A Survey on Image Data Augmentation for Deep Learning, Journal of Big Data, 2019, Vol. 6, art. 60.
Tedrake, R., Robotic Manipulation: Perception, Planning, and Control (Chapter: Object Detection and Segmenta-tion), MIT CSAIL, Online lecture notes. Available: https://manipulation.csail.mit.edu/segmentation.html (accessed Dec. 29, 2025).
Ultralytics, Ultralytics YOLO11. Available: https://docs.ultralytics.com/models/yolo11/ (accessed Dec. 29, 2025).