1. 서 론
4차 산업혁명 시대의 도래와 함께 제조 환경에 다양한 변화가 발생하고 있으며, 빅데이터, 사물인터넷, 인공지능 등 다양한 첨단 기술의 도입 및 활용이 활발히 전개되고 있다[8]. 특히 이러한 기술을 바탕으로 제조업 분야에서는 급변하는 고객 수요에 대응하는 맞춤형 생산 체계가 더욱 강화되고 있다. 따라서 생산관리, 출하관리, 재고관리 등 생산운영 의사결정 전반에서 효율성과 유연성을 동시에 담보할 수 있는 효과적인 운영 체계가 필요하다[9]. 즉, 생산성 극대화를 지향하는 동시에 변화된 생산환경에 능동적으로 적응할 수 있는 의사결정 메커니즘이 구현되어야 한다. 미리 정의된 상황에 최적화된 의사결정 체계가 아닌 변화된 상황에 따라 맞춤화된 의사결정이 가능해야 한다.
디스패칭 시스템은 설비에 작업을 할당하는 시스템이다[14]. 임의의 설비에서 작업이나 이송을 진행할 작업물 (work in process; WIP)을 결정하거나, 임의의 작업물을 어떠한 설비에 투입할 것인지 결정하는 기능을 수행한다. 전통적인 디스패칭 시스템은 정적인 규칙에 기반하여 작업 물이나 설비의 우선순위를 결정하고 이에 따라 의사결정하는 메커니즘을 보인다. 그런데 이 같은 방식은 적용된 디스패칭 규칙에 따라 성과가 의존적일 수밖에 없는데, 규칙 자체가 정적이라는 면에서 오늘날의 동적인 제조 환경에 대응하기에는 한계가 있다[1, 7]. 따라서 동적으로 변화하는 제조 환경에 대응할 수 있는 동적인 디스패칭 방법이 필요하다.
최근 동적인 디스패칭 방법으로서 다양한 형태의 강화학습 방법론이 많은 관심을 받고 있다[1, 6]. 강화학습은 기계 학습 알고리즘 중 하나로 학습의 주체인 에이전트가 환경과 상호작용을 하며 시행착오를 거쳐 최적의 행동을 학습하는 방법론이다[4]. 이는 불확실성이 높고 동적으로 변화하는 환경에서 지속적인 학습을 통해 복잡한 의사결정 문제를 해결할 수 있다. 이러한 배경을 바탕으로 선행연구[5]를 통해 동적인 제조 환경에 대응하기 위한 강화학습 기반의 디스패칭 시스템을 개발한 바가 있다.
본 연구는 강화학습 기법을 통해 동적인 환경에 대응하는 에이전트 기반의 디스패칭 시스템 개발을 목표로 한다. 에이전트 기반의 제조실행 프레임워크를 바탕으로 디스패칭 시스템을 구현하며, 특히 다중구역 제조시스템에서의 다중 지점 디스패칭 문제를 다룬다. 또한 생산 품목 변경에 의한 셋업 횟수와 납기 지연시간의 최소화를 동시에 추구한다. 일반적으로 생산 품목 변경 최소화와 납기 지연 시간 최소화는 상충 관계에 있어 동시에 추구할 수 있는 지표가 될 수 없지만, 강화학습을 통해 상황에 따른 의사 결정으로 상충 관계를 해소한다.
본 논문은 다음과 같은 구성을 따른다. 제2장에서는 강화학습 기반의 디스패칭 관련 연구 동향을 기술하고, 선행 연구를 통해 개발된 디스패칭 모델을 간략히 소개한다. 제 3장에서는 다중구역 디스패칭 문제에 대한 정의를 설명하고, 이를 해결하기 위한 에이전트 기반 디스패칭 시스템의 구조를 소개한다. 제4장에서는 본 연구에서 제안하는 강화학습 모델을 기술한다. 제5장에서는 제시된 강화학습 모델을 검증하기 위한 시뮬레이션 분석 결과를 소개한다. 마지막으로 제6장에서는 결론 및 추후 연구에 대해 기술 한다.
2. 기존 연구 고찰
2.1 강화학습 기반 디스패칭 연구 동향
강화학습 기반 디스패칭 관련 연구는 크게 1) 설비 할당 문제, 2) 작업물 할당 문제, 그리고 3) 디스패칭 규칙 결정 문제로 구분할 수 있다. 일종의 설비 할당 문제로서 Stricker et al.[11]은 DQN (deep Q-learning) 모형을 사용하여 반도체 공정에서 주어진 품목을 처리할 설비를 선택 하여 할당하는 문제를 다루었다. 특히 설비 활용도 최대화 및 리드타임 최소화라는 다중 목적함수를 적용하였다. Yoo et al.[15]은 주어진 작업을 병렬 설비에 할당하는 문제를 심층 강화학습 알고리즘을 사용하여 다루었다. 작업물의 품목 변경 횟수와 총 완료 시간, 설비 유휴시간 최소화라는 3가지 목적을 동시에 고려하였다. Cho et al.[2]은 평블록 조립 공정에서 작업물을 할당하는 문제를 다루었다. 이때, 대기열에 있는 작업물 목록에서 하나를 선정하기 위해 DDQN(double deep Q-network)을 사용하였다. 특히 총 리드타임을 최소화하는 단일목적함수를 고려하였다.
반면, Wang et al.[13]은 개별생산 공정(job shop) 환경에서 단일 설비에 투입할 작업물을 선택하는 디스패칭 규칙을 결정하는 문제를 다루었다. 특히 최대 지연과 지연된 작업의 수, 평균 지연 각각의 최소화를 위한 단일 목적함 수를 정의하고, 각각을 독립적으로 해결하는 Q-learning 기반의 강화학습 모델을 제안하였다. Zhang et al.[16]은 흐름생산 공정(flow shop)의 스케줄링 문제에서 강화학습 기법에 기반하는 최적의 디스패칭 규칙 결정 방법을 제안하였다. 이 또한 총 완료 시간의 최소화를 위한 단일 목적함수를 기준으로 한다.
Nam et al.[7]은 디스패칭 규칙을 결정하는 문제에 대해 다중목적함수를 정의하여 해결하였다. 조선소의 병렬 설비에서의 작업 순서 결정 문제를 다루었으며, 납기 지연과 품목 변경 최소화를 동시에 고려하였다. Kim et al.[5] 또한 납기 지연과 품목 변경 최소화를 지향하는 다중목적함수 를 바탕으로 디스패칭 규칙을 결정하는 문제를 다루었다. 그런데 이들 연구는 단일 지점에서의 디스패칭 문제만을 다루는 한계가 있다. 본 연구에서는 다중구역 제조시스템을 대상으로 다중목적함수를 고려한 디스패칭 규칙 결정 문제를 다룬다.
2.2 선행연구
본 절에서는 선행연구를 통해 개발한 강화학습 기반의 디스패칭 시스템의 개요를 요약하여 설명한다. Kim et al.[5]은 강화학습 기법을 이용하여 제조 현장의 상태 변화에 따라 최적의 디스패칭 규칙을 선택하여 제품의 투입 순서를 결정하는 문제를 다루었다. 특히 제품 변경에 의한 셋업 발생 횟수와 납기 지연을 동시에 최소화하는 다중목적 환경에서 Q-learning 알고리즘을 적용하여 최적의 정책을 학습한다.
Q-learning의 기반이 되는 MDP(Markov decision process)의 주요 요소로서 상태(state) 공간은 직전에 투입한 제품의 종류와 해당 제품의 투입 잔량, 그리고 공정 전반의 긴급 정도를 상태 변수로 정의한다. 또한 강화학습 에이전트가 선택할 수 있는 행동(action)은 선택 가능한 주요 우선순위 규칙으로 설정한다. 주어진 상태에서 특정 행동을 취함으로써 부여받는 보상(reward)은 셋업 발생 여부와 납기지연 여부에 따라 각각 산출하며, 산출 결과에 따라 가장 큰 보상이 기대되는 행동을 선택한다. 제시된 강화학습 모형은 시뮬레이션을 통해 정적인 우선순위 규칙에 비해 우수한 성능지표가 보임을 확인하였다.
<Table 1>은 본 연구와 선행연구의 차이를 정리하여 보이고 있다. 선행연구에서는 공정 전반의 긴급 정도를 평가할 때 특정 임계치를 기준으로 긴급 여부만을 판단하였다. 이로 인해 설정된 임계치가 학습 성과에 미치는 영향이 크고, 다양한 환경에서 일반화하기에 어려움이 있다. 또한 선행연구는 제품의 투입 시점에서의 디스패칭 문제만을 다루고 있으며, 투입 이후 공정 내에서의 디스패칭 의사결정은 고려하지 않고 있다. 반면 본 연구에서는 일반화된 긴급률 평가 기준을 새롭게 정의하여 적용하며, 구역 간의 작업물 이송에서의 디스패칭 문제를 고려함으로써 투입 이후 공정 내에서의 디스패칭 의사결정 문제를 함께 다룬다.
3. 문제 정의
3.1 다중구역 제조시스템에서의 디스패칭
본 연구는 다중구역 제조시스템에서의 디스패칭 문제를 다룬다. 다중구역 제조시스템은 <Figure 1>과 같이 작업물의 투입 구역과 이외의 여러 공정 구역으로 구성되어 있어 투입 구역으로의 작업물 할당뿐만 아니라 구역 간의 이송에 대한 작업물 할당이 필요하다. 즉, 작업물의 투입 시점과 구역 간 이송 시점에서 별도의 디스패칭 문제가 발생한다.
작업물 투입 시점에서의 디스패칭은 주어진 생산 주문 목록 중 가장 긴급한 주문을 선정하여 선정된 주문에 해당하는 작업물을 생성하고 투입하는 문제이다. <Figure 2>는 투입 시점에서의 디스패칭 문제를 나타내고 있다. 여기서 m은 투입 시점에서의 주문 목록의 크기를 의미한다. 기본적으로 각각의 주문은 주문 제품과 주문량, 그리고 납기가 상이하다.
구역 간 이송 시점에서의 디스패칭은 임의의 구역에서 공정을 완료한 작업물 중에서 다른 구역으로 이송할 작업물을 선정하는 문제이다. 즉, 다른 공정 구역으로의 이송을 대기하는 작업물 중에서 가장 긴급한 작업물을 선정하는 문제이다. <Figure 3>은 구역 간 이송 시점에서의 디스 패칭 문제를 나타내고 있으며, 여기서 p는 이송을 대기하는 작업물의 목록을 의미한다. 이때 대기하는 작업물은 제품 종류와 납기가 서로 다르다.
투입 시점에서의 디스패칭 결과와 구역 간 이송 시점에서의 디스패칭 결과는 상호 영향을 주고받는다. 따라서 각 시점에서의 디스패칭 문제에 대한 종합적인 고려가 필요하다.
3.2 에이전트 기반 디스패칭 시스템
본 연구는 다중구역 제조시스템에서의 에이전트 기반 디스패칭 시스템 개발을 목표한다. 이는 <Figure 4>에 보이는 에이전트 기반 제조실행 프레임워크를 기반으로 한다. 작업물과 가공설비, 그리고 자재취급설비를 각각 대행하는 WIPAgent (WIP agent)와 PAgent(processing agent), MHAgent(material handling agent) 간의 상호작용에 기반하는 협업을 통해 디스패칭 및 라우팅 등의 제조실행 프로세스가 구현된다. WIPAgent와 PAgent 그리고 MHAgent는 해당 객체에 대한 정보 관리 기능을 수행하며, 상호작용 과정에 각각의 입장에서의 의사결정 기능을 담당한다. 에이전트 간 자율적 협업에 기반하는 의사결정 체계를 통해 동적인 환경에 적응하기 용이하다[10].
본 연구에서는 제조실행시스템의 핵심 기능 중의 하나인 디스패칭 문제를 다룬다. WIPAgent와 PAgent는 디스패칭을 위한 상호작용 과정에서 Dispatcher 모듈을 통해 디스패칭 관련 기능을 구현한다. Dispatcher 모듈은 투입 시점에서의 디스패칭 문제를 처리하는 inputMgr와 구역 간 이송 시점에서의 디스패칭 문제를 처리하는 transMgr 로 세분된다. inputMgr와 transMgr는 일종의 Dispatcher 모듈로서 강화학습을 통해 동적으로 변하는 상황에서 최적의 디스패칭 의사결정을 수행한다. inputMgr는 주어진 상태정보에 대한 최적의 디스패칭 규칙을 도출하고, 도출된 디스패칭 규칙에 따라 투입할 제품을 결정한다. 반면 transMgr는 구역 간 이송할 최우선 작업물을 결정하기 위한 디스패칭 규칙을 선정한다.
4. 강화학습 모델
본 장에서는 투입 시점과 구역 간 이송 시점 각각에서의 디스패칭 문제를 강화학습 기법을 통해 해결하기 위한 MDP 모형을 제시한다. 특히 MDP의 주요 구성 요소인 상태와 행동, 그리고 각각의 보상 체계를 설명한다. 본 연구에서 강화학습의 목적은 주어진 상황에서 작업 변경에 의한 셋업 횟수와 작업 지연을 동시에 최소화할 수 있는 디스패칭 규칙을 선택하는 것이다. 투입 시점과 구역 간 이송 시점에서의 의사결정은 각각 inputMgr와 transMgr가 담당한다.
4.1 투입 시점에서의 MDP
4.1.1 상태
투입 시점에서의 디스패칭 문제는 주어진 생산 주문 목록 중 가장 긴급한 주문을 선정하고 해당하는 작업물을 생성하여 투입하는 것이다. 이때 최적의 행동을 결정하는 판단의 기준은 다음 두 가지 상태 변수에 바탕을 둔다.
첫 번째 상태 변수(s1)는 직전에 투입한 제품의 투입 잔량 유무를 나타내며, 식 (2)와 같이 정의된다. 직전 투입 제품의 잔량이 없다면 작업 변경이 불가피한 상황으로 판단할 수 있다.
typet-1: 직전(즉, t-1시점)에 투입한 제품의 종류 rQty(typet-1) : typet-1 제품의 투입 잔량
두 번째 상태 변수(s2)는 현재 공정 진행 상황의 긴급 정도를 의미하며, 식 (3)과 같이 정의된다. 주문별 납기까지의 남은 시간 최소값이 식 (4)와 같이 정의되는 총 처리시간 대비 어느 수준인지를 비교하여 긴급 여부를 판단한다.
4.1.2 행동
투입 시점에 inputMgr는 주어진 상태 정보에 따르는 최적의 행동으로서 적합한 디스패칭 규칙을 선택한다. 본 연구에서 대상으로 하는 행동 집합은 1) FIFO (first in first out), 2) SPT(shortest processing time), 3) LPT(longest processing time), 4) SDT(smallest due time), 5) SA(setup aware) 등이다.
FIFO는 주문이 도착한 순서대로 처리하는 방법이다. SPT는 공정 처리 시간이 짧은 순서대로 처리하는 방법이며, LPT는 공정 처리 시간이 긴 순서대로 처리한다. SDT는 납기 일자가 빠른 순서대로 처리하는 규칙이고, SA는 투입 품목 변경을 최소화하기 위해 동일한 품목을 우선시 한다. 만약 주어진 규칙에 따라 우선순위가 동일한 주문이 다수 존재하면 FIFO를 기준으로 처리한다.
4.1.3 보상
기본적으로 강화학습은 주어진 상태에서 선택된 행동에 대한 적절한 보상을 통해 수행된다. 본 연구에서는 1) 작업 품목 변경에 의한 셋업 횟수와 2) 납기 지연 발생 정도, 두 가지 관점에서 보상값을 산출하여 부여한다.
작업 품목 변경에 의한 셋업 관점의 보상(r1)은 식 (5)와 같이 정의된다. 선택된 행동에 따라 작업물이 결정되어 투입되었을 때 품목 변경이 발생하면 -1, 그렇지 않다면 0의 값을 부여한다. 납기 발생 최소화 관점에서의 보상(r2)은 식 (6)과 같다. 납기 지연이 발생하면 -1, 그렇지 않으면 0의 값을 부여한다. 이를 바탕으로 실제 부여되는 보상값은 식 (7)에 나타난 바와 같다.
4.2 구역 간 이송 시점에서의 MDP
4.2.1 상태
구역 간 이송 시점에서의 디스패칭 문제는 선행 구역에 서의 공정이 완료된 작업물 목록에서 가장 긴급한 작업물을 선정하고, 해당 작업물을 다음 구역으로 이송시키는 문제이다. 이때 고려되는 상태 변수는 다음 세 가지이다.
첫 번째 상태 변수(s3)는 식 (9)와 같이 구역 간 이송을 대기하는 제품 종류의 수를 의미한다. 기본적으로 단일 품목의 작업물만 있는 경우에는 품목 변경 필요성이 없다.
두 번째 변수(s4)는 식(2)에 보이는 바와 같이 직전에 구역 간 이송된 품목에 대하여 잔량 유무를 나타낸다. 세 번째 변수(s5)는 식(3)과 같이 구역 간 이송 시점에 판단하는 공정 전반의 긴급한 정도를 의미한다.
4.2.2 행동
구역 간 이송 시점에 transMgr는 주어진 상태 정보에 따라 최적의 디스패칭 규칙을 선택한다. 이때 고려하는 행동 집합은 1) FIFO, 2) SDT, 3) SA 등이다. FIFO는 선행 구역에서 작업을 완료하고 적재된 순서에 따라 이송하는 방법이다. SDT는 이송을 대기하는 작업물 중에서 납기가 빠른 제품을 우선하여 이송하는 방법이며, SA는 품목 변경을 최소화하기 위해 동일한 제품을 연속하여 이송하는 방법이다.
4.2.3 보상
구역 간 이송 시점에서도 투입 시점과 동일한 보상 구조를 반영한다. 즉, 품목 변경 횟수와 납기 지연 정도에 따라 보상값이 결정된다. 이송 품목의 변경 횟수 관점에서의 보상(r3)은 식(10)과 같다. 선택된 행동이 이송 품목의 변경을 발생시킬 경우 –1, 그렇지 않다면 0의 값을 부여한다. 납기 지연 정도 관점에서의 보상(r4)은 식(11)과 같다. 납기 지연 발생 크기에 대한 시그모이드 함숫값을 보상으로 부여한다. 투입 시점에서는 납기 지연 발생 여부만으로 보상값을 결정하였지만, 구역 간 이송 시점에는 시그 모이드 함수를 통해 납기 지연의 크기에 따라 보상값에 차이를 둔다. 결과적으로 실제 부여되는 보상값은 식 (12) 에 나타난 바와 같이 두 보상값의 합으로 정의한다.
5. 시뮬레이션 실험
5.1 시뮬레이션 테스트베드
본 연구에서는 시뮬레이션 테스트베드를 활용하여 제안된 다중구역 제조시스템에서의 강화학습 기반 디스패칭 모델을 실증한다. 활용된 시뮬레이션 모형은 국립한밭대학교의 스마트팩토리 테스트베드 시스템[3]을 대상으로 하며, 에이전트 기반 시뮬레이션 도구인 AnyLogicTM[12]를 이용하여 구현한다. 대상 시스템은 <Figure 5>에 나타난 바와 같이 흐름생산 구역(flow shop)과 셀형 제조 구역(cellular shop)이 혼재되어 있는 다중구역 제조시스템이다. 두 구역 간의 작업물 이송은 모바일 로봇이 수행한다.
<Figure 6>은 AnyLogicTM으로 모델링한 대상 시스템의 작동 모형이며, 개별 작업물을 기준으로 대상 시스템에서의 흐름 구조를 보이고 있다. 전반적인 작업흐름은 작업할당(dispatching)과 가공처리(processing), 보상처리(rewarding) 3단계로 구성되며(<Table 2>), 이러한 흐름은 투입 시점과 구역 간 이송 시점 각각에서 독립적으로 진행된다. <Table 3>은 시뮬레이션 모형의 구성 블록에 대한 설명을 요약하여 제시하고 있다. 크게 투입 시점과 구역 간 이송 시점 모형으로 구성되며, 각각 작업할당과 가공처리 및 보상처리의 3단계로 구성된다. 특히 작업할당 영역에서는 디스패칭 의사결정이 이루어지며, 가공처리 영역에서는 해당 공정을 모사하고, 보상처리 영역에서는 앞선 디스패칭 의사결정에 대한 평가를 통해 적절한 보상을 부여한다.
5.2 학습
5.2.1 학습 시나리오
본 연구에서는 제품 3종에 대해 총 500개의 제품을 150건의 주문으로 나누어 처리하는 상황을 가정하여 학습 시나리오를 구성한다. 각 제품은 동일한 작업 순서를 따르지만, 개별 공정에서의 소요 시간은 상이하다. 각 주문마다 주문 시점과 납기, 그리고 제품 종류와 주문 수량이 상이하다. 품목 변경을 위한 셋업 소요 시간과 불량 발생은 고려하지 않는다. 또한 작업물의 이송 경로는 최단 경로를 가정한다.
<Table 4>는 본 연구에서 강화학습에 적용한 주요 파라미터를 나타내고 있다. 200회의 에피소드를 통해 강화학 습을 수행하며, 해 공간을 무작위로 탐험하는 비율인 입실론(epsilon) 값은 초기값 0.9에서 시작하여 에피소드가 진행됨에 따라 감소시킨다. 할인율(discount ratio)은 1.0으로 설정하여 현재와 미래의 보상값에 동일한 가치를 부여하며, 학습률(learning rate)은 0.05이다.
5.2.2 학습 결과
본 연구는 다중구역 제조시스템을 대상으로 투입 시점과 구역 간 이송 시점에 대한 각각의 MDP 모형을 제시하고 있으며, 각각을 inputMgr와 transMgr로 구현하고 있다. inputMgr와 transMgr는 독립적인 상황에서 강화학습을 진 행한다. inputMgr의 학습 과정에는 구역 간 이송 시점에서의 의사결정을 FIFO로 고정한다. 반면, transMgr는 투입 시점에 무작위로 선택된 주문에 해당하는 작업물이 투입되는 상황을 바탕으로 학습을 진행한다.
5.2절에서 제시된 시나리오에 따른 학습 결과는 <Figure 7>과 같다. 에피소드가 진행됨에 따라 품목 변경 횟수와 총 지연시간 모두 감소하며, 일정 수준으로 수렴하는 것을 확인할 수 있다. 다만, 학습 과정에 transMgr의 납기 지연(tardiness)에 대한 개선 효과가 미흡한 것은 투입 시점에서의 판단이 납기 지연에 미치는 영향이 크기 때문으로 판단된다. 최종 학습 결과를 분석해 보면, 에피소드 초반에는 상대적으로 긴급도가 낮아 설비의 효율성을 극대화하는 방향(즉, 품목 변경 최소화)의 행동을 선택한다. 또한 에피소드 후반으로 갈수록 긴급도가 높아지므로 효율성 향상 보다는 납기 준수를 추구하는 방향(즉, 품목 변경 허용)의 행동을 선택한다.
5.3 검증
5.3.1 검증 시나리오
앞서 제시된 학습 시나리오를 바탕으로 학습된 inputMgr와 transMgr는 별도의 추가 시나리오를 바탕으로 검증하였다. 하나의 검증 시나리오는 학습 시나리오에 반영하였던 3종의 품목에 대해 총 500개의 제품을 150건의 주문으로 구성되며, 개별 주문의 제품 종류와 주문 시점(-3,000초~0초), 납기 시점(10,000초~35,000초), 주문 수량 (1개~5개)은 무작위로 설정된다.
검증 실험은 두 가지 조건으로 나누어 진행한다(<Table 5>). 첫 번째 실험은 투입 시점에 각종 정적인 디스패칭 규칙이 적용되는 경우와 본 연구에서 제안하는 강화학습 모형이 적용된 상황을 비교한다. 이때 구역 간 이송 시점 에는 FIFO 규칙에 의해 디스패칭한다. 두 번째 실험은 구역 간 이송 시점에 각종 정적인 디스패칭 규칙이 적용되는 상황과 본 연구에서 제안하는 강화학습 모형이 적용된 상황을 비교한다. 이때 투입 시점에는 본 연구에서 제안한 강화학습 모델을 통해 학습된 inputMgr가 디스패칭한다.
5.3.2 검증 결과
검증 실험 결과는 <Table 6>과 <Table 7>에 나타낸 바와 같다. 품목 변경 횟수와 납기 지연 정도를 동일한 기준으로 평가할 수는 없으므로 각각을 정규화하고 그 값을 합산하여 평가한다. 정규화는 식 (13)에 나타낸 바와 같이 최소-최대 정규화(min-max normalization) 방법을 따른다.
<Table 6>은 투입 시점에는 강화학습 모형을 포함하여 다양한 디스패칭 규칙을 적용하고, 구역 간 이송 시점에는 FIFO 규칙을 고정하여 실시한 첫 번째 실험(즉, Ex.1) 결과를 보이고 있다. 이를 통해 강화학습 모형이 가장 우수한 성능(정규화된 총합 기준 0.29)을 보이는 것을 확인할 수 있다. 품목 변경 최소화 관점에서는 SA 규칙이 가장 효과적이고, 납기 준수 관점에서는 SDT 규칙이 가장 유리함을 확인할 수 있다. 하지만, 서로 상충 되는 품목 변경 최소화 및 납기 준수 강화를 동시에 달성하기 위해서는 제안된 강화학습 모형이 가장 좋은 성능을 보이고 있다. 이는 다중구역 제조시스템에서도 투입 시점에서의 디스패칭 규칙 결정 문제에 대해 강화학습 모형이 성공적으로 구현됨을 의미한다.
<Table 7>은 앞서 성능이 입증된 강화학습 모형을 투입 시점에 적용하고, 구역 간 이송 시점에는 다양한 디스패칭 규칙을 적용하여 수행한 두 번째 실험(즉, Ex.2) 결과를 나타내고 있다. 실험 결과에 따르면 구역 간 이송 시점에도 강화학습 모형이 가장 우수한 성능(정규화된 총합 기준 0.859)을 보이고 있다. 다만, 기존의 정적인 규칙들이 보이는 성능과의 차이가 상대적으로 작은데, 이는 투입 시점에서의 의사결정이 구역 간 이송 시점에 미치는 영향이 그만큼 크기 때문으로 판단된다.
결과적으로 본 연구를 통해 제안된 강화학습 모형에 기반하는 동적인 디스패칭 규칙 선정 방식이 투입 시점과 구역 간 이송 시점 모두에서 정적인 디스패칭 규칙을 적용하는 것보다 우수하다. 특히 주변 환경이 급변하는 상황에서 보다 우수한 결과가 보임을 확인할 수 있다.
6. 결 론
본 연구에서는 동적인 다중구역 제조시스템 환경을 위한 에이전트 기반 디스패칭 시스템을 개발하였다. 디스패칭 의사결정은 투입 시점과 구역 간 이송 시점에서 각각 이루어지며, 생산성과 고객 만족도 최대화 관점에서 품목 변경 횟수와 납기 지연 최소화를 함께 고려한다. 특히 본 연구는 Q-learning 기반의 강화학습 기법을 통해 상충 관계에 있는 두 지표를 함께 처리한다. 또한 시뮬레이션 검증을 통해 제안된 강화학습 모형이 기존의 정적인 디스패칭 규칙에 비해 우수한 성능을 보임을 확인하였다. 특히 투입 시점과 구역 간 이송 시점 각각에서 강화학습 모형에 기반하여 디스패칭 규칙을 선택할 때 가장 우수한 성능을 확인할 수 있었다.
본 연구에서는 품목 변경 횟수와 납기 지연 정도를 각각에 대한 정규화 값으로 환산하여 평가하였다. 추후에는 품목 변경 횟수를 셋업 소요 시간 등으로 환산하여 반영함으로써 일관된 평가지표를 설계하여 반영할 필요가 있다. 또한 보다 면밀하고 다양한 상태공간 정의 및 보상 체계 설계를 통해 강화학습 메커니즘의 효과성과 효율성 개선이 필요하다. 제안된 강화학습 모델을 확률적 변동성을 고려한 다양한 시나리오에서 검증하고 개선하기 위한 추후 연구도 필요하다. 마지막으로 본 연구를 통해 제안된 에이전트 기반 디스패칭 메커니즘을 에이전트 기반 라우팅과 스케줄링 등의 기능으로 확대 적용하는 연구가 필요하다. 이를 통해 에이전트 기반의 제조실행시스템 구축의 토대 마련이 가능할 것으로 기대된다.