1. 서 론
최근 제조업은 신제품 개발 주기의 단축, 생산 공정의 복잡성 증가라는 환경 변화에 직면해 있다[9]. 이러한 변 화 속에서 제품의 품질과 신뢰성 확보는 기업 경쟁력의 핵심 요소로 작용하며, 다양한 품질 관리 및 분석 기법의 중요성이 커지고 있다[12]. 그중 FMEA(Failure Modes and Effects Analysis)는 제품 또는 공정의 설계 단계에서 잠재 적인 고장모드와 영향을 분석하여 예방 및 검출 조치를 문서화함으로써 고장을 예방하는 정성적인 신뢰성 방법론 이다[8,29]. 특히 제품의 복잡성이 높아지는 개발 환경에 서는 잠재적 리스크를 선제적으로 관리할 수 있는 FMEA 의 중요성이 더욱 부각되고 있다.
그러나 전통적인 FMEA는 주로 전문가 중심의 회의 체 계를 통해 수작업으로 수행되며[5], 문서화된 형태로 고정 된 분석 결과를 도출한다. 이 과정은 많은 시간과 비용이 필요할 뿐만 아니라, 전문가의 주관적 판단에 의존하기 때 문에 동일한 부품이나 공정에 대해서도 분석 결과가 일관 되지 않을 위험이 존재한다[30]. 또한 제품 양산 이후 수집 되는 정비 이력이나 클레임 데이터와 같은 비정형 고장 이력 정보가 FMEA에 반영되지 않는 한계가 있다. 이러한 데이터는 실제 사용 환경에서 발생한 새로운 고장 패턴을 포함하고 있음에도 불구하고, 구조화되지 않은 채 단순 사 후 분석에만 국한되어 활용되는 경우가 많다. 이로 인해 반복적인 고장이 발생하거나, 설계 개선으로 이어지지 못 하는 등 데이터 기반 선순환 품질 체계 구축에 어려움이 존재한다.
최근에는 대규모 언어 모델(LLM, Large Language Model)의 발전으로[25] 자연어 기반의 데이터 분석과[15] 정보 탐색 기능의 적용 가능성이 확대되고 있으며, 다양한 산업 분야에서 전문가의 판단을 보완하거나 일부 대체할 수 있는 수단으로 주목받고 있다[21]. Freire et al.[13]은 공 장 내 문서와 작업자 경험을 바탕으로 정보를 검색하고, 현 장 질의에 응답할 수 있는 LLM 기반 시스템을 설계하였다. 실제 현장에서 수행한 사용자 연구를 통해, 해당 시스템이 정보 탐색 시간 단축과 문제 해결 효율성 향상에 기여할 수 있음을 확인하였다. 그러나 기존의 LLM은 사실 기반 질의응답이나 정확한 수치 기반 분석에 한계가 있으며, 최 신 정보나 맥락적 지식의 반영에도 취약한 것으로 알려져 있다[20,28]. 이러한 한계를 보완하기 위해 제안된 것이 RAG(Retrieval-Augmented Generation) 구조이다[28]. RAG 는 외부 문서나 데이터베이스와 같은 지식 저장소로부터 해당 질의와 관련성이 높은 정보를 검색하고, 이러한 외부 지식을 바탕으로 텍스트를 생성하도록 설계하는 방식이다 [31]. LLM의 문맥 생성 능력과 지식 기반 검색 능력을 결 합하여 신뢰도 높은 결과를 제공할 수 있다.
이에 본 연구에서는 기업 내부의 폐쇄망 환경에서 동작 가능한 로컬 LLM과 RAG 구조를 기반으로 하는 FMEA 자동화 프레임워크를 제안한다. 프레임워크 내에서 클레 임 및 정비 이력 데이터를 벡터 데이터베이스로 관리하고 로컬 LLM을 통해 FMEA 문서를 자동으로 생성 및 갱신함 으로써 분석 효율성과 일관성을 확보한다. 또한 반복 고장 데이터와 관련 지식을 바탕으로 심각도, 발생도, 검출도를 LLM을 통해 정량적으로 추론하는 방법을 제안한다.
본 연구는 제품 설계 초기 단계에서부터 양산 및 사용 단계에 이르는 제품 생애주기 전반의 데이터를 반영하는 자동화된 FMEA 품질 개선 체계를 구축하였다. 이를 통해 비정형 데이터를 활용한 정량적 고장 예측과 반복 고장 예방이 가능해졌으며, 궁극적으로 전문가 의존도를 줄이 고 품질 개선의 선순환 구조 및 데이터 기반 의사결정 체 계의 고도화에 기여한다.
2. 관련 문헌 연구
FMEA는 제품, 공정, 시스템에서 발생할 수 있는 잠재 적 고장모드를 식별하고, 그 고장이 미치는 영향과 원인을 분석하여 사전에 위험을 평가하여 예방 조치를 마련하는 체계적인 기법이다[22]. 이러한 FMEA는 국방[1,18], 차량 [23], 소프트웨어[11] 등 다양한 산업 분야에서 품질 확보 와 신뢰성 향상의 수단으로 널리 활용되고 있다. Parsana et al.[24]은 제조 산업의 품질 및 효율성 향상을 위해 실린 더 헤드 생산 공정에 FMEA 기법을 적용하였다. 제조 과 정에서 발생할 수 있는 잠재적 고장모드를 식별하고, 이를 기반으로 RPN(Risk Priority Number)을 계산하여 고위험 요소에 대한 예방 조치를 도출하였다. Fithri et al.[7]은 인 도네시아 PT X 시멘트 공장의 석탄 분쇄 설비 고장을 분 석하기 위해 FMEA를 적용하여 주요 고장모드를 도출하 고, 이를 통해 설비 신뢰성 및 공정 효율성 향상을 위한 예방 정비 방안을 마련하였다.
이처럼 FMEA는 다양한 산업 현장에서 품질 개선과 고 장 예방을 위한 체계적인 분석 도구로 활용되고 있으며, 생산성 향상과 신뢰성 확보에 기여하는 효과적인 방법론 으로 자리 잡고 있다. 특히 자동차 산업에서는 복잡한 부 품 간 상호작용과 안전성이 요구되는 특성상, FMEA가 초 기 제품 설계 단계부터 품질 관리 및 위험 최소화를 위한 필수적인 기법으로 활용되고 있다. Joo et al.[10]은 자동차 용 하이드로포밍 플랜지 부품의 신뢰성 확보를 위해 FMEA를 수행하고 정밀 제어 기반의 결함 예방 방안을 제 시하였다. Baynal et al.[3]은 자동차 조립라인에서 발생하 는 도어 실 컷, 인스트루먼트 패널 및 창문 소음 문제를 해결하기 위해 FMEA와 GRA(Grey Relational Analysis)를 결합한 통합 기법을 적용하였고 주요 결함을 효과적으로 개선하며, 품질 향상에 기여하였다.
이러한 연구들은 FMEA가 산업에서 유용한 품질 개선 도구임을 보여주지만, 이를 복잡한 시스템에 적용할 경우, 정확한 분석을 위한 방대한 데이터 수집과 다수 전문가의 협력이 요구되어 많은 비용과 시간이 소요되는 단점이 존 재한다[26]. 또한 기존 FMEA는 대부분 과거 데이터와 전 문가의 경험에 의존하기 때문에, 변화하는 환경에서 새롭 게 나타나는 위험이나 새로운 고장 요인을 실시간으로 반 영하기 어렵다는 한계가 존재한다[27].
이에 최근에는 LLM 기반으로 FMEA를 자동화하려는 시도가 활발히 이루어지고 있으며, 이는 기존 접근 방식의 한계를 극복하기 위한 방향으로 주목받고 있다. El Hassani et al.[6]은 전통적인 FMEA 수행 시 요구되는 시 간 및 비용 문제를 해결하기 위해, GPT-4 기반 LLM을 활 용하여 고장모드 자동 추출, 위험 평가, 개선안 제안이 가 능한 LLM 기반 FMEA 자동화 프레임워크를 제안하였다. 또한 사례 연구를 통해 LLM이 RPN 분석의 정확성과 속 도를 동시에 향상시키는 효과를 입증하였다.
이러한 LLM의 발전은 방대한 데이터 학습을 통한 이 해나 질의응답에 뛰어난 성능을 보이지만, 사실 기반 지 식이 요구되는 작업에서 환각(Hallucination) 현상을 일 으키기 쉽고, 전문 분야의 복잡한 용어나 절차, 기술적 맥락을 정확히 이해하고 반영하는 데 한계가 있다. 이로 인해 FMEA와 같은 정밀 분석 작업에서 잘못된 결과를 도출할 위험이 존재한다[2]. 이러한 한계를 극복하기 위 해 RAG 구조가 제안되었다. RAG 구조는 LLM이 응답 을 생성하기 전에 검증된 외부 지식 저장소에서 관련 정 보를 검색하여 반영함으로써, 사실성과 도메인 적합성을 향상시킨다.
최근 LLM과 RAG를 결합한 접근이 다양한 산업에서 시도되고 있으나, FMEA 자동화에 RAG 구조를 직접 적 용하여 신규 고장 데이터의 지속적인 반영과 최신 정보 기반의 위험 분석을 가능하게 하는 연구는 부족한 실정 이다.
따라서 본 연구에서는 로컬 데이터베이스 기반의 RAG 구조를 결합한 LLM을 통해, 정비 이력 및 클레임 데이터 등 실제 사용 환경에서 지속적으로 발생하는 고장 정보를 자동으로 축적․반영함으로써 최신성이 확보된 FMEA 자 동화 프레임워크를 수립하고자 한다. 이를 통해 기존 연구 의 정적 데이터 기반 접근을 보완하고, 신규 고장 데이터 가 지속적으로 축적되는 환경에서 최신 정보에 기반한 FMEA 수행이 가능한 구조를 제안하고자 한다.
3. Methodology
3.1 사용 모델
3.1.1 Llama 3
Llama 3는 Meta에서 개발한 차세대 개방형 LLM으로, Transformer 구조 중 Decoder 방식을 사용하며, 빠른 처리 속도를 위해 GQA(Grouped-Query Attention) 기법을 사용 한다. 모델을 학습하는 과정에서는 먼저 대규모 텍스트 데 이터를 사용해 학습하고, 사람의 피드백을 활용한 RLHF (Reinforcement Learning from Human Feedback) 방법으로 성능을 개선한다. 이 과정에서 감독학습을 거친 뒤, DPO (Direct Preference Optimization)와 PPO(Proximal Policy Optimization) 강화학습 기법을 적용해 LLM의 고질적 문 제인 환각 현상을 해결한다.
본 연구에서는 Llama 3 계열의 모델 중 한국어 데이터 추가 학습이 수행된 Korean Bllossom 8B 모델을 사용하여 실험을 수행한다.
3.1.2 Llama 3 Korean Bllossom 8B
Llama 3 Korean Bllossom 8B는 Llama 3를 기반으로 한 한국어-영어 이중언어 모델로, 100GB 이상의 한국어 데이 터로 재학습되어 한국어 처리 능력을 크게 높인 모델이다. 한국어 어휘를 3만 항목 이상 확장하고, 기존 Llama 3 대 비 약 25% 더 긴 한국어 문맥을 다룰 수 있도록 최적화되 었으며, 한국어-영어 병렬 말뭉치로 두 언어 간의 지식 연 결이 강화되었다. 또한 언어학자의 검수를 거친 데이터로 미세조정을 수행하고, 강화학습 기반의 보정 과정을 거쳐 보다 정확한 한국어 지문 이해가 가능하며, 오픈소스 모델 로서 양자화 버전이 제공되어 CPU나 소형 GPU에서도 활 용이 가능하다.
이러한 특성으로 인해 본 연구와 같이 로컬 환경의 RAG에서 한국어 중심의 FMEA/클레임 문서를 정확히 처리하고, 표 형식의 산출과 RPN 등 규칙 기반 질의에 안정적으로 답변을 생성하며, 클라우드 의존 없이 로컬 환경에서 데이터 보안을 충족해야 하는 조건에 적합한 모델이다.
3.2 RAG(Retrieval-Augmented Generation)
RAG는 LLM의 기존 한계점을 보완하기 위해 만들어진 개념이다. 사전 학습 과정에서 학습한 지식에만 의존하고 별도의 외부 데이터 연결이 없을 경우, 내부의 통계적인 패턴을 통해서만 답변하는 방식을 보완하고자 하는 것이 핵심 개념이다. LLM이 답변을 위해 대규모의 문서나 데 이터베이스에서 사용자의 질문과 관련된 정보를 검색하여 답변을 생성하도록 한다. 이러한 방법을 통해 LLM은 사 전에 학습하지 못한 새로운 정보에 대한 사용자의 질문에 도 정확한 답변이 가능하다. RAG는 LLM의 응답 품질을 향상시키기 위해 검색(Retrieval)과 생성(Generation)을 결 합한 구조이며, 딥러닝을 활용해 사용자의 질문을 임베딩 하고, 벡터 유사도를 통해 관련성이 높은 정보를 검색 및 참고하여 LLM의 답변을 생성한다.
이처럼 RAG는 LLM의 단점이었던 새로운 정보의 반영 과 정보의 정확성 문제를 외부 지식 저장소에 대한 유사도 검색이라는 구조를 통해 보완할 수 있다.
만약 RAG의 구조 중 외부 지식 저장소를 내부 데이터 베이스로 한정할 경우, 기업의 내부 데이터에 대한 보안을 확보하면서도, 최신 정보와 특정 도메인에 대한 지식을 지 속적으로 학습할 수 있다.
따라서, 본 연구에서는 내부 데이터베이스 기반의 RAG 구조를 통해 LLM의 정보 업데이트 용이성과 정보 유지관리의 효율성, 데이터의 보안성을 확보할 수 있는 방 법론을 제안한다.
3.2.1 Retrieval 모듈
Retrieval 모듈은 사용자로부터 입력이 들어오면 적합한 문서를 벡터 데이터베이스로부터 검색하는 과정이다. 이 때 입력 쿼리는 사전 학습된 임베딩 모델을 통해 벡터로 변환되며, 변환된 쿼리 벡터와 데이터베이스에 저장된 문 서 벡터 간의 유사도를 계산하여 관련성이 높은 상위 K개 의 문서를 추출한다.
정보 검색 방식은 크게 희소 벡터 기반의 전통적 기법 과 밀집 벡터 기반의 딥러닝 기법으로 구분된다[31]. 전통 적 기법은 단어 출현 빈도를 이용해서 키워드 중심의 검색 을 수행하며, 구현이 간단하고 직관적이라는 장점이 있다. 밀집 벡터 기반의 방식은 텍스트의 의미를 벡터 공간상에 서 반영할 수 있어 질의와 문서 간의 의미적 유사성을 정 교하게 포착할 수 있다. 특히, 대규모 문서 집합을 대상으 로 검색 효율성을 높이기 위해서 FAISS, Annoy 등과 같은 고속 유사도 검색 라이브러리를 활용할 수 있으며, 검색된 문서가 다수일 경우에는 순위화 알고리즘을 통해 최종적 으로 응답에 사용할 문서를 선별한다. Retrieval 단계의 정 확도는 이후 생성 결과의 품질에 직접적으로 영향을 미치 기 때문에, 도메인 특성과 사용 목적에 맞는 임베딩 모델 과 검색 전략을 선택하는 것이 중요하다.
3.2.2 Augmented Context
Retrieval 단계에서 선택된 문서는 바로 모델에 투입되 지 않고, Augmented Context로 한 번 더 정리되어 전달된 다. 이러한 과정의 핵심 목적은 검색 결과를 짧고 명확한 근거 묶음으로 만들어 모델 입력에 적합하게 하는 것에 있다. LLM이 답변을 생성할 때 필요한 정보만을 효율적 으로 사용하도록 해야 하기에 Augmented 과정은 RAG 구 조에 있어 핵심적인 요소이다.
이러한 Augmented 과정의 특성으로 인해, 프롬프트 엔 지니어링과 파라미터(청크 크기, 오버랩 비율 등) 조정과 밀접하게 연결되어 있다. 사용자 질문의 맥락을 이해하고, LLM이 데이터베이스에서 참고해야 할 정보를 명확하게 제시해 사용자의 질의 의도를 보다 정확하게 파악하여 답 변을 생성할 수 있다.
3.2.3 Generation 모듈
Generation 모듈은 Retrieval 단계에서 확보된 문서와 입 력 질의를 바탕으로, LLM이 자연어 형태의 응답을 생성 하는 과정이다. 이 단계에서는 LLM이 학습한 내부 지식 과 외부에서 제공된 정보를 통합하여, 질의에 적절하고 사 실 기반의 결과를 생성한다. 사용된 언어 모델로는 GPT 계열, BART, T5, Llama 등 다양한 모델이 있으며, 기업 환경에 적합한 사내 전용 모델이나 상용 API 기반 모델도 활용될 수 있다[17].
생성된 응답은 최종 사용자에게 직접 전달되거나, 시스 템 내부의 다른 프로세스와 연계되어 활용된다. 응답 내용 이 과도하게 길거나 문맥에 적합하지 않은 정보가 포함된 경우에는 후처리 알고리즘을 통해 내용을 정제하는 절차 가 수행된다. 또한 응답의 신뢰성과 일관성을 확보하기 위 해, 필요시 인간 검토자에 의한 사후 평가(Human-inthe- loop)를 병행하는 방식이 활용되기도 한다[31].
Generation 단계는 최종 산출물을 생성하는 역할을 하 며, RAG 시스템의 성능과 사용자 만족도에 직접적인 영 향을 미친다. 초기 Retrieval 단계에서 다소 부족한 정보가 있더라도 이 단계에서 부분적인 보완이 가능하지만, 반대 로 초기 입력이 부정확하거나 누락된 경우에는 생성 결과 의 품질 한계가 발생할 수 있다. 따라서 Generation 모듈은 RAG 전체 구조 내에서 매우 중요하다.
3.3 FMEA 자동화 프레임워크
본 연구에서 제안하는 FMEA 자동 최신화 프로세스는 아래 그림과 같으며, 기존의 FMEA 정보 및 특정 제품에 대한 도메인 지식을 내부 데이터베이스에 임베딩하여 해 당 분야에 특화된 LLM 모델을 구축한다.
이후 제품의 생산 및 시험단계, 양산 및 운용 단계에서 수집된 정비 이력이나 고객으로부터 수집된 클레임 데이 터 등을 종합하여 LLM에 입력한다. LLM은 새로운 고장 정보를 기반으로 FMEA 구조(고장모드, 영향, 원인, 심각 도, 발생도, 검출도, RPN, 권장 조치사항)에 맞춰 결과를 도출한다. 반복적인 고장에 대해서는 고장 발생 빈도를 반 영하여 발생도와 검출도를 동적으로 조정해 RPN을 재산 출하여 설계 단계에 반영한다.
이를 통해 제품 생애주기 전반에 걸친 고장 데이터를 기반으로 기존의 정적·전문가 의존적인 FMEA 작성 방식 을 자동화 시스템으로 전환하는 기반을 제공한다. 또한 외 부 지식 저장소를 내부 데이터베이스로 제한하여 데이터 를 폐쇄망에서 운영하는 구조를 통해 유출을 막아 보안이 중시되는 산업에서의 적용 가능성을 높인다.
3.3.1 심각도(Severity)
심각도는 고장이 발생했을 때 최종 소비자나 사용자의 안전, 기능, 성능, 규격 준수 등에 미치는 영향의 정도를 정량적으로 평가하는 지표이다.
보통 1~10의 척도로 등급이 부여되며, 숫자가 클수록 해당 고장이 초래할 수 있는 피해가 크고 심각하다는 것을 의미한다. 심각도는 설계 변경 이전에는 쉽게 줄일 수 없 으며, 설계 변경이나 구조적 조치를 통해서만 감소가 가능 하다. 따라서 심각도는 고위험 고장모드를 판단하고 조치 의 우선순위를 정하는 데 있어 중요한 판단 기준이 된다.
등급을 10점 척도로 적용하기 어려운 경우가 많아, 3점 척도(상, 중, 하) 또는 5점 척도(매우 중요, 중요, 보통, 중 요하지 않음, 매우 중요하지 않음)를 사용하여 평가하기도 한다.
3.3.2 발생도(Occurrence)
발생도는 특정 고장모드가 실제로 발생할 가능성이나 빈도를 나타내는 지표로, 잠재 고장원인 또는 고장 메커니 즘이 시스템 내에서 얼마나 자주 나타날 수 있는지를 추정 하는 데 사용된다. 발생도 평가에는 해당 부품 또는 유사 한 시스템의 과거 서비스 이력, 현장 클레임 데이터, 내부 테스트 결과 및 전문가 경험 등이 종합적으로 고려된다.
일반적으로 1~10점 척도를 사용하여 평가되며, 10점은 고장이 매우 자주 발생할 것으로 예상되는 경우를, 1점은 발생 가능성이 극히 낮은 경우를 의미한다. 예를 들어, 통 계적으로 반복 발생한 고장 유형이거나 구조적으로 취약 한 설계 요소는 높은 등급으로 분류된다. 이러한 평가에는 CNF/1000 (Cumulative Number of Failures per 1000 units) 과 같은 지표가 활용되기도 하며, 이는 설계 수명 동안 1,000개의 부품 중에서 발생할 것으로 예측되는 누적 고장 횟수를 의미한다.
고장 데이터가 충분하지 않아 발생도 등급을 표준화하 기 어려운 경우에는 3점 척도(상, 중, 하) 또는 5점 척도(매 우 자주, 자주, 보통, 가끔, 매우 가끔)를 적용한다.
3.3.3 검출도(Detection)
검출도는 고장모드 및 그 원인 또는 메커니즘을 식별하 여 적절한 시정조치를 취할 수 있는 설계 관리 능력을 평 가하는 지표이다. 검출도 등급은 일반적으로 고장 발생 이 후, 이를 조기에 감지하고 대응할 수 있는 시스템적 또는 절차적 역량을 반영하며, 값은 1에서 10까지의 척도로 평 가된다. 등급이 높을수록 고장을 발견하기 어려운 상황을 의미하며, 낮은 등급일수록 고장을 조기에 감지할 가능성 이 크다는 것을 나타낸다.
검출도 등급을 낮추기 위해서는 설계 결함의 사전 예방, 검출 장치의 개선, 유효성 검증 절차 강화 등 설계 관리 및 품질 보증 활동의 고도화가 요구된다. 그러나 실제 현 장에서는 검출 활동의 수준을 정량화하기 어렵거나, 사례 데이터가 부족한 경우가 많기 때문에 등급을 표준화하는 데 한계가 존재한다.
이처럼 정량적 기준 마련이 어려운 경우에는, 3점 척도 (상, 중, 하) 또는 5점 척도(거의 불확실, 매우 불확실, 보 통, 확실, 매우 확실)를 적용하여 활용하기도 한다.
4. 실 험
4.1 실험 데이터
제안된 FMEA 자동화 시스템의 성능을 검증하기 위해 두 가지 데이터셋을 활용하여 실험을 수행하였다. 첫 번째 데이터셋은 자동차 배터리 팩(Battery Pack) FMEA 데이터 이며, 두 번째는 자동차 산업에서 발생할 수 있는 고장 이력 정보를 생성한 배터리 팩 클레임 데이터이다. 이는 문헌조 사를 통해 실제 산업현장에서 발생 가능한 고장 정보를 수집하여 생성한 데이터셋이다. Borujerd et al.[4]은 침지 냉각식 배터리 팩(ICBP, Immersion-Cooled Battery Pack)에 대해 Fuzzy FMEA를 수행하여 밀봉 불량, BMS 기능 이상, 셀 온도 제어 실패, 기구적 구조 및 조립 문제 등 주요 고장모 드와 원인을 도출하였다. 또한 Kirana et al.[16]은 28건의 실제 전기차 사고 보고서를 분석하여 과열(Overheat), 단락 (Short Circuit) 등 배터리 팩의 주요 고장모드를 도출하고 RPN을 기반으로 위험 수준을 평가하였다. 이러한 기존 연 구 결과를 반영하여 데이터셋을 구축하였다.
4.1.1 FMEA 데이터셋
구축한 FMEA 데이터셋은 자동차 배터리 팩에 대해서 총 5개의 대표적인 고장모드와 각 고장에 대한 영향, 원인, 심각도, 발생도, 검출도, RPN 및 권장 조치사항을 포함한 다. 이는 기존 FMEA 문서의 구조를 기반으로 작성되었으 며, RPN은 심각도와 발생도, 검출도의 곱으로 산출하였 다. 데이터는 <Table 1>과 같다.
4.1.2 클레임 데이터셋
클레임 데이터는 앞선 문헌 연구를 통해 수립한 FMEA와 같은 부품에 대해 고객 사용 단계에서 수집될 수 있는 고장 이력 정보를 생성하였다. 해당 데이터셋은 수립된 FMEA에 존재하는 5개의 고장모드와, 문헌 연구를 통해 추가된 새로 운 고장모드 5개를 포함하여 총 10개 고장모드로 구성되었 다. 각 고장모드는 고장원인과 함께 기록되었으며, 총 70건 의 클레임 이력이 포함된다. 클레임 데이터는 LLM 기반 RAG 시스템의 성능을 평가하는 데 활용되었으며, 기존 FMEA에 존재하지 않는 새로운 고장모드의 반영과 기존 고장모드의 발생도 및 검출도 조정을 검증하기 위한 데이터 로 사용되었다. 데이터는 <Table 2>와 같다.
4.2 실험 구성
본 연구에서는 로컬 환경에서 작동이 가능한 LLM 기반 RAG 구조를 통해 FMEA 자동화 시스템을 실험적으로 구 현하고, 클레임 데이터를 반영하여 이를 설계 단계에 적용 하는 과정을 확인할 수 있도록 하였다.
시스템은 데이터 유출 위험을 방지하기 위해 로컬 환경 에서 구현될 수 있도록 설계되었다. 이를 위해 Anything LLM을 활용하여 질의응답 환경과 프로그램 내부 구성요 소인 Lance DB를 통해 RAG 구조를 구현하였다. 추가적 으로, 한국어 환경에서의 질의응답 정확도를 높이기 위해 LM Studio를 활용해 Anything LLM 기반의 RAG 구조에 연결하였다. 해당 프로그램은 Hugging Face에 존재하는 다양한 오픈소스 LLM 모델을 로컬 API 형태로 이용할 수 있다. Meta의 Llama 계열을 기반으로 한국어 데이터 추가 학습 과정을 거친 Llama 3 Korean Bllossom 8B 모델을 채 택하여 RAG 구조에 적용하였다.
이러한 구조를 통해 본 실험에서는 FMEA 문서에 대한 LLM의 질의응답 성능을 검증하고, 클레임 데이터를 통해 기존 FMEA 문서에 존재하지 않던 고장모드에 대한 LLM 의 인식과 RPN 산출을 확인하며, 최종적으로 새롭게 도출 된 고장 정보를 기존 FMEA 문서에 반영하여 순환 가능성 에 대한 검증 단계로 진행된다.
4.3 실험 방법
로컬 데이터베이스 기반의 검색 환경을 구축하기 위해, Anything LLM의 내장 데이터베이스인 Lance DB에 기존 FMEA 문서를 청크 단위로 임베딩하여 저장한다. 사용자 가 특정 부품이나 고장모드에 대해 질의할 경우, 질문 내 용을 임베딩하고, 코사인 유사도 등을 통해 쿼리(사용자 질문)와 청크 간의 유사도를 계산하여 가장 관련성이 높은 내용을 참고해 LLM의 답변에 활용하게 된다. 이러한 LLM의 질의응답 방식을 이용하여 성능 향상을 위해 다음 과 같은 기법을 사용하였다.
먼저, RAG 구조의 성능을 최적화하기 위해 검색 정확 도와 답변 품질에 영향을 미치는 주요 파라미터를 조정하 였다. 일반적으로 RAG 구조에서 검색 효율성과 생성 품 질은 데이터 청크 크기, 오버랩 비율 등의 설정에 따라 크 게 달라진다. 청크 크기는 문서를 분할하는 단위로, 크기 에 따라 검색 성능이 크게 좌우된다. 만약 크기가 너무 작 을 경우에는 문맥 단절로 인해 검색 품질이 저하되고, 너 무 클 경우에는 유사도 기반 검색에서 불필요한 정보가 포함될 수 있다. 실험에서 청크 크기는 200에서 1000토큰, 오버랩 비율은 50에서 300토큰의 범위에서 반복 실험하여 최적의 조합을 탐색하였으며, 1000토큰의 청크 크기와 200토큰의 오버랩 비율에서 검색과 답변의 성능이 가장 우수한 것으로 나타났다.
두 번째로, 프롬프트 엔지니어링 기법[14]을 도입하였다. 프롬프트 설계는 LLM의 답변 형식과 품질을 결정하는 핵 심 요소이다. 이에 최근에는 LLM의 답변 성능을 높이기 위한 방법인 프롬프트 엔지니어링이 연구되고 있다. 일반적 으로 프롬프트 엔지니어링은 입력 구조와 지시문을 최적화 하는 방법으로, Zero-shot, Few-shot, CoT(Chain-of-Thought) 등 다양한 기법이 활용된다[19]. 실험에서는 FMEA 표 형식 을 유지하기 위해 Few-shot 프롬프팅을 적용하고, 표 예시를 포함한 프롬프트를 제공하였으며, 복잡한 고장원인과 영향 간의 관계를 분석하기 위해 CoT 기법을 적용하여 LLM의 단계적 사고를 유도했다.
결론적으로 파라미터 조정과 프롬프트 엔지니어링을 통해 LLM의 답변 품질을 높였으며, 이를 통해 데이터 보 안이 요구되는 산업 현장의 조건에서 실무 적용 가능성을 높였다.
4.4 실험 결과
본 연구의 실험은 총 두 단계로 구성되었으며, 첫 번째 실험에서는 FMEA 문서에 대한 LLM의 기본적인 답변 성능 을 점검하고, 두 번째 실험에서는 프레임워크의 핵심 기능 인 신규 고장모드에 대한 반영과 RPN 값 조정을 검증한다.
4.4.1 1단계: 기존 FMEA 출력 성능 확인
첫 번째 실험에서는, 내부 데이터베이스에 저장된 배터 리 팩에 대한 FMEA 데이터를 기반으로 LLM이 해당 정보 를 정확하게 불러오고 표 형식으로 출력할 수 있는지를 확인하였다. FMEA 데이터 1개와 클레임 데이터 1개를 모 두 내부 데이터베이스에 임베딩한 상태에서 실험을 진행 하여 RAG 구조의 LLM이 해당 문서를 참고하여 정확한 답변 생성이 가능한지 확인하였다.
<Figure 4A>와 <Figure 4B>는 첫 번째 실험에 사용된 프롬프트와 이에 대한 LLM의 답변이다. LLM은 프롬프트 에 명시된 요구사항에 따라 FMEA 데이터에 존재하는 모 든 고장모드, 고장영향, 고장원인, 심각도, 발생도, 검출도, RPN, 권장 조치사항을 누락 없이 출력하였다. 이를 통해 LLM이 내부 데이터베이스에 대한 참조 기능을 성공적으 로 수행할 수 있음을 확인하였다. <Figure 4B> 하단의 파 란색 글씨를 통해 LLM이 답변을 생성할 때 참조한 데이 터베이스의 배터리 팩 FMEA 데이터를 확인할 수 있다.
4.4.2 2단계: 클레임 데이터 반영 및 RPN 조정
두 번째 실험에서는 배터리 팩 클레임 데이터를 추가 적으로 참조하여 기존 FMEA에 없는 신규 고장모드를 반영하고, 반복 고장 발생 시 기존 고장모드의 발생도와 검출도를 조정한 후 RPN을 재산출하는 작업을 검증하 였다.
<Figure 5A>와 <Figure 5B>는 두 번째 실험에 사용된 프롬프트와 이에 대한 LLM의 답변이다. LLM은 신규 고 장모드(배터리 팽창, 배터리 급속 방전, 절연 실패, BMS 통신 오류, 배터리 모듈 균열)를 FMEA에 추가 반영하였 으며, 기존 고장모드에 대한 발생도 및 검출도 값을 재조 정하고, RPN 값을 재산출했다.
최종적으로 출력된 FMEA에는 기존 FMEA 데이터에 명시된 5개의 고장모드와 기존 클레임 데이터에 명시되지 않은 배터리 팽창(Battery Swelling), 배터리 급속 방전 (Rapid Discharge), 절연 실패(Insulation Failure), BMS 통 신 오류(BMS Communication Error), 배터리 모듈 균열 (Battery Module Crack) 등 신규 고장모드 5개를 합친 총 10개의 고장모드가 포함되었다. 기존 FMEA 데이터에 존 재하던 고장모드 중 과열(Overheat)의 발생도가 6에서 8 로, 검출도가 5에서 4로 조정되어 RPN이 270에서 288로 재산출되었으며, 나머지 고장모드에 대해서도 발생도와 검출도의 조정을 통한 RPN 재산출이 이루어졌음을 확인 하였다. 생성된 FMEA는 <Table 3>와 같다. <Figure 5B> 하단의 파란색 글씨를 통해 LLM이 답변을 생성할 때 참 조한 데이터베이스의 배터리 팩 FMEA 데이터와 배터리 팩 클레임 데이터를 확인할 수 있다.
결론적으로, 실험을 통해 FMEA 자동화 프레임워크의 핵심 기능인 클레임 데이터 기반의 신규 고장모드에 대한 추가 반영과, 기존 5개 고장모드의 반복 발생에 대한 발생 도 및 검출도 값의 조정에 따른 RPN 재산출이 가능함을 검증하였다.
4.4.3 3단계: 반복 실험
반복 실험을 통해, 새로운 고장모드의 반영과 기존 고장 모드의 반복에 대해 발생도와 검출도 조정을 통한 RPN 재산출의 일관성을 검증하였다. 총 10번의 반복 실험을 수 행하였으며, 결과는 아래 <Table 4>와 같다.
결론적으로, 신규 고장모드 추가 반영의 경우 10번의 반 복 실험 중 7번의 실험에서 기준에 부합하였으며, 기존 고 장모드에 대한 RPN 재산출은 10번의 반복 실험 중 8번의 실험에서 기준에 부합하였다. 기준을 충족하지 못한 경우 는 신규 고장모드에 대한 부분적인 누락과 RPN 재산출 과정 중 모델의 계산 오류로 인한 결과이다. 이는 본 실험 에서 사용한 Llama 3 Korean Bllossom 8B의 성능이 ChatGPT 등과 같은 상용 모델에 비해 제한적이었기 때문 으로 판단된다.
5. 결 론
본 연구는 기존 전문가 중심의 FMEA 작성 방식이 가지 는 한계인 높은 시간과 비용의 소요, 주관적 평가로 인한 비일관성, 최신 데이터 반영의 어려움을 해결하기 위해 로 컬 환경에서 동작하는 LLM 기반의 RAG 구조를 적용한 FMEA 자동화 프레임워크를 제안한다. 이를 통해 데이터 의 보안을 유지하면서도 클레임 및 정비 이력과 같은 양 산·운용 단계의 데이터를 설계 단계의 FMEA에 자동으로 반영하고 갱신할 수 있는 프로세스를 제시하며, 실험을 통 해 실무 적용 가능성을 검증하였다.
RAG 구조의 구현을 위해 오픈소스 모델인 LM Studio 와 Lance DB를 기반으로 시스템을 구축하였으며, LLM의 성능 개선을 위해 프롬프트 엔지니어링과 파라미터(청크 크기, 오버랩 비율) 최적화를 수행하였다. 실험 결과, 제안 된 프레임워크는 기존 FMEA 문서에 존재하지 않는 신규 고장모드를 반영하고, 클레임 데이터에서의 반복 고장 패 턴을 식별하여 기존 FMEA의 발생도와 검출도를 동적으 로 조정하여 RPN을 재산출할 수 있음을 확인하였다.
본 연구의 주요 기여는 다음과 같다. 첫째, 데이터 보안 이 중요한 산업 환경에서도 적용 가능한 로컬 LLM 기반 RAG 구조를 제안하여 클라우드 기반 시스템 의존성을 제 거하였다. 둘째, 클레임 및 정비 이력과 같은 비정형 데이 터를 연계한 FMEA 자동화와 RPN 동적 피드백 구조를 구 현하여 반복 고장 예방과 신뢰성 설계 고도화에 기여하였 다. 셋째, 기존 전문가 중심의 FMEA 방식에서 발생하던 평가 일관성의 부족과 높은 시간·비용 문제를 개선하고, 신뢰성과 효율성을 동시에 확보할 수 있는 새로운 접근법 을 제시하였다.
다만, 제한된 데이터셋과 모델에서 실험이 수행되어 대 규모 산업 데이터의 적용에 대한 확장성 검증이 필요하다. 또한 생성된 결과의 신뢰성을 보장하기 위해 LLM의 답변 정확도에 대한 정량적인 평가 지표 및 검증 방법의 확보가 향후 과제로 남는다.