1. 서 론
기후 변화로 인해 각 지역의 작물 생산 동향이 달라져 작물 생산량을 예측하는 것이 더욱 어려워지고 있다. 기후 변화는 지구의 기온을 더 따뜻하게 하고, 강우 패턴을 변화시키고, 극한 날씨의 빈도와 심각성을 증가시키는데, 이는 결과적으로 작물 생산량의 감소로 이어진다[22]. 특히 기후 변화는 기존의 토양 환경 및 토양 수분량에 큰 영향을 미치기 때문에 작물의 생장에 영향을 미치는 주요 요인 이다[4]. 작물의 생장 과정에서 필수적인 요인인 수분이 토양에 부족할 경우 작물은 수분 스트레스를 받을 수밖에 없으며, 이로 인하여 작물은 적합한 증산작용과 광합성반응을 조절하는 것이 어렵게 된다[15]. 토양 수분에 더불어서, 토양에 있는 질소와 같은 영양분 또한 작물 생장에 큰 영향을 미치는데, 기후 변화로 인해 강수량이 변화하면 궁극적으로 토양의 질소 농도 또한 변화하여 작물 생산에 장애 요인이 된다. 다시 말해, 질소와 같이 단백질을 구성하는 핵심 물질이 토양을 통해 적절하게 공급되지 않으면 작물의 세포 구성을 방해하여 작물의 수확량이 감소하게 되는 것이다[3]. 하지만, 과다한 질소의 사용은 식물의 질병 저항성을 저하하고 작물의 품질에 악영향을 미치게 된다[19]. 이처럼 환경 요인의 변화는 토양 수분과 질소 함유량에 큰 영향을 미치기 때문에 결과적으로 작물 생산량을 감소시키고 농가의 소득이 감소시킨다.
특히 노지에서 작물을 생산하면 이러한 기후 변화에 더욱 민감한데, 시설에서 재배되는 작물과 달리 기온, 일사량 등에 직접적인 영향을 받기 때문이다. 예로 들면, 국내의 대표적인 노지 작물인 양파는 기후 변화의 영향을 직접적으로 받고 있다. 양파는 보통 9월에 파종하여 10, 11월에 정식이 이뤄지는데, 2024년에는 기후 변화로 인해 정식이 늦어지면서 생육 장애 발생이 우려되고 있다[5, 10]. 정 식이 늦어지면 월동기 냉해 가능성이 크고 상품성이 떨어지는 숫양파가 될 가능성이 크다. 또한 2024년은 대한민국 폭염 일수가 30일을 넘어갈 정도로 고온으로 인해 모종이 고사하여 재파종을 한 경우가 많아 양파 생산비도 크게 증가하였다. 이에 다양한 환경 요인에 따라 변화하는 양파 생산량 예측의 중요성이 더욱 대두되고 있다.
이렇게 기후 변화로 발생하는 다양한 문제에 대응하기 위해서, 최근 농업 분야에서는 다양한 인공지능 기술을 활용하여 정밀농업(precision agriculture) 및 스마트팜(smart farm) 기술을 급속도로 발전시키고 있다[20]. 예를 들면, 농업 생산량 예측에 있어서 기존에 회귀모형이나 상관분석과 같이 통계적 방법으로 예측하던 모델링 방법 대신 머신러닝을 활용한 모델링 방법을 통해 급변하는 작물 생산량 예측을 수행하고 있다. 특히 다양한 환경 요인 데이터를 수집할 수 있는 저렴한 센서들이 많이 개발되면서, 대량의 데이터가 실시간으로 수집되고 있고 이를 통해 더욱 정교한 모델을 구현하는 것이 가능해지고 있다[20]. 다만, Kwon et al.[13]의 연구에서는 온도, 습도, 조도 센서를 활용해 스마트팜의 내부 환경 데이터를 시각적으로 표출 하지만 이를 저장하지는 않아 머신러닝 모델을 구축하는 데에는 어려움이 있다. 이에 수집한 데이터를 관리할 수 있는 데이터베이스를 구축하고 이를 머신러닝 모델과 연동하여 그 활용성을 높일 필요가 있다.
따라서 본 연구는 머신러닝을 활용한 양파 생산량 예측 프레임워크를 제안한다. 특히 예측 정확도를 향상하기 위해 스태킹 앙상블(Stacking ensemble) 학습 기법을 활용하여 단일 머신러닝 모델의 성능보다 더 좋은 모델을 구현하는 것을 목표로 한다. 제안한 프레임워크는 데이터베이스 모듈, 작물 생산량 예측 모듈, 웹 시스템 모듈로 구성되어 있으며, 사용자가 예측 모델의 하이퍼파라미터를 직접 결정하고 모델의 예측 결과를 시각적으로 확인하면서 의사 결정을 할 수 있도록 설계하였다. 머신러닝 모델링을 위해서 대량의 양파 생산이 이루어지는 인도, 세르비아, 파키스탄의 질소 사용과 토양 수분에 따른 양파 생육 변화 연구데이터를 활용하였고, 제안한 프레임워크의 예측 정확도를 평가하였다. 결과적으로 제안한 프레임워크는 각 지역의 환경 요인을 고려한 예측 모델로 사용자가 특정 환경 에 적합한 모델 결과를 확인할 수 있게 된다.
논문의 이후 구성은 다음과 같다. 제2장에서는 머신러닝을 활용한 작물 생산량 예측 선행 연구들을 살펴본다. 제3장에서는 본 연구에서 제안하는 양파 생산량 예측 프레임워크에 대해 각 모듈별로 설명한다. 제4장에서는 인도, 세르비아, 파키스탄의 노지 실험 데이터를 활용하여 제안한 프레임워크의 성능 평가 결과에 대해 분석한다. 마지막으로 제5장에서는 본 연구의 결론과 추후 연구 방향을 제시한다.
2. 배경이론
2.1 머신러닝을 활용한 작물 생산량 예측
인공지능 기술의 발전과 함께 정밀농업(precision agriculture) 및 스마트팜(smart farm) 기술이 발전하면서, 다양한 작물의 생산량을 예측하기 위해 머신러닝 알고리즘을 활용한 모델들이 개발되었다. Kim and Kim[9]은 작물 생산량 예측 적합도 평가를 위해 세 가지 알고리즘(Ridge Regression, Random Forest, XGBoost)을 사용하여 토마토 생산량을 분석하였다. 해당 연구를 통해 세 가지 알고리즘 중 XGBoost가 77% 결정계수(coefficient of determination) 값으로 가장 최적의 머신러닝 기반 수확량 예측 알고리즘인 것을 밝혔다. Lee et al.[14]은 농업 공공 빅데이터를 사용해 Multiple Linear Regression, Support Vector Machine, Long Short Term Memory(LSTM) 등의 알고리즘을 적용한 모델을 개발하여 작물 생산량을 예측하였다. LSTM 모델에 중합계층(convolution layer)이 추가된 convLSTM 알고리즘이 딸기, 오이, 토마토 등 시설원예 작물에서 결정 계수 0.9에서 0.93으로 가장 높게 나타났다.
시설원예 작물뿐만 아니라 노지 작물에 대해서도 작물 생산량 예측에 머신러닝 알고리즘이 사용되었다. Kim and Lee[8]은 기상 데이터를 사용하여 4가지 머신러닝 알고리즘을 활용해 옥수수의 수확량을 예측하였고 Deep learning 이 평가지표에서 높은 예측 정확도를 보이는 것을 발견하 였다. Pant et al.[16]은 옥수수, 감자, 쌀, 밀의 생산량을 머신러닝 알고리즘을 활용하여 강수량과 기온 데이터와 함께 살펴보았다. 결정계수를 모델의 평가지표로 삼았는데, Decision Tree가 가장 좋은 모델로 선정되었다.
선행 연구를 통해 확인할 수 있듯이 각 연구별로 작물 종류와 환경 요인에 따라 좋은 성능을 보이는 머신러닝 알고리즘이 다르게 나타나는 것을 볼 수 있다. 이에 다양한 머신러닝 알고리즘을 활용하여 각 농지의 환경 요인에 적합한 예측 모델을 설계하는 것이 더 정확한 예측 결과를 얻을 수 있음을 알 수 있다.
2.2 스태킹 앙상블
스태킹 앙상블(Stacking Ensemble)은 1992년 Wolpert에 의해 제안된 알고리즘으로 다양한 머신 러닝 알고리즘을 통해 얻어진 모델 학습 결과를 스택하여 최종 예측에 사용할 새로운 메타 학습기를 훈련시키는 것이다[1, 23].
<Figure 1>은 스태킹 앙상블의 구조를 나타낸다. 우선 학습 데이터가 베이스 학습기에서 각각의 머신러닝 알고 리즘에 의해서 학습되고 이를 조합하여 새로운 데이터 세트를 생성한다. 생성된 데이터 세트는 메타 모델의 학습 세트로 사용되어 최종 예측이 생성된다.
스태킹 앙상블을 활용한 예측을 진행하면 단일 머신러닝 알고리즘을 활용한 예측 결과보다 예측 정확도가 향상되는 모습을 보인다. Renju and Brunda[18]는 Linear Regressor, Decision Tree, AdaBoost Regressor와 같은 3가지 알고리즘을 스태킹하여 작물 생산량을 예측하였다. 스태킹 된 모델의 결정계수가 98.92%로, 단일 모델 AdaBoost Regressor의 결정계수 97.82%보다 더 높은 성능을 보였다. Iniyan and Jebakumar[6]는 토양과 환경 요인을 고려하여 단일 머신러닝 알고리즘과 스태킹 앙상블 모델의 작물 예측 성능을 비교하였다. 그 결과 스태킹 앙상블 모델의 예측 정확도가 94.44%로 다른 단일 알고리즘보다 약 2%에서 15%까지 더 높게 나타났다.
3. 앙상블 학습을 활용한 양파 생산량 예측 프레임워크
본 연구에서 제안하는 양파 생산량 예측 프레임워크는 <Figure 2>와 같이 총 3개의 모듈로 구성되어 있다. 우선 데이터베이스 모듈(Database Module)에서는 양파 생산량 예측에 필요한 토양 데이터와 기상 데이터를 데이터베이스에 저장하고 예측에 활용한다. 작물 생산량 예측 모듈 (Crop Yield Prediction Module)은 데이터베이스에서 얻은 데이터를 전처리하여 모델을 학습시켜 작물 생산량을 예측한다. 마지막으로 웹 시스템 모듈(Web System Module) 은 사용자가 모델의 하이퍼파라미터를 직접 결정하고 모델의 예측 결과를 시각적으로 확인하여 의사결정을 할 수 있도록 한다.
3.1 데이터베이스 모듈
데이터베이스 모듈은 작물 생산량에 영향을 미치는 환경 요인값을 저장하고 관리하는 모듈이다. 환경 요인은 토양 정보와 기상 정보로 구분되며, 각 정보는 센서를 통해 수집되어 데이터베이스에 저장된다. 사물인터넷(Internet of Things, IoT)의 발달과 함께 기상센서와 토양센서의 경량화가 이뤄지면서 각 지역에 센서를 설치하여 해당 농지의 환경 요인값 데이터를 정확하게 수집하는 것이 가능해 졌다.
<Figure 3>은 IoT 환경에서 설치 및 사용 가능한 기상 및 토양 센서의 모습이다. 총 6개의 센서가 설치되어 있고, 이는 각각 대기 온도, 습도, 강수량, 풍향, 풍속, 일사량의 기상 정보, 토양 수분량의 토양 정보를 수집한다. 수집된 데이터는 측정 센서와 연결된 단일 보드 컴퓨터인 라즈베리 파이를 거쳐 메인 서버의 데이터베이스에 실시간으로 저장된다. 라즈베리 파이를 통해 센서의 기능을 제어하고 데이터를 전송함으로써, 농지와 같이 일반 컴퓨터를 설치하기 어려운 환경에서 기상 및 토양 센서를 쉽게 사용할 수 있게 된다.
<Figure 4>는 환경 요인 데이터베이스의 개체 관계 다이어그램(Entity Relationship Diagram)이다. 데이터베이스 접속이 가능한 사용자가 로그인을 통해 조회하고자 하는 환경 요인을 선택하여 조회하게 되면 해당 환경 요인의 센서 ID와 측정값, 측정 시간 데이터를 확인할 수 있다. 이렇게 수집된 데이터는 3.2절에서의 작물 생산량 예측 모델의 학습 데이터로 활용된다.
3.2 작물 생산량 예측 모듈
작물 생산량 예측 모듈은 수집된 데이터를 활용하여 생산량 예측 모델을 학습시키고, 학습된 예측 모델을 통해 작물 생산량을 예측한다. 작물 생산량 예측 모델은 다양한 머신러닝 알고리즘을 활용한 스태킹 앙상블 모델을 활용하여 구성한다. <Figure 5>는 스태킹 앙상블의 의사코드 (pseudocode)를 나타낸다.
모델의 평가에는 회귀모형의 성능을 평가하는 평가지표를 활용한다. Mean Absolute Error(MAE)는 평균 절대 오차로 값이 작을수록 성능이 좋고, Root Mean Squared Error(RMSE)는 평균 제곱 오차로 값이 작을수록 성능이 좋다. Coefficient of Determination(R²)는 결정계수로 독립 변수로 예측할 수 있는 종속 변수의 분산 비율로 1에 가까 울수록 모델의 설명력이 높다. 식 (1)-(3)은 각 성능평가지 표를 계산하기 위한 수식을 나타낸다.
여기서 n은 총 데이터 수, yi는 측정값, 는 예측값, y 는 측정값의 평균을 나타낸다.
3.3 웹 시스템 모듈
웹 시스템 모듈은 사용자가 직접 모델을 확인하고 의사 결정을 통해 모델을 구성하여 사용자 맞춤형 결과를 얻을 수 있도록 한다. <Figure 6>과 같이 사용자의 인터페이스(user interface)는 사용자의 입력 부분과 결과 출력 부분으로 나뉜다. 우선 입력 부분에서는 스태킹 앙상블 모델의 하이퍼파리미터를 사용자가 직접 입력한다. 스태킹 앙상블 모델은 베이스 학습기에서 학습시키는 모델의 수에 따라 성능이 달라지고, 메타 학습기에서 사용하는 메타 모델 에 따라서도 성능이 달라지기 때문에, 모델의 하이퍼파라 미터를 결정하는 것이 필요하다. 출력 부분에서는 모델의 성능 평가 결과와 예측 생산량 정보가 출력되고 이는 그래프를 통해 시각적으로 표현된다.
사용자는 모델의 하이퍼파라미터를 바꿔가면서 다양한 모델의 성능을 직접 확인할 수 있고, 이를 통해 해당 농지에 가장 적합한 모델을 판단하여 생산량 예측값을 농업 계획 수립에 활용하는 것이 가능하다.
4. 실 험
실험을 위해 양파의 각 환경 요인의 변화에 따른 생산량 데이터를 수집하였다. 제안한 앙상블 모델링을 위한 실험 데이터는 각 지역에서 기상환경과 토양 환경 요인에 따라 변화하는 양파 생산량 데이터이다. 2개의 예측 모델을 구성 하였는데 이는 각각 토양 수분 모델과 토양 질소 모델이다. 토양 수분 모델은 물 관개량을 다르게 하였을 때의 양파 생산량을 예측하는 모델이고, 토양 질소 모델은 질소 시비량을 다르게 하였을 때의 양파 생산량을 예측하는 모델이다.
모델의 독립변수는 두 모델 공통으로 평균 온도, 평균 습도, 평균 강수량, 평균 일사량, 평균 풍속이다. 토양 수분 모델은 추가로 물 관개량을 독립변수로 사용하였고, 토양 질소 모델은 추가로 토양 질소 시비량을 독립변수로 사용 하였다. 두 모델의 종속변수는 양파 생산량이다.
4.1 실험 데이터
토양 수분 모델의 실험 데이터는 인도에서의 실험 데이터 (2004~2005년과 2017~2019년), 세르비아에서 2005년부터 2007년까지 수행한 데이터로써, 각각 물 관개량을 최소 0mm부터 최대 617mm까지 조절하면서 양파를 생산한 실험 데이터이다 [11, 17, 21]. 토양 질소 모델의 실험 데이터는 인도의 실험 데이터(2013년, 2016년, 2017년)와 파키스탄의 실험 데이터(2018~2020년)로써, 각각 질소 시비량 을 169kg/ha부터 336.16kg/ha까지 다르게 처리하면서 양파를 생산한 데이터이다[2, 7, 12].
양파 생육기간의 일평균 기상 데이터는 <Table 1>과 같다. 기상 데이터의 총기간은 실험에서의 양파의 생육기간과 같으며, 토양 수분 모델은 12월부터 5월까지의 평균 기상 데이터이고, 토양 질소 모델은 11월부터 4월까지의 평균 기상 데이터이다.
4.2 실험 결과
본 실험에서 사용한 스태킹 앙상블의 베이스 학습기는 Linear Regression, Least Absolute Shrinkage and Selection Operator(LASSO), ElasticNet, Decision Tree, Support Vector 를 사용하였으며, 메타 학습기로는 Random Forest를 사용 하였다. 베이스 모델 학습 단계에서는 각 데이터셋의 train data와 test data를 8:2 비율로 나누어 사용하였다. 여기서 데이터 분할로 인해 발생할 수 있는 모델 편향 문제와 과적합 문제를 해결하기 위해 K-fold Cross Validation을 사용하여 데이터셋을 5개로 분할한 후 각 반복의 성능 지표 평균으로 모델을 평가하였다.
토양 질소 시비량에 따른 양파 생산량 예측 모델에서 베이스 학습기의 성능은 <Table 2>와 같다. 결정계수가 가장 높은 모델은 ElasticNet으로 0.775이고, RMSE가 가장 낮은 모델은 Decision Tree로 2.894이다. <Table 3>은 메타 학습기의 성능 지표를 나타냈는데, 메타 학습기는 결정계수 값이 0.945로서 베이스 학습기에서의 성능보다 좋게 나타났다. 이는 베이스 학습기의 ElasticNet 결정계수 값 (0.775)에 비해 약 18% 더 높은 값이다. 또한, 메타 학습기는 베이스 학습기에서 가장 낮은 RMSE 값을 1.529 감소 시키고, 가장 낮은 MAE 값을 1.296 감소시켰다. 이에 제안한 앙상블 모델을 활용하여 생산량을 예측하는 것이 단일 모델을 활용하여 예측하는 것보다 성능이 더 나은 것을 확인할 수 있었다.
물 관개량의 변화에 따른 양파 생산량 예측 모델에서 베이스 학습기의 성능은 <Table 4>와 같다. 단일 머신러닝 알고리즘에서 성능이 가장 좋은 모델은 Linear Regression 으로 결정계수 값이 0.827로 가장 높았고, RMSE는 9.720 으로 가장 낮았다. <Table 5>는 메타 학습기의 성능 지표로 결정계수가 0.936이다. 이는 베이스 학습기에서 성능이 가장 좋았던 Linear Regression의 결정계수 값에 비해 11.43% 더 높은 값이다. 또한, 메타 학습기는 베이스 학습기에서 가장 낮은 RMSE 값을 4.321 감소시키고, 가장 낮은 MAE 값을 4.17 감소시킨다. 토양 수분 모델 역시 토양 질소 모델과 같이 제안한 앙상블 모델이 단일 머신러닝 모델보다 양파 생산량을 더 정확하게 예측하는 것을 확인 할 수 있다.
베이스 학습기의 알고리즘 학습 개수에 따라 스태킹 모델의 성능에 차이가 발생하는지 확인하기 위해 베이스 학습기의 알고리즘 학습 개수를 변경하면서 모델의 결정계수 값을 비교하였다. <Figure 7>과 같이 토양 수분 모델에서는 베이스 학습기의 개수가 증가할수록 모델의 결정계 수 값이 증가하는 것을 확인할 수 있다. 하지만, 토양 질소 모델에서는 4개의 베이스 학습기를 스태킹한 앙상블 모델이 결정계수 0.964로 가장 높게 나타났고, 5개의 베이스 학습기를 스태킹한 앙상블 모델은 0.961로 4개보다 더 작게 나타났다. 이에 제안한 프레임워크에서는 각 모델에 따라 적절한 하이퍼파라미터를 선택하는 것이 모델의 성능을 향상 시킨다는 것을 알 수 있다.
5. 결 론
본 연구는 앙상블 기법을 사용하여 다양한 환경 요인에 따른 양파 생산량 예측을 위한 프레임워크를 제안하였다. 특히 환경 요인을 측정하는 센서들을 해당 농지에 직접 설치하여 실시간으로 데이터를 수집할 수 있는 사물인터넷 환경을 고려하였고, 각 농지별 맞춤형 예측 모델을 학습시켜 생산량 예측을 할 수 있도록 프레임워크를 설계하 였다. 스태킹 앙상블 기법을 활용하여 기존의 단일 머신러닝 모델을 사용하는 기법의 작물 생산량 예측 성능을 개선 하였다. 더 나아가 이러한 예측 결과를 확인할 수 있는 웹 기반 사용자 인터페이스(user interface) 설계를 통해 농업인들이 쉽게 활용할 수 있도록 하였다. 사용자 인터페이스를 통해 사용자는 스태킹 앙상블 모델의 하이퍼파라미터를 직접 조절하여, 개인의 농지에 가장 적합한 모델을 스스로 구현하는 것이 가능하다. 이러한 하이퍼파라미터 조절은 웹 시스템에서 사용자가 원하는 모델을 선택하고 버튼을 클릭하는 간단한 과정으로 구현되어 많은 농가에서 쉽게 사용하는 것이 가능하다.
본 연구의 한계점은 다음과 같다. 작물의 생장에는 기상 요인 외에도 토양의 다양한 요인이 영향을 미치는데, 본 연구의 토양 수분 모델은 물 관개량만을 주요 요인으로 고려하였으며, 토양 질소 모델에서는 토양 질소 시비량만을 주요 요인으로 고려하였다. 또한 환경 요인들이 작물의 생장에 복합적인 영향을 미치기 때문에 토양 수분과 토양 질소의 처리를 동시에 고려하여야 더 정확한 양파 생산량 예측 모델을 구성할 수 있다. 하지만, 본 실험에서는 물 관개량과 토양 질소 시비량을 각각 처리한 양파 생산 데이터를 수집하여 토양 수분 모델과 토양 질소 모델이 각각 구현되었다. 이에 향후 연구에서는 더욱 다양한 환경 요인 데이터를 동시에 고려한 실증실험 수행을 시핼할 필요가 있으며, 이를 통해 더욱 정교한 복합모델을 구현하는 것이 가능해질 것으로 기대한다.