Journal Search Engine

ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)

Journal of Society of Korea Industrial and Systems Engineering Vol.48 No.4 pp.57-70
DOI : https://doi.org/10.11627/jksie.2025.48.4.057

AI Framework for Strategic Decision Support in the Shipping Market through the Integration of Transformer and Kalman Filtering

Donggyun Kim^*†

, Yoonji Kim^**

, Sangwha Kim^*

, Yoona Kim^*

, Hieonn Kim^***†

^*Seoul Line Corporation
^**Department of Computer Science, Yonsei University
^***Department of Artificial Intelligence, Yonsei University

^†Corresponding Author : calvin@seline.co.kr / hieonn@yonsei.ac.kr

Received 03/09/2025 Finally Revised 16/11/2025 Accepted 20/11/2025

Abstract

Freight-rate forecasting in the VLCC TD3C market remains challenged by abrupt regime shifts, pronounced volatility, and heterogeneity in real-time signals from oil prices, seaborne trade, vessel operations, and macroeconomic factors; these directly impact freight planning and chartering. This study presents a daily multivariate dataset with 4,267 samples covering 2014-02-01 to 2025-10-08, integrating crude benchmarks, fuel spreads, refinery margins, port congestion, inventory levels by region, plus detailed AIS-derived VLCC activity, speed, and operation states, scaled and split 80/10/10 for training, validation, and testing. The proposed framework combines a PyTorch Transformer—optimized using Optuna for d_model=128, 9 layers, 8 heads, a 14-day input window, and 5-day output—with Monte Carlo Dropout for uncertainty quantification. Diagnosis uses differential entropy and coefficient-of-variation to verify convergence with 90 separate runs, while a Kalman filter (Q=0.001, R=0.01) smooths the forecast trajectory and enhances temporal reliability. Experimental results show baseline Transformer achieves average MAE 5,259.4, MAPE 13.10%, and R²=0.74 across 1-5 day horizons, with volatility quality metrics declining at longer leads. Applying the Kalman filter reduces errors to MAE 4,326.1, MAPE 10.6%, and raises R² to 0.83; timing and extremity components of volatility quality scores are strengthened, providing a more robust basis for operational decisions. Monte Carlo backtesting for 82 Korean VLCCs over 598 trades finds the Kalman-smoothed strategy earns $108.5M (88.9% win rate, Sharpe ratio 0.83), substantially outperforming raw Transformer ($32.9M, 60.5%, 0.24) and random selection (near zero, 49.3%, 0.005). These results highlight the clear economic value added by calibrating uncertainty and post-processing forecasts, transforming predictive reliability into real-world freight portfolio improvement in the tanker market.

Key Words : VLCC Freight Index , Transformer , Uncertainty Quantification , Kalman Filter , Backtesting and Economic Impact

Transformer와 Kalman Filter 결합을 통한 해운시장의 전략적 의사결정 지원 인공지능 프레임워크

김동균^*†, 김윤지^**, 김상화^*, 김윤아^*, 김현수^***†

^*주식회사 서울라인
^**연세대학교 컴퓨터과학과
^***연세대학교 인공지능학과

초록

키워드 :

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. 서 론

해운업은 글로벌 무역의 핵심 인프라로서, 전 세계 상품 교역량의 약 90%를 담당하고 있다. 특히 초대형 유조선(VLCC)은 원유 운송의 주력 선박으로, 그 운임 지수는 글로벌 에너지 시장과 밀접한 관련이 있다. 발 틱거래소가 중동 걸프에서 중국으로의 원유 운송 항차 에 발표하는 VLCC 벤치마크인 TD3C에 대한 하루당 수익인 TCE(Time Charter Equivalent)를 나타내며, 아시 아 지역 원유 수급과 운임 동향을 반영하는 핵심 지표 이다[7].

화물 운임 지수의 정확한 예측은 해운회사의 운항 계 획, 선박 투자 결정, 리스크 관리 등에 중요한 영향을 미 친다. 그러나 운임 시장은 다양한 경제적, 지정학적, 계절 적 요인들의 복합적 상호작용으로 인해 높은 변동성과 비선형성을 보이며, 전통적인 시계열 예측 방법론으로는 만족할 만한 예측 성능을 얻기 어렵다.

본 연구의 목적은 VLCC 운임 현물시장에서 선박회사, 정유사 등 실제 시장 참여자의 의사결정에 직접 활용 가 능한 단기 예측 프레임워크를 제시하는 데 있다. 2장에서 는 기존 연구의 한계와 최근 트렌드를 정리하고, 3장에서 는 정교한 전처리 과정 및 상관계수 기반 주 특징 추출․ 선정 절차를 체계적으로 설명한다. 4장에서는 Optuna 알 고리즘을 활용해 하이퍼파라미터와 주요 입력 변수를 탐 색하며, 예측 신뢰성 강화를 위해 Monte Carlo Dropout 기법을 도입하고, Kalman Filter로 성능을 개선한다. 5장 에서는 실제 운항․거래 조건을 반영한 백테스트 시뮬레 이션을 통한 경제적 효과를 분석한다.

2. 관련 연구

2.1 해운 운임 예측 연구

해운 운임 예측에 관한 연구는 크게 전통적 계량경 제학적 접근법과 기계학습 기반 접근법으로 구분할 수 있다. 전통적 방법론으로는 ARIMA(Auto Regressive Integrated Moving Average), VAR(Vector Auto Regression), GARCH(Generalized Auto Regressive Conditional Heteroskedasticity) 등이 널리 사용돼왔다[9]. 이러한 방법 들은 선형 관계 모델링에는 적합하지만, 해운 시장의 복 잡한 비선형 패턴을 충분히 포착하지 못하는 한계가 있 다. 최근에는 신경망, SVM, 랜덤포레스트 등의 기계학습 방법론이 활용되고 있다. 특히 RNN, LSTM, GRU 등의 딥러닝 모델들이 시계열 예측에서 우수한 성능을 보이고 있다[2].

2.2 Transformer 모델

Transformer는 2017년 Vaswani et al.에 의해 제안된 어 텐션 메커니즘 기반 신경망 아키텍처로, 입력 시퀀스 내 장기 의존성을 효율적으로 학습할 수 있다는 점에서 RNN․LSTM 계열 모델의 한계를 극복했다. 초기에는 자 연어 처리 분야에서 혁신적인 성과를 보였으나, 이후 시 계열 예측 문제에도 점차 활용되기 시작했다.

Transformer의 핵심 구성요소는 Mult-head self-attention으로, 각 헤드가 Q, K, V를 다른 하위공간으로 선형 사영해 독립적으로 어텐션을 수행하고, 결과를 연결․투 영하여 종합한다.

\begin{array}{l} {MultiHead (Q, K, V) = Concat(head}_{1}, \dots {,head}_{h}) W^{O} \\ {where head}_{i} = Attention (Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}) \end{array}

Attention은 Scale Dot-product로 계산되며,

A t t e n t i o n (Q, K, V) = s o f t m a x (\frac{Q K^{T}}{\sqrt{d_{k}}})

$1 / \sqrt{D_{k}}$ 스케일링은 소프트맥스 포화와 그래디언트 불 안정을 완화해 학습을 안정화한다. 멀티헤드 설계는 단 일 헤드 대비 서로 다른 위치․하위공간의 정보를 동시 에 참조할 수 있어 장․단기 의존성과 상관구조를 더 풍 부하게 모델링하는 이점이 보고돼 왔다[8].

시계열 예측에서의 Transformer 연구들은 특히 다변량 시계열의 복잡한 상관관계를 포착하는 능력에 주목했다. 기존 연구들은 전력 수요, 주가, 교통량, 기후 데이터 등 다양한 영역에서 기본 Transformer를 활용해 예측 정확도 를 개선하려 시도했으며, Self-Attention 구조가 비선형적 장기 의존성(Long-term dependency)을 모델링하는 데 효 과적임을 확인했다.

다만, 기본 Transformer는 원래 자연어에 최적화된 구 조이기 때문에, 시계열 데이터의 연속성․계절성․주기 성 등 특유의 패턴을 충분히 반영하지 못한다는 한계도 보고됐다[4]. 이러한 한계에도 불구하고 Transformer는 시계열 연구에서 효과적인 출발점을 제공하며, 본 연구 에서도 기본 구조를 중심으로 해운 운임 지수 단기 예측 에 적용했다.

2.3 Kalman Filter의 시계열 예측 응용

Kalman Filter는 선형 가우시안 상태공간 모형을 가정하 고 예측-갱신의 재귀 절차로 상태를 추정하는 알고리즘이 며, 시계열적 일관성과 잡음 완화를 동시에 달성한다.

핵심 구성요소는 상태 전이 모델 $x_{k} = F_{k}, x_{k - 1} + B_{k}, u_{k} + w_{k}$ 와 관측 모델 $z_{k} = H_{k}, x_{k} + v_{k}$ 로, 프로세스 노이즈 $w_{k} \sim N (0, Q_{k})$ 와 관측 노이즈 $v_{k} \sim N (0, R_{k})$ 의 공분산 Q_k, R_kr가 불확실성 구조를 규정한다.

알고리즘은 예측 단계에서 ${\hat{x}}_{k | k - 1}, P_{k | k - 1}$ 를 전파하 고, 갱신 단계에서 칼만 이득 K_k로 관측 혁신을 반영해 ${\hat{x}}_{k | k}, P_{k | k}$ 를 갱신하는 두 단계로 구성되며, 평균-공분산 형태로 불확실성을 명시적으로 관리한다 .

실무 적용에서는 모델 불일치와 센서 잡음을 Q, R 조 율로 흡수해 추세-계절 변동 위의 고주파 잡음을 스무딩 하고, 드리프트 억제와 결측 보간을 동시에 달성하는 후 처리로 활용된다.

본 연구는 테스트 단계에서 Monte Carlo Dropout을 활 성화하여 반복 샘플링을 수행함으로써 예측 분포를 근사 해 앙상블을 구현하고, 다중 실행 결과의 분산을 기반으 로 모형 기인 불확실성(에피스테믹 불확실성)을 정량화 했다[3]. 최종 단계에서 Kalman Filter 후처리(post-processing) 를 통해 시계열적 일관성과 스무딩을 확보하여 실 무 의사결정에 적합한 신뢰 구간을 제공한다[5].

3. 데이터 수집 및 전처리

본 연구는 자체 산출 변수와 공인 외부 원천에서 취득 한 변수로 구성된 통합 데이터셋을 사용하였다. 총 36개 의 입력 변수 중 23개(원유 해상수출 물동량, 톤마일, 선 박 보유․운항 규모, 선박 평균 속도 등)는 2014년 2월 1일부터 2025년 10월 08일까지의 AIS1)원시 신호를 수집 한 후, 공간․시공간 정합 및 서버 기반 일괄 연산 파이프 라인을 통해 일 단위 시계열로 재가공했다. 변수의 상세 목록과 상세는 <Table 1>에 제시한다.

본 연구에서 자체 산출한 변수들은 선박 AIS 신호를 기반으로 한 항행 이력과 연구진이 구축한 전 세계 항 만․오일 터미널․ 탱커존2) 등 지리 참조 데이터베이스 를 결합한 공간․시공간 연산을 통해 도출했다. 한편 운 임지수, 원유 및 연료유 가격, 정제마진, 원유 재고 등 거 시․에너지 지표는 공인 외부 제공처의 원시 데이터를 수집하여 사용했다.

예측변수인 td3c_tce가 영업일에만 공표되는 점을 고 려해, 분석 기간의 전체 일자를 시간 축으로 확장하고 비 영업일에 해당하는 결측값은 선형 보간(linear interpolation) 으로 보완했다.

이후 예측 모델에 투입할 후보 변수를 선별하기 위해, 종속변수와 각 설명변수 간의 피어슨 상관계수를 산출했 다. 이는 변수 간 선형적 결합 강도를 계량적으로 평가함 으로써, 고차원 입력 공간에서 불필요하거나 정보량이 낮은 변수를 제거하고 주요 설명력을 지닌 요인을 우선 반영하기 위한 것이다. 이러한 절차는 모델의 차원 축소 와 과적합 방지라는 통계적 의미를 갖는 동시에, 종속변 수의 변동성을 설명하는 핵심 경제․운항 지표를 식별하 는 데 기여한다. 본 연구에서는 상위 20개 상관 변수를 추출하여 예측 후보군으로 설정했다.

데이터 전처리에는 RobustScaler를 적용했다. 시계열 특성을 보존하기 위해 시간 순서를 유지한 채 <Table 3> 과 같이 전체표본을 순차 분할했다.

4. 실험 결과 및 분석

4.1 모델 개요와 시스템 아키텍쳐

본 연구의 단기 예측 파이프라인은 입력 윈도우 기반 의 Transformer 추정과 불확실성 정량화, Kalman Filter 후처리로 구성된다. 모델 아키텍쳐 구조도 <Figure 1>은 는 입력(Batch×14×7)에서 시작해 코어 Transformer, Montel Carlo Dropout 90회 앙상블 평균, 3일 관찰구간의 Kalman Filter 평활화, 최종 성능평가로 이어지는 전 과정 을 단계별로 제시한다.

입력은 14일 히스토리와 선택 특성으로 구성되며, 입력 프로젝션(7→128)과 위치 인코딩을 거쳐 9개 레이어․32 헤드의 Transformer 인코더로 전달된다. Self-Attendtion을 통과한 표현은 Attention Pooling으로 집약되고, 출력 MLP(128→5)가 5일 지평의 점추정 벡터를 산출한다.

테스트 단계에서는 Montel Carlo Dropout을 활성화해 90회 반복 추론을 수행하고, 각 시점별 평균 μ를 최종 점 추정으로 사용한다. 이 절차는 모델 기인 불확실성의 분 산 추정과 이상치 완화를 동시에 도모해, 이후 후처리의 안정적 입력을 제공한다.

후처리는 직전 3일 관측과 예측 지평 t+1:t+5를 연결한 8일 시퀀스를 대상으로 작동한다. 공정잡음 Q=1e−3, 관 측잡음 R=1e−2의 Kalman Filter를 적용해 단기 노이즈 를 억제하고 피크․저점의 시차를 완화해, 방향성과 규 모의 일관성을 높인 향상 예측을 생성한다.

최종 출력은 테스트 세트에서 MAE, MAPE, R²로 평가 하며, 변동성 품질과 방향 일치도도 병행 보고한다. 동일 설정으로 Kalman Filter 적용 전․후를 비교해 후처리의 기여도를 정량화한다.

4.2 변수 및 하이퍼파라미터 및 최적화

본 절에서는 Transformer의 성능을 극대화하기 위해 하이퍼파라미터와 입력 변수 조합을 자동화 탐색으로 최적화했다. 구체적으로, 사전 정의된 탐색 공간에서 반 복 탐색을 수행하여 모델 복잡도와 일반화 성능 간 균 형을 도모했으며, 모든 실험은 동일한 학습․검증 프로 토콜 아래에서 실행했다. 모델 성능 평가는 MAE, MAPE, R²를 주요 지표로 삼아 검증 세트 기준으로 비 교․선정했다.

Optuna 기반 탐색 결과, 최고 성능을 보인 모델의 하이 퍼파라미터 및 입력 변수 조합은 다음과 같다.

4.3 Monte Carlo 앙상블을 통한 시계열 예측 신뢰도 및 성능 향상

본 연구에서는 시계열 예측 신뢰성 향상을 위한 샘플 링 전략으로 Monte Carlo Dropout을 채택해 체계적인 수 렴분석을 수행했다. Dropout rate는 0.2를 적용했고, Differential entropy에 대해 10회부터 100회까지 (10회 간 격) 샘플 크기를 평가했다. 수렴성은 다음 세 가지 기준으 로 평가되었다.

통계적 수렴: 변동계수(CV) < 0.01
실용적 수렴: 연속 측정에서 변화율 < 5%
효율성 기준: 한계효용 < 1.1

<Figure 2>는 Monte Carlo 샘플 크기에 따른 엔트로피 메트릭의 수렴 거동을 보여준다. 체계적 수렴 분석 결과, Differential entropy는 90개 샘플에서 변동계수(CV) -0.00132로 통계적 수렴에 도달했다. 수렴 기준(CV < 0.01)에 따라, 본 연구에서 평가한 주요 엔트로피 메트릭 들에 대해 강건한 불확실성 정량화를 보장하기 위해서는 최소 90회의 Monte Carlo 샘플링이 충분함을 확인했다.

4.4 Transformer, ARIMAX, LSTM 성능비교

본 절에서는 Transformer를 기준선 시계열 모형인 ARIMAX 및 LSTM과 비교 평가하며, 요약 결과는 <Table 6>에 제시한다.

ARIMAX(ARIMA with eXogenous variables)는 10개의 파라미터로 구성된 비교적 간결한 모형임에도, 비정상성 과 비선형 동학을 충분히 설명하지 못해 MAE 7,127, MAPE 15.69%, R² 0.54의 기준선 수준 성능에 머물렀다.

동일한 입력 윈도우(14일)와 통일된 학습 설정 하에서, 7개 변수를 사용하는 LSTM은 총 파라미터 99,222,634개 로 구성되며 MAE 5,466.7, MAPE 14.69%, R² 0.74을 기 록하였다. 이는 ARIMAX(파라미터 10개)의 기준선 대비 예측 오차와 설명력이 크게 향상되었음을 보여주지만, 그 대가로 매우 큰 모형 용량이 요구된다.

반면, 동일 특성과 창 길이를 사용한 Transformer는 총 파라미터 1,938,026개 수준임에도 MAE 5,259.4, MAPE 13.10%, R² 0.75로 LSTM과 유사하거나 일부 지표에서 우위의 성능을 보였다. 즉, LSTM이 Transformer의 성능 수준에 도달하기 위해서는 9천만 개 이상에 달하는 대규 모 파라미터가 필요하지만, Transformer는 약 1.94백만 개의 비교적 작은 파라미터 예산으로 유사하거나 좀 더 나은 예측력을 확보한다.

요컨대, 본 비교는 파라미터 효율성 측면의 비대칭을 시사한다. LSTM은 장․단기 의존성과 변수 간 상관구조 를 충분히 포착하기 위해 대규모 용량이 요구되는 반면, Transformer는 멀티헤드 어텐션 기반의 표현 학습을 통해 훨씬 적은 파라미터로도 경쟁력 있는 성능을 달성한다.

4.5 Transformer 성능 평가와 한계

앞서 도출한 최적 특성 집합과 하이퍼파라미터를 고 정한 상태에서, 90회 Monte Carlo 샘플링을 결합한 Transformer 모델에 대한 종합 실험을 수행하였다. 실험 설계는 수렴 분석을 통해 확립된 체계적 샘플링 절차를 준용하여, 제안 접근법의 실용적 효과성을 검증하도록 구 성했다. 총 44 에포크에서 학습이 완료됐으며, 테스트 성능 과 학습 곡선은 아래 <Table 7>과 <Figure 3>, <Figure 4>에 제시한다.

제안 모델은 MAPE=13.10%로 양호한 점추정 정확도 를 확보하였고 결정계수는 R²=0.74으로 전반적 설명력도 높다.

<Figure 5>에 제시된 방향 일치도는 예측된 변화 방향 과 실제 변화 방향의 부호가 일치하는 관측의 비율로 정 의하며, 예측치와 실측치 모두 Day‑0 기준값 y₀ 대비 변 화량을 기준으로 산정했다. 전통적 일일 방향 지표가 인 접 일자 간 증감만을 평가하는 데 비해, 본 지표는 고정 기준점으로부터의 누적 변화 방향의 일관성을 측정함으 로써 단기 경로의 안정적 포착 능력을 반영한다.

<Table 8>의 변동성 품질 종합점수(Overall Volatility Quality Score)는 시계열 변동성 재현의 총체적 품질을 요 약한 지표로, 타이밍․상관․규모․극단값 포착의 네 구 성 요소를 가중 통합해 산출한다.

구체적인 산정 절차와 가중체계는 <Table 9>에 정리돼 있다. <Table 9-2>에서의 변동성 품질의 방향일치도 (Direction Agreement)는 연속된 샘플 간 변화의 부호 일 치율( $\nabla {\hat{y}}_{i}$ vs ∇y_i)을 측정하는 반면, <Figure 5>의 예측 방향 일치도는 기준 시점(Day 0) 대비 편차의 부호 일치 율(( ${\hat{y}}_{n}$ - y₀ ) vs (y_n - y₀))을 측정한다. 전자는 시계열 내 국지적 추세 일관성을, 후자는 고정 기준점 대비 전역적 방향 예측 능력을 평가한다.

<Figure 6>과 같이 제안 모델의 변동성 패턴 재현성은 전반전으로 양호한 수준을 나타낸다. 다만 변동성 품질 의 항목별 상세 <Table 8>이 시사하듯 고변동성 시점에 대한 예측 정밀도를 나타내는 Timing 점수와 급격한 변 동 상황 예측 능력을 나타내는 Extreme 점수가 낮아 개선 이 요구된다. 이는 단순 변동 패턴 재현을 넘어, 급격한 시장 국면 변화에 대한 적시적 대응 능력 강화를 위해 모델의 구조적 보완이 요구됨을 시사한다.

본 실험에서는 Transformer가 변동성 패턴은 재현하지 만 시점 정렬과 잡음 억제가 미흡해, 방향․규모․타이 밍 반영이 불안정한 한계를 확인했다. 이를 보완하기 위 해 예측 이후 후처리 단계에서 Kalman Filter를 적용키로 한다. 이는 상태공간 기반 최적 추정기로서 잡음 제거와 평활화, 관측․예측 결합을 통한 방향성 보정, 재귀적 업 데이트에 의한 시차 완화 등 효과를 제공하여 단기(5일) 고변동 환경에서 과도한 미시변동을 억제하고 의미 있는 추세변화를 더 안정적으로 반영할 수 있다.

한편, 본 연구에서 활용한 Monte Carlo Dropout 기반 불확실성 정량화는 예측 신뢰도를 평가하고 의사결정 리 스크를 관리하기 위한 수단으로, 모델의 한계를 보완하 는 직접적 성능 개선 기법이 아닌, 예측 결과의 해석 가능 성과 안정성을 높이는 보조적 장치로 이해하는 것이 적 절하다.

4.6 Kalman Filter로 강화한 Transformer 예측

본 절에서는 예측 시계열의 평활화와 시차 완화를 위 해 상태공간 기반 Kalman Filter를 후처리 단계에 결합하 고, 관찰구간 길이를 체계적으로 최적화했다. 평가지표는 MAE, MAPE, R²를 사용했으며, 관찰구간 k∈{1,…,30}에 대해 검증 세트 성능을 비교했다. 탐색 결과, 관찰구간 3 일이 세 지표 전반에서 우수한 균형을 보이며 최적 후보 로 선정됐다.

최적 관찰구간을 확정한 뒤, 동일한 학습․추론 조건 (선정된 입력 특성 및 하이퍼파라미터 고정, 테스트 시 Monte Carlo Dropout 90회 샘플 평균 적용)을 유지한 상 태에서 Kalman Filter 후처리를 결합한 모델을 평가하였 다. 이 구성은 기본 Transformer가 산출한 5일 지평 점추 정에 대해 3일 관측 정보를 결합하여 재귀적으로 상태를 갱신함으로써, 단기 잡음을 억제하고 방향성과 규모 정 보를 정합적으로 보정하는 것을 목표로 한다.

1차원 스칼라 Kalman Filter로 예측-업데이트 단계를 순차 수행한다. 칼만 이득을 통해 예측값과 측정값의 가 중평균으로 상태를 업데이트하며, 추정 오차는 점진적으 로 감소시킨다. 하이퍼파라미터는 프로세스 노이즈 분산 0.001, 측정 노이즈 분산 0.01로 설정하여 시간적 연속성 을 개별 측정값보다 10배 더 신뢰하도록 했다. 초기 추정 오차는 1.0으로 설정했다

<Table 9>은 Transformer 모델 예측값에 Kalman Filter 후처리를 적용한 뒤, 1~5일 예측일 별 정확도를 요약한 결과로, 전 지평에서 오차 감소와 설명력 향상을 확인한 다. 리드타임이 길어질수록 정확도가 점진적으로 저하되 는 전형적 패턴이 관찰되며(Day1: MAE 3,279.4, MAPE 8.1%, R² = 0.90 → Day5: MAE 5,957.1, MAPE 14.6%, R² = 0.70), 이는 단기에서 Kalman Filter의 노이즈 억제․ 스무딩 효과가 특히 강하게 발휘됨을 의미한다.

모델 간 성능 비교 결과 <Table 10>, 절대․상대 오차 지표인 MAE와 MAPE가 각각 17.75%, 19.08% 감소하여 점추정 정확도가 개선됐으며, R²가 0.74에서 0.83으로 약 12.16% 증가함으로써 관측 변동성에 대한 모형의 설명력 이 크게 증대됐다. 모델 간 예측일 별 MAE, MAPE, R² 비교 <Figure 8>을 통해서도 세 성능 지표 모두 확연히 개선되었음을 확인할 수 있다.

방향 일치도 <Figure 9>는 예측일 1-5일에 걸쳐 각각 9.7%, 18.0%, 14.0%, 9.4%, 6.1% 개선됐다.

모델 간 변동성 품질 종합점수 비교 <Figure 10>에서 는 모든 예측일에 대해 점수가 향상됐다. 변동성 품질의 항목별 상세 <Table 11>은 동일 기간에 대해 Total이 Day 1→Day 5에서 82.7%→72.3%로 완만히 낮아지는 가운데, 하위 지표 중 Timing과 Extreme이 각각 +30.6%, +70.2% 개선되어(Kalman Filter 적용 전 대비) 시점 정렬과 급변 구간 포착 능력이 보강되었음을 보여준다. 반대로 Magnitude는 -4.6%로 소폭 후퇴해 절대 규모 적합도는 일부 희생되는 trade‑off가 관찰된다.

<Figure 11>은 TD3C 실제값과 두 모델의 1일 후 예측 값을 시계열로 비교한 차트로서 Kalman Filter의 효과를 시각적으로 파악할 수 있다.

이상의 결과는 예측 단계 이후 결과값에 대해 상태공 간 기반의 후처리를 수행함으로써 얻어진 효과로 해석할 수 있다. 구체적으로, Transformer가 재현한 변동성 패턴 위에 Kalman Filter가 적용되면서 (1) 단기적 노이즈 요인 을 억제하고, (2) 관측치와 예측치의 동태적 결합을 통해 방향성과 크기 정보를 보정하며, (3) 재귀적 업데이트를 통해 피크와 저점의 시차를 완화하는 역할을 수행했다. 이로 인해 MAE․MAPE와 같은 오차 지표가 크게 감소 했고, R²도 크게 상승했다. 즉, 본 연구에서 관찰된 성능 개선은 Kalman Filter의 구조적 특성인 잡음 억제 및 평활 화(smoothing) 효과 덕분에 가능했던 것으로, 이는 모델 설계 변경 없이도 예측 시계열의 품질을 제고하는 실용 적 후처리의 장점을 보여준다.

5. 백테스트를 통한 경제적 효과 분석

5.1 현실 제약을 반영한 VLCC 운영 백테스트

백테스트(Backtest)는 과거 시장 데이터를 이용해 트레 이딩/투자 전략이 과거에 어떻게 성과를 냈을 지 시뮬레 이션을 통해 수익성과 리스크를 평가하는 과정이다[1]. 본 연구 시나리오의 대상은 국제 VLCC 운송시장에서 VLCC를 운영하는 국내 기업들의 선대이다. 선사 및 정 유사가 VLCC를 상업적으로 운영하는데, 일반적으로 직 접 소유하는 형태이거나 장기 용선을 통해 선박을 확보 하고, 자신의 화물을 운송하거나, 영업을 통해 국내외 용 선주에 선복을 제공한다. 아래는 2025년 10월 국내 상업 운영 VLCC 선대 현황이다[6].

해당 82척의 VLCC에 대한 백테스트 시나리오에 대한 환경설정은 <Table 13>에 제시됐다. 모든 선박은 운항주 기인 50일 마다 운임 시장에서 거래 윈도우 내에 주어진 예측정보를 토대로 최상의 TCE 날짜를 결정해야 한다. 이는 실시간 의사결정 업데이트 기능을 갖춘 동적 거래 시스템으로서 시장변화에 즉각 대응하는 복잡한 의사결 정을 추적하는데 목적이 있다. 주기 50일은 VLCC의 주 요 선적지인 중동과 하역지인 동아시아를 왕복 운항하는 패턴을 기준 삼았다. 비교 대상 전략은 Random Decision Model (이하 Random 전략), Historical Data Driven Model (이하 Historical Data 전략), Transformer Threshold Model (이하 Transformer 전략), Kalman Filter Threshold Model (이하 Kalman 전략), Actual TCE Model(Actual TCE 전 략)이다.

Random 전략은 첫 거래 가능일에 무작위로 거래일을 선택하고 이후 변경 없이 유지하는 기준 모델이다. 예측 이나 패턴 분석을 전혀 사용하지 않으며, 순수 확률적 선 택만으로 작동한다. 7일 거래 윈도우 내 5개 거래 가능일 중 하나를 랜덤하게 선택하므로, 다른 전략들의 성능을 평가하는 베이스라인 역할을 한다.

Historical Data 전략은 과거 5일 실제 데이터만을 사용 해 과거 가격 패턴을 이용한 모멘텀 접근법으로 최적 거 래 타이밍을 결정한다. 연속 상승 추세가 3일 이상 지속 되면 즉시 거래를 실행하고, 연속 하락 추세가 3일 이상 지속되면 반등 기대로 1-2일 거래를 연기한다. 혼재 패턴 인 경우, 최근 변동성 평가 후 고변동성 시 즉시 거래하 고, 저변동성 시 1일 연기한다. 매일 주중 거래일의 실제 데이터만을 사용하여 패턴을 분석하며, 미래 예측 정보 는 활용하지 않는 순수 기술적 분석 전략이다.

Transformer 전략은 매일 제공되는 Transformer 모델의 미래 5일 예측치를 활용하여 임계값 기반 동적 거래 전략 을 실행한다. 예측 1일차(Day1)와 전일 실제값(Day0)의 차이를 계산하여, 차이가 +$500 초과 시 추가 상승을 기 대하며 다음날로 연기하고, 0~$500 범위의 적당한 상승 시 즉시 거래를 실행한다. 하락 시나리오에서는 차이가 -$500 미만의 큰 하락 시 추가 하락 전 즉시 거래를 실행 하고, -$500~0 범위의 작은 하락 시 반등을 기대하며 다 음날로 연기한다. 매일 새로운 예측 정보를 받아 임계값 조건을 재평가하며 거래 계획을 동적으로 조정한다.

Kalman 전략은 Transformer 예측치에 Kalman 필터를 적용하여 정제된 예측값으로 Transformer와 동일한 임계 값 기반 전략을 실행한다. Kalman 예측의 Day1과 전일 실제값(Day0) 차이로 Transformer와 동일한 ±$500 임계 값 로직을 적용한다.

Actual TCE 전략은 완벽한 사후확인(perfect hindsight) 전략으로 상한선 성능을 측정하는 벤치마크 역할을 한다. 매일 미래 5일치 실제 TCE 데이터를 제공받아, 가용한 모든 거래일 중 실제 TCE가 가장 높은 날을 선택한다 (argmax). 예측이 아닌 실제 미래 데이터를 사용하므로 100% 최적일 일치율을 달성하며, 다른 예측 기반 전략들 이 도달할 수 있는 이론적 최대 성능을 나타낸다.

본 연구에서는 5개 거래 전략에 대한 백테스트 성과를 정량적으로 비교하기 위해, <Table 14>에 제시된 바와 같 이 총 손익, 승률, 샤프 비율, 최적 거래일 매칭 비율 등의 다차원적 평가 지표를 사용했다.

5.2 예측전략 별 성과 비교 및 의사결정 분석

해당 시뮬레이션에 30회 Montel Carlo 앙상블을 실행 한 결과는 <Table 15>와 같이 요약된다.

전체 선대 평균 손익 비교 <Figure 12>을 보면 Kalman 전략($108.8M)이 우수한 예측 성능으로 압도적인 수익을 보여준다. Transformer 전략($32.9M)은 양의 수익을, Historical Data(-$0.8M)는 미미한 손실을, Random($0.7M) 은 거의 0에 가까운 결과를 기록했다. 막대그래프에서 Kalman 전략은 Transformer 전략 대비 약 3.3배, Historical Data 전략 대비 약 145배 높은 수익을 명확히 드러내며, 오차막대(±$5.9M)도 상대적으로 작아 안정성을 보여준다. 특히 Kalman 전략의 68.6% Optimal Day Match Rate는 Transformer 전략(37.7%)의 1.8배로, Kalman 필터의 과거 트렌드 활용과 노이즈 제거 효과가 탁월한 예측 정확도로 이어짐을 입증한다.

승률 비교에서는 <Figure 13>이 보여주듯 Kalman전략 이 평균 88.9%로 가장 높은 값을 보였다. Transformer 전략 (60.5%)는 Random 전략(49.3%) 대비 11.2%p 높은 예측 적중률을 보였으며, Historical Data 전략(53.0%)는 Random을 소폭 상회했으나 실제 수익성은 음수로 나타났 다. 이는 Historical Data 전략이 연속 하락 시 반등을 기대 하며 거래를 연기하지만, 실제로는 추가 하락이 발생하여 손실이 확대되는 구조적 한계 때문이다. Actual TCE 전략 (98.0%)는 이론적 상한선으로, Kalman이 이에 90% 수준으 로 근접하여 Kalman 필터의 우수성을 증명한다. 결과적으 로 Kalman은 높은 승률과 함께 '승'일 때 큰 이익을, ‘패’일 때도 작은 손실만 기록하는 우수한 수익 구조를 보인다.

샤프 비율 측면에서 <Figure 14>은 Kalman 전략이 0.833으로 가장 우수한 위험 조정 수익률을 보인다는 점 을 보여준다. Transformer 전략의 샤프 비율은 0.240으로 양의 값을 유지하며, Historical Data 전략(-0.005)와 Random 전략(0.005)은 사실상 위험 대비 수익률이 0에 수렴한다. Actual TCE 전략(0.959)는 완벽한 정보를 활 용한 상한선으로, Kalman 전략이 이에 87% 수준까지 도 달했다는 점은 특기할 만하다. 따라서 Kalman 전략은 위험 대비 수익률 관점에서 독보적인 성과를 보이며, Transformer 전략 대비 3.5배 높은 샤프 비율로 전략 간 차이를 그래프 상에서도 명확히 드러낸다.

최적 거래일 매칭 비율은 각 전략이 7일 거래 윈도우 내에서 실제 최고 TCE인 날짜를 선택한 비율을 나타낸 다. <Figure 15>에서 Kalman 전략(68.6%)은 Transformer 전략(37.7%)의 1.8배, Historical Data 전략(34.6%)의 2.0 배에 달하는 정확도를 보인다. 이는 Kalman 필터가 과거 3일 실제값을 활용하여 시장 트렌드를 반영하고 Transformer 예측의 노이즈를 제거함으로써 최적 거래일 포착 능력이 크게 향상됐음을 의미한다. Random 전략 (19.6%)은 이론적 기대값 20%(5개 중 1개)에 근접하며, Actual TCE(86.9%) 전략은 완벽한 정보 활용의 상한선을 나타낸다. Kalman 전략의 68.6%는 Actual TCE 전략 대비 79% 수준으로, 예측 기반 전략으로서는 매우 높은 최적 일 포착률을 달성했다.

5.3 프레임워크 효과와 운영․정책적 시사점

본 프레임워크는 일일 예측 갱신과 임계값 기반 동적 거래 전략(±$500), 규칙 기반 집행(임계값 조건 충족 시 즉시 체결, 7일 강제 집행)을 결합해 스팟 의사결정의 일 관성과 손익 안정화를 도모한다. 특히 ‘Kalman 기반 예측 모델(Kalman Threshold Model)’이 ‘순수 예측 모델 (Transformer Threshold Model)’과 ‘과거 관측 기반 인간 의사결정(Historical Data Driven Decision Model)’ 대비 총 손익, 승률, 샤프 비율, 최적 거래일 매칭 비율 등 전 지표에서 압도적 우위를 보였으며, 이는 표․그림 자료 를 통해 정량적으로 확인된다. 이러한 결과는 Kalman Filter의 과거 트렌드 활용(과거 3일 실제값 연결)과 예측 노이즈 제거 효과가 최적 거래일 포착 능력을 근본적으 로 향상시켜 실제 거래 성과로 직결된다는 점을 시사한 다. 특히 Kalman 전략의 68.6% 최적 거래일 매칭 비율은 완벽한 정보를 가진 Actual TCE(86.9%)의 79% 수준으로, 예측 기반 전략으로서는 이론적 상한선에 매우 근접한 수준이다.

운영․정책적 관점에서, Kalman 필터 기반 예측을 표 준화하여 과거 실제 데이터와 예측값을 체계적으로 결합 함으로써 단기 예측 노이즈를 억제하고 시장 모멘텀을 반영한 의사결정을 가능하게 해야 한다. ±$500 임계값을 적용하여 ‘큰 상승 예상 시 연기’, ‘작은 상승 시 즉시 거 래’, ‘큰 하락 시 즉시 거래’, ‘작은 하락 시 반등 대기’ 전략을 병행함으로써 지연 리스크와 기회 비용을 균형있 게 관리할 수 있다.

더불어 예측 결과와 FFA 헤지, 톤마일 배분, 창구(선 적․하역) 선택 규칙을 연계하면 포트폴리오 차원의 손 익 분산을 낮추고 현금흐름 안정성을 제고할 수 있다. 현 장 대시보드에는 Kalman 예측 신뢰구간, 최적 거래일 매 칭 비율 실시간 추적, 임계값 기반 의사결정 변경 이력과 성과의 연동 지표를 포함하여, ‘언제․왜’ 계획을 수정했 는지 투명하게 추적 가능하도록 설계하는 것이 바람직하 다. 특히 Kalman 필터가 활용하는 과거 3일 실제값은 이 미 공개된 정보이므로 실전 적용 시 데이터 제약이 없으 며, 90회 Monte Carlo 앙상블 평균으로 예측 안정성이 확 보되어 즉시 현업 적용이 가능하다.

6. 결 론

이 연구는 Transformer 기반 단기 예측, MC Dropout을 통한 예측 불확실성 정량화, Kalman 필터 기반 평활화, 규칙 기반 집행 전략을 결합한 통합 의사결정 프레임워 크가 VLCC 스팟 시장에서 성과와 안정성을 함께 향상시 킬 수 있음을 실증적으로 입증했다. 실제 테스트 구간에 서 본 모델은 근지평 운임 방향성과 변동성 재현 능력에 서 우수한 결과를 보였으며, Monte Carlo 백테스트 시 집 행 규칙과 동적 재검토가 결합될 경우 승률과 위험조정 수익률, 극단포착 등 다양한 퍼포먼스 지표가 체계적으 로 개선됨을 확인할 수 있었다.

그러나 본 프레임워크의 한계로는 고변동성 또는 돌발 이벤트 구간에서 타이밍 민감도가 상대적으로 제한되고, 실제 운영 조건인 거래비용, 스케줄, 정책적 제약 등이 단 순화된 환경 가정 하에 분석되었다는 점이 지적된다. 이 에 따라 향후 연구에서는 시장 이벤트 및 레짐 변화를 실시간으로 인지․반영하는 타이밍․극단 대응 로직 고 도화, 동적 포트폴리오 최적화 및 현실적인 스케줄․비 용․정책 요소를 반영한 복합 운영제약 통합, 나아가 운 임지수파생상품(FFA)3)과 같은 해상 운임 파생시장과 연 계한 중장기 예측, 불확실성 기반 리스크 헤지 의사결정 지원 등으로의 확장 방안을 제시한다.

Acknowledgement

This study has been partially supported by a Research Fund of Seoul Line Corporation, Korea.

Figure

<Figure 1>.

Transformer Model Architecture

<Figure 2>.

Monte Carlo Differential Entropy Convergence Analysis

<Figure 3>.

Learning Curve of Transformer Model

<Figure 4>.

Day 1 Prediction of Transformer Model

<Figure 5>.

Direction Agreement of Transformer Model

<Figure 6>.

Overall Volatility Quality Score of Transformer Model

<Figure 7>.

Top 10 Lookback Periods Performance Heatmap (%)

<Figure 8>.

Prediction Performance Comparison

<Figure 9>.

Direction Agreement Comparison

<Figure 10>.

Overall Volatility Quality Total Score Comparison

<Figure 11>.

Time Series Comparison: Transformer vs Kalman (Day 1)

<Figure 12>.

Total Fleet Profit & Loss Comparison (Monte Carlo Mean ± Std)

<Figure 13>.

Win Rate Comparison (Montel Carlo Mean ± Std)

<Figure 14>.

Sharpe Ratio Comparison (Monte Carlo Mean ± Std)

<Figure 15>.

Optimal Day Match Rate Comparison (Monte Carlo Mean ± Std)

Table

<Table 1>.

Feature List

Feature	Description
td3c_tce_t-1	Predictor variable (1 day lag)
wti	WTI crude oil price
brent	BRENT crude oil price
oman	OMAN crude oil price
hsfo_spore	Singapore HSFO price
lsfo_spore	Singapore LSFO price
margin_dubai_singapore	Brent–Rotterdam refining margin
Feature	Description
margin_brent_rotterdam	Dubai–Singapore refining margin
margin_wti_usg	WTI–USG refining margin
crude_export_global	Global seaborne crude oil exports
crude_export_meg	MEG seaborne crude oil exports
crude_export_waf	WAF seaborne crude oil exports
crude_export_usg	USG seaborne crude oil exports
ton_miles_dirty_vlcc_world_total	Global VLCC ton-miles
ton_miles_dirty_vlcc_meg_total	MEG VLCC ton-miles
ton_miles_dirty_vlcc_waf_total	WAF VLCC ton-miles
ton_miles_dirty_vlcc_usg_total	USG VLCC ton-miles
idle_vlcc_count_global	Global count of idle VLCC
floating_storage_vlcc_count_global	Global count of VLCCs used as Floating Storage
drydock_vlcc_count_global	Global count of VLCCs in drydock
laden_vlcc_count_global	Global count of laden VLCC
laden_vlcc_speed_global	Global average speed of laden VLCCs
ballast_vlcc_count_global	Global count of ballast VLCCs
ballast_vlcc_speed_global	Global average speed of ballast VLCCs
ballast_vlcc_count_srilank_fujairah	Count of ballast VLCCs on Sri Lanka–Fujairah zones
ballast_vlcc_speed_srilank_fujairah	Average speed of ballast VLCCs on Sri Lanka–Fujairah zones
ballast_vlcc_count_far_east_singapore	Count of ballast VLCCs on Far East–Singapore zones
ballast_vlcc_speed_far_east_singapore	Average speed of ballast VLCCs on Far East–Singapore zones
ballast_vlcc_count_westbound	Count of westbound ballast VLCCs
ballast_vlcc_speed_westbound	Average speed of westbound ballast VLCCs
port_congestion_china	VLCC count within Chinese ports
port_congestion_east_asia	VLCC count within East Asian ports
crude_inventory_global	Global crude oil inventories
crude_inventory_usa	U.S. crude oil inventories
crude_inventory_china	China crude oil inventories
crude_inventory_east_asia	East Asia crude oil inventories

<Table 2>.

Feature Correlations Top 20 rank Table

Feature	Correlation
td3c_tce_t-1	0.99
ballast_vlcc_speed_worldwide	0.63
ballast_vlcc_speed_from_sri_lanka_to_fujairah	0.55
ballasting_vlcc_speed_from_far_east_to_singapore	0.53
ton_miles_dirty_vlcc_world	0.48
westbound_ballasting_vlcc_speed	0.48
laden_vlcc_speed_worldwide	0.46
hsfo_spore	-0.43
wti	-0.39
crude_export_daily_dirty_vlcc_global	0.37
lsfo_spore	-0.37
brent	-0.37
oman	-0.37
ton_miles_daily_dirty_vlcc_meg	0.36
ballast_vlcc_count_from_srilanka_to_fujairah	-0.35
crude_export_daily_dirty_vlcc_meg	0.31
laden_vlcc_count_worldwide	0.26
ballast_vlcc_count_worldwide	-0.25
ballasting_vlcc_count_from_feast_to_singapore	-0.21
ton_miles_daily_dirty_vlcc_waf	0.17

<Table 3>.

Dataset Partitioning

Subset	Period	No. of Sample	Proportion
Training	2004-02-01~2023-06-07	3,413	80%
Validation	2023-06-08~2024-08-07	427	10%
Test	2024-08-08~2025-10-08	427	10%
Total	2004-02-01~2025-10-08	4,267	100%

<Table 4>.

Experimental Setup

Item	Detail
framework	PyTorch
optimization algorithm	Adam W
learning rate scheduler	ReduceLRnPlateau
loss function	HuberLoss (delta=0.1)
early stop	patience=10
max epoch	100
batch size	32

<Table 5>.

Selected Features & Hyperparameters

<Table 6>.

Hyperparameter and Performance Comparison of ARIMAX, LSTM, and Transformer

Parameter	ARIMAX	LSTM	Transformer
Features	3 variables	7 variables	7 variables
No. of Parameter	10	99,222,634	1,938,026
Architecture	Order: (3,1,3)	Hidden: 1152 layers:6	d_moel:128 layers:9
Input window	Autoregressive	14	14
Learning rate	Maximum Likehood	0.000253	0.000253
Batch	-	32	32
Dropout	-	0.2	0.2
Monte Carlo Dropout runs	-	90	90
MAE	7127	5466.7	5259.4
MAPE	15.69%	14.31%	13.10%
R?	0.54	0.74	0.75

<Table 7>.

Performance of Transformer Model

	MAE	MAPE	R²
Day 1	3978.23	10.09%	0.86
Day 2	4519.91	11.28%	0.81
Day 3	45210.90	12.88%	0.75
Day 4	6441.32	15.88%	0.67
Day 5	6546.80	16.22%	0.61
Average	5259.4	13.10%	0.74

<Table 8>.

Overall Volatility Quality Score by Subset of Transformer Model

	Total	Timing	Correlation	Magnitude	Extreme
Day 1	75.90%	61.90%	89.20%	99.50%	58.50%
Day 2	71.70%	54.50%	87.50%	99.90%	48.80%
Day 3	68.20%	48.90%	82.70%	98.90%	47.60%
Day 4	65.00%	44.60%	77.10%	99.20%	43.90%
Day 5	60.90%	39.30%	72.70%	97.70%	39.00%

<Table 9>.

Performance of Transformer Model (Kalman)

	MAE	MAPE	R²
Day 1	3279.4	8.1%	0.90
Day 2	3225.3	7.8%	0.92
Day 3	4094.4	10.0%	0.87
Day 4	5074.2	12.4%	0.79
Day 5	5957.1	14.6%	0.70
Average	4326.1	10.6%	0.83

<Table 9-1>.

Overall Volatility Quality Score Calculation Method

Component	Calculation Method
Total	Weighted average of 6 components × 100 (Vol 25%+Dir 25%+Extreme 15%+Stability15%+Similarity+Corr 10%)
Timing	(Direction Agreement + Volatility Stability) / 2 x 100
Correlation	(Correlation Quality + Distribution Similarity) / 2 x 100
Magnitude	Volatility Ratio × 100
Extreme	Extreme Capture Rate ×100

<Table 9-2>.

Individual Component Calculation

Component	Formula	Range
Volatility Ratio	min(prediction volume, actual volume) / max(prediction volume, actual volume)	0~1
Direction Agreement	mean(sign(prediction changes) == sign(actual changes))	0~1
Extreme Capture Rate	Prediction correct at extreme values / Total extreme values	0~1
Distribution Similarity	1.0 / (1.0 + KL divergence)	0~1
Correlation Quality	abs(correlation coefficient)	0~1
Vol Stability	1.0 - mean(abs(prediction rolling volume ? actual rolling volume)) / mean(actual rolling volume)	0~1

<Table 10>.

Prediction Performance Comparison Summary

Performance	Before	After	Improvement
MAE	5259.4	4326.1	17.75%
MAPE	13.10%	10.6%	19.08%
R2	0.74	0.83	12.16%

<Table 11>.

Overall Volatility Quality Score of Transformer Model (Kalman)

	Total	Timing	Correlation	Magnitude	Extreme
Day 1	77.5%	68.4%	95.3%	95.2%	84.1%
Day 2	77.5%	68.4%	96.5%	93.7%	82.9%
Day 3	75.4%	65.9%	94.6%	93.9%	81.7%
Day 4	70.3%	63.2%	90.8%	94.7%	79.3%
Day 5	65.2%	57.1%	86.5%	95.0%	76.8%
Change	+7.1%	+30.6%	+13.3%	-4.6%	+70.2%

<Table 12>.

Current Status of Korean Commercial VLCC Fleet

Rank	Company	Industry	No. of VLCC
1	Sinokor	shipping	46
2	SK Energy	refinery	11
3	GS Caltex	refinery	10
4	HD Hyundai Oilbank	refinery	7
5	HMM	shipping	5
6	S-Oil	refinery	3
	Total Korean Fleet		82 (9.2%)
	World		890

<Table 13>.

Backtest Scenario Configuration

Environment	Description
Total fleet size	82 vessels
Operating cycle	50 days
Simulation horizon	1 year (2024-10-01 to 2025-09-30)
Total number of trades	598 trades (82 vessels × 7.3 cycles)
Trading window	7 days
Decision cadence	Weekdays within the trading window
Initial trade	Establish a forecast-based plan on the first eligible trading day
Random Decision	Pure random selection among available trading days No pattern or prediction analysis Serves as baseline performance benchmark
Historical Data Driven Model	Analyzes past 5-day actual TCE patterns Detects consecutive trends (≥3 days required) Decision Logic: - Consecutive uptrend → Trade immediately (momentum strategy) - Consecutive downtrend → Delay 1-2 days (reversal strategy) - Mixed pattern → Analyze volatility
Transformer Threshold Model	Uses Transformer model predictions (90-run Monte Carlo average) Threshold-based decision: ±$500 Logic: Compare Day1 prediction vs Day0 actual - Change > $500 → Delay (expect further rise) - 0 < Change ≤ $500 → Trade now (moderate rise) - Change < -$500 → Trade now (sell before further drop) - -$500 ≤ Change < 0 → Delay (wait for rebound)
Kalman Filter Threshold Model	Uses Kalman-filtered predictions Strategy Logic: Same ±$500 threshold as Transformer
Actual TCE Model	Perfect hindsight strategy (upper bound) Receives 5-day actual TCE values daily (complete future knowledge) Selects day with highest actual TCE (argmax) Updates selection daily as new actual data becomes available Achieves 100% optimal day match rate

<Table 14>.

Backtest Scenarios Evaluation

Evaluation	Description
Baseline	Average TCE on weekdays within the trading window
Daily edge	TCE on the final selected day minus the average TCE over the trading window
Metrics	Total P&L: Daily edge × 50 days (operating cycle)
Win rate: Proportion of trades with positive returns
Sharpe ratio: Mean return ÷ return volatility
Optimal Day Match Rate	percentage of trades where the strategy selected the day with the highest actual TCE within the trading window

<Table 15>.

Backtest Simulation Result Summary

Strategies	Total P&L	Win rate	Sharpe ratio	Optimal Day Match Rate
Random	$745,472	49.3%	0.005	19.6%
Historical Data	-$751,539	53.0%	-0.005	34.6%
Transformer	$32,902,984	60.5%	0.240	37.7%
Kalman	$108,490,584	88.9%	0.833	68.6%
Actual TCE	$119,597,104	98.0%	0.959	86.9%

Reference

Bailey, D.H., Borwein, J., López de Prado, M., and Zhu, Q.J., The probability of backtest overfitting, Journal of Computational Finance, 2014, Vol. 20, No. 4, pp. 39-69.
Box, G.E., Jenkins, G.M., Reinsel, G.C., and Ljung, G.M., Time series analysis: Forecasting and control, 5th ed. Hoboken, USA: John Wiley & Sons, 2015.
Gal, Y. and Ghahramani, Z., Dropout as a Bayesian approximation: Representing model uncertainty in deep learning, Proceedings of the 33^rd International Conference on Machine Learning, 2016, PMLR 48:1050-1059.
Hao, Z., Zhang, X., and Liu, Y., Improving long-term multivariate time series forecasting by decomposing trend and seasonal components, Scientific Reports, 2024, Vol. 14, No. 1, pp. 1-14.
Kalman, R.E., A new approach to linear filtering and prediction problems, Journal of Basic Engineering, 1960, Vol. 82, No. 1, pp. 35-45.
Slowspace, Tanker Fleet Study (Aug 2025). 2025. Retrieved Aug 18, 2025, from Slowspace.io
The Baltic Exchange, TD3C–TCE calculation process. 2017. Retrieved Aug 18, 2025, from The Baltic Exchange.
Vaswani, A., Shazeer, N., Parmar, N., et al., Attention is all you need. Advances in Neural Information Processing Systems (NIPS), 2017, Vol. 30.
Zhang, G.P., Time series forecasting using a hybrid ARIMA and neural network model, Neurocomputing, 2003, Vol. 50, pp. 159-175.