2025-11-20T12:34:13.863172

CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting

Yao, Zhao, Zheng et al.

Recent advances in deep forecasting models have achieved remarkable performance, yet most approaches still struggle to provide both accurate predictions and interpretable insights into temporal dynamics. This paper proposes CaReTS, a novel multi-task learning framework that combines classification and regression tasks for multi-step time series forecasting problems. The framework adopts a dual-stream architecture, where a classification branch learns the stepwise trend into the future, while a regression branch estimates the corresponding deviations from the latest observation of the target variable. The dual-stream design provides more interpretable predictions by disentangling macro-level trends from micro-level deviations in the target variable. To enable effective learning in output prediction, deviation estimation, and trend classification, we design a multi-task loss with uncertainty-aware weighting to adaptively balance the contribution of each task. Furthermore, four variants (CaReTS1--4) are instantiated under this framework to incorporate mainstream temporal modelling encoders, including convolutional neural networks (CNNs), long short-term memory networks (LSTMs), and Transformers. Experiments on real-world datasets demonstrate that CaReTS outperforms state-of-the-art (SOTA) algorithms in forecasting accuracy, while achieving higher trend classification performance.

academic

CaReTS: 시계열 예측을 위한 분류와 회귀를 통합하는 다중 작업 프레임워크

기본 정보

논문 ID: 2511.09789
제목: CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting
저자: Fulong Yao (Cardiff University), Wanqing Zhao (Newcastle University), Chao Zheng (Newcastle University), Xiaofei Han (University of Leeds)
분류: cs.LG (기계학습)
발표 시간: 2025년 11월 12일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2511.09789

초록

심층학습은 시계열 예측 분야에서 상당한 진전을 이루었으나, 기존 방법들은 정확한 예측을 제공하면서도 시간 동역학에 대한 해석 가능성 있는 통찰력을 제공하기 어려운 경향이 있습니다. 본 논문은 다중 단계 시계열 예측을 위해 분류 및 회귀 작업을 결합하는 다중 작업 학습 프레임워크인 CaReTS를 제안합니다. 이 프레임워크는 이중 스트림 아키텍처를 채택합니다: 분류 분기는 미래의 단계별 추세를 학습하고, 회귀 분기는 최신 관측값에 상대적인 편차를 추정합니다. 이러한 설계는 거시적 추세와 미시적 편차를 분리함으로써 더욱 해석 가능한 예측을 제공합니다. 효과적인 학습을 위해 불확실성 인식 기반의 다중 작업 손실 함수를 설계하여 각 작업의 기여도를 자동으로 균형 맞춥니다. 논문은 주류 시간 모델링 인코더(CNN, LSTM, Transformer)와 결합한 네 가지 변형(CaReTS1-4)을 제시합니다. 실험 결과 CaReTS는 예측 정확성과 추세 분류 성능 모두에서 기존 최첨단 알고리즘을 능가합니다.

연구 배경 및 동기

1. 해결해야 할 문제

시계열 예측은 에너지 관리, 금융 분석, 의료 모니터링 및 기후 모델링 등 여러 분야의 기초 문제입니다. 다중 단계 예측은 특히 중요하지만 두 가지 주요 과제에 직면합니다:

정확성 저하: 예측 시간 범위가 증가함에 따라 예측 정확도가 일반적으로 감소합니다
해석 가능성 부족: 고위험 시나리오에서 모델의 투명성 부족으로 신뢰도가 감소합니다

2. 문제의 중요성

다중 단계 예측은 시스템의 단기 및 장기 시간 동역학을 포착하는 데 필수적이며, 정보에 입각한 의사결정을 지원할 수 있습니다. 그러나 기존 심층학습 모델은 정확성 측면에서 개선되었지만 해석 가능성 측면에서는 여전히 상당한 부족함이 있어 실제 응용에서의 신뢰성을 제한합니다.

3. 기존 방법의 한계

단일 회귀 패러다임: 대부분의 심층 예측 모델은 예측을 단일 회귀 작업으로 모델링하며, 수치 예측에만 초점을 맞춥니다
추세와 편차의 결합: 거시적 추세(예: 상승/하강 궤적)와 미시적 편차를 분리하기 어렵습니다
명시적 추세 모델링 부족: Autoformer, FEDformer 등의 모델이 분해 메커니즘을 도입했지만, 주로 입력 또는 표현 계층에서 작동하며 출력 계층에서 추세와 진폭을 명시적으로 분리하지 않습니다

4. 연구 동기

본 논문의 핵심 통찰력은 시계열 예측을 추세 분류(방향)와 편차 회귀(진폭)의 두 가지 상호 보완적 작업으로 분해하면 예측 정확성과 해석 가능성을 동시에 향상시킬 수 있다는 것입니다. 이러한 출력 계층 수준의 분리는 다중 작업 학습에 대한 새로운 관점을 제공합니다.

핵심 기여

이중 스트림 아키텍처 설계: 분류 분기가 단계별 거시적 추세를 예측하고 회귀 분기가 최신 관측값에 상대적인 세분화된 편차를 추정하는 이중 스트림 아키텍처를 채택한 CaReTS 프레임워크를 제안합니다
불확실성 인식 다중 작업 학습: 불확실성 기반의 다중 작업 손실 함수를 설계하여 분류 및 회귀 작업을 자동으로 가중치 부여하여 최적화하며, 수동 매개변수 조정을 피합니다
프레임워크 범용성: 네 가지 변형(CaReTS1-4)을 제시하며, 주류 시간 인코더(CNN, LSTM, Transformer)와 함께 사용할 수 있어 광범위한 호환성을 보여줍니다
성능 향상 및 해석 가능성 증대: 실제 데이터셋에서 최첨단 예측 정확성을 달성하면서 추세 분류 정확도가 91%를 초과하며 계산 오버헤드는 제어 가능합니다

방법 상세 설명

작업 정의

입력: 시계열 $\mathbf{x} = \{x_1, x_2, \ldots, x_n\}$ , 여기서 $x_n$ 은 목표 변수의 최신 관측값입니다
출력: 미래 K 단계 예측 $\hat{\mathbf{y}} = \{\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_K\}$
핵심 개념: 각 단계 예측을 추세 방향 $d^{(k)}$ 과 편차 진폭 $\delta^{(k)}$ 으로 분해합니다

모델 아키텍처

1. 두 가지 이중 스트림 아키텍처

아키텍처(a): 병렬 이중 스트림

시간 인코더(CNN/LSTM/Transformer)가 시간 특징을 추출합니다
특징이 두 개의 독립적인 완전 연결 스트림에 병렬로 입력됩니다:
- 분류 스트림: 단계별 추세 예측(상승/하강)
- 회귀 스트림: $x_n$ 에 상대적인 편차 추정
잔차 융합: $\hat{y}^{(k)} = x_n + \text{fusion}(d^{(k)}, \delta^{(k)})$

아키텍처(b): 순차 이중 스트림

먼저 분류 스트림을 통해 추세를 추론합니다
분류 출력을 원본 시간 특징과 연결합니다
회귀 스트림에 입력하여 편차를 추정합니다
직접 융합: $\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}$

2. 네 가지 모델 변형

모델	아키텍처	추세 표현	편차 표현	융합 방식
CaReTS1	(a)	이진 레이블 $\hat{d}^{(k)} \in \{+1,-1\}$	단일 비음수 편차 $\hat{\delta}^{(k)}$	$\hat{y}^{(k)} = x_n + \hat{d}^{(k)} \cdot \hat{\delta}^{(k)}$
CaReTS2	(a)	이진 레이블 $\hat{d}^{(k)} \in \{+1,-1\}$	방향별 편차 $(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})$	추세에 따라 해당 편차 선택
CaReTS3	(a)	확률 $(p^{(k)}_{up}, p^{(k)}_{down})$	방향별 편차 $(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})$	$\hat{y}^{(k)} = x_n + p^{(k)}_{up}\hat{\delta}^{(k)}_{up} - p^{(k)}_{down}\hat{\delta}^{(k)}_{down}$
CaReTS4	(b)	확률 $p^{(k)}$	부호 있는 편차 $\hat{\delta}^{(k)}$	$\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}$

다중 작업 손실 함수

아키텍처(a)의 손실 함수

$L^{(a)} = \alpha_{ca}L_{ca} + \alpha_{de}L_{de} + \alpha_{op}L_{op}$

여기서:

$L_{ca}$ : 추세 분류 손실(이진 교차 엔트로피 또는 분류 교차 엔트로피)
$L_{de}$ : 편차 추정 손실(MSE)
$L_{op}$ : 출력 예측 손실(MSE)

아키텍처(b)의 손실 함수

$L^{(b)} = \alpha_{ca}L_{ca} + \alpha_{op}L_{op}$

불확실성 인식 가중치

핵심 혁신: 작업 가중치를 학습 가능한 매개변수로 모델링하여 예측 불확실성에 따라 자동으로 조정합니다:

$\alpha_i = \frac{1}{2\sigma_i^2}, \quad i \in \{ca, de, op\}$

구현에서 로그 분산 $\log \sigma_i^2$ 을 학습 가능한 매개변수로 사용하며, 최종 손실은:

$L^{(a)} = \sum_{i \in \{ca,de,op\}} \left(\frac{1}{2}e^{-\log \sigma_i^2}L_i + \frac{1}{2}\log \sigma_i^2\right)$

안정화 전략:

소프트 정규화: 로그 분산 매개변수에 페널티 항 추가
값 범위 제한: $\log \sigma_i^2$ 을 $[-10, 10]$ 범위로 제한

기술 혁신 포인트

출력 계층 분리: Autoformer 등과 달리 입력 계층에서 분해하는 것이 아니라 CaReTS는 출력 계층에서 추세와 편차를 명시적으로 분리하여 더 직접적인 해석 가능성을 제공합니다
소프트 융합 메커니즘(CaReTS3): 확률 가중치를 통해 두 방향의 편차를 융합하여 추세가 불확실할 때 부드러운 전환을 실현합니다
자동 작업 균형: 불확실성 기반 가중치 학습으로 수동 조정을 피하고 모델이 더 신뢰할 수 있는 작업에 자동으로 집중하도록 합니다
점진적 복잡도 설계: CaReTS1에서 CaReTS4로 진행하면서 모델링 능력을 단계적으로 증가시켜 설계 공간을 체계적으로 탐색합니다

실험 설정

데이터셋

두 가지 실제 시계열 예측 작업:

전기 가격 예측: 8,784시간 관측(1년)
전력 수급 불일치 예측: 8,784시간 관측

예측 설정: 15-to-6 방식

입력: 현재 시간 단계의 월, 요일, 시간 + 과거 12단계 목표 변수 관측
출력: 미래 6단계 목표 변수 예측

데이터 분할:

훈련 세트: 6,048개 포인트
테스트 세트: 2,736개 포인트
평가 방법: 10겹 교차 검증

평가 지표

RMSE(제곱 평균 제곱근 오차): 예측 정확성 측정
추세 분류 정확도: 추세 방향 예측의 정확성 측정

비교 방법

기준선 방법(3가지 설계 기준선):

Baseline1: 전통적인 인코더-디코더 아키텍처
Baseline2: 잔차 연결을 제거한 단순화 버전
Baseline3: 융합 모듈을 단일 FC 계층으로 대체

최첨단 알고리즘(10가지):

Transformer 계열: Autoformer, FEDformer, Non-stationary Transformer, Informer
하이브리드 모델: TimesNet, TimeXer, D-CNN-LSTM
경량 모델: DLinear, NLinear, TimeMixer
퍼지 신경망: SOIT2FNN-MO

구현 세부사항

플랫폼: Google Colab with T4 GPU
인코더: 2계층, 64 숨겨진 단위
- CNN: 컨볼루션 커널 크기 3, 패딩 1
- Transformer: 4개 주의 헤드
분류/회귀 분기: 2계층 FC, 64 숨겨진 단위
최적화기: Adam, 학습률 0.001
배치 크기: 64
훈련 에포크: 최대 600, 조기 중단 전략(50 에포크 개선 없음)
활성화 함수: ReLU
정규화: Min-Max 정규화

실험 결과

주요 결과

1. 아키텍처 평가(표2)

전력 수급 불일치 예측(테스트 세트 RMSE):

최고: CaReTS2-Transformer (0.0691 ± 0.0018)
차선: CaReTS3-CNN (0.0692 ± 0.0010)
모든 CaReTS2-4 변형이 기준선을 능가합니다

전기 가격 예측(테스트 세트 RMSE):

최고: CaReTS2-Transformer (0.0465 ± 0.0012)
CaReTS1-4가 모든 인코더 구성에서 기준선을 능가합니다(CaReTS1-LSTM 제외)

주요 발견:

CaReTS2는 가장 안정적인 성능을 보이며, 6가지 구성 중 4번 최고, 2번 차선입니다
Transformer 인코더는 일반적으로 CNN과 LSTM보다 우수합니다
CaReTS1은 편차 분기 단순화로 인해 명확한 이점이 없습니다

2. 추세 분류 성능(표3)

모든 변형이 90% 이상 정확도를 달성합니다:

전력 수급 불일치: CaReTS2-Transformer 최고 (0.9192 ± 0.0022)
전기 가격: CaReTS2-Transformer 최고 (0.9146 ± 0.0019)

단계별 분석(그림5):

추세 분류 정확도는 6단계 예측 전반에 걸쳐 안정적으로 유지되며, 심지어 약간 증가합니다
RMSE 증가와 대조적으로, 장기 예측에서 추세 일관성을 유지하는 프레임워크의 견고성을 보여줍니다

소거 실험

다중 작업 vs 단일 작업 학습(표4)

Transformer 인코더를 예로 들면:

전력 수급 불일치:

CaReTS2 다중 작업: RMSE 0.0691, 추세 정확도 0.9192
CaReTS2 단일 작업: RMSE 0.0704, 추세 정확도 0.9060
개선: RMSE 1.8% 감소, 추세 정확도 1.3% 향상

전기 가격:

CaReTS1 다중 작업: RMSE 0.0473, 추세 정확도 0.9142
CaReTS1 단일 작업: RMSE 0.0539, 추세 정확도 0.8663
개선: RMSE 12.2% 감소, 추세 정확도 5.5% 향상

계산 오버헤드:

추가 매개변수는 3개 작업 가중치 스칼라만 해당
실행 시간 증가는 무시할 수 있습니다(253-401초 vs 216-386초)

최첨단 비교(표5)

전력 수급 불일치:

CaReTS2: RMSE 0.0691, 추세 정확도 0.9192
TimeXer(차선 최첨단): RMSE 0.0700, 추세 정확도 0.9066
이점: RMSE 1.3% 감소, 추세 정확도 1.4% 향상

전기 가격:

CaReTS2: RMSE 0.0465, 추세 정확도 0.9146
TimeXer(최고 최첨단): RMSE 0.0463, 추세 정확도 0.9013
이점: RMSE는 0.4% 높지만 추세 정확도는 1.5% 높습니다

효율성 비교:

CaReTS 실행 시간: 200-400초
경량 모델(DLinear/NLinear): <70초
무거운 모델(Autoformer/TimeXer): >460초
결론: CaReTS는 정확성과 효율성 사이에서 좋은 균형을 이룹니다

확장 실험(부록 A.6)

15-4 및 15-8 예측 설정에서:

CaReTS2는 항상 RMSE 및 추세 정확도 상위 3위 내에 있습니다
다양한 예측 시간 범위에서 프레임워크의 안정성을 검증합니다

실험 발견

추세 안정성: 추세 분류 정확도는 예측 단계 수 증가에 따라 감소하지 않으며, 거시적 추세 모델링의 견고성을 보여줍니다
상호 보완적 학습: 다중 작업 학습은 작업 간섭이 아닌 상호 보완적 학습을 촉진하며, 결합 최적화가 단일 작업보다 우수합니다
인코더 호환성: 프레임워크는 다양한 인코더와 잘 호환되며, Transformer는 일반적으로 최고의 성능을 보입니다
방향별 모델링: CaReTS2의 방향별 편차 설계는 비대칭 동역학을 포착하여 단일 편차(CaReTS1)보다 우수합니다
소프트 융합 이점: CaReTS3의 확률 가중치는 추세가 불확실할 때 부드러운 전환을 제공합니다

결론 및 토론

주요 결론

CaReTS는 이중 스트림 아키텍처를 통해 추세 분류와 편차 추정을 성공적으로 분리하여 예측 정확성과 해석 가능성을 동시에 향상시킵니다
불확실성 기반 다중 작업 학습 메커니즘은 세 가지 작업의 기여도를 효과적으로 균형 맞추며, 수동 조정을 피합니다
네 가지 변형은 프레임워크의 유연성을 보여주며, CaReTS2-Transformer 조합이 최고의 성능을 보입니다
실제 데이터셋에서 최첨단 성능을 달성하거나 초과하며, 추세 분류 정확도가 91%를 초과하고 계산 오버헤드는 제어 가능합니다

한계

장기 예측 검증 부족: GPU 리소스 제한으로 주로 6단계 예측에서 평가되며, 초장기 예측 능력을 충분히 검증하지 못했습니다
데이터셋 다양성: 두 개의 전력 관련 데이터셋에서만 테스트되었으며, 교차 영역 검증이 부족합니다(금융, 의료 등)
인코더 혁신 제한: 표준 인코더를 사용하며, 맞춤형 시간 특징 추출기를 탐색하지 않았습니다
이진 추세 단순화: 상승/하강만 모델링하며, 평탄 추세 또는 더 세분화된 추세 분류를 고려하지 않았습니다
해석 가능성 정량화 부족: 해석 가능성 향상을 주장하지만, 사용자 연구나 해석 가능성 지표의 정량적 평가가 부족합니다

향후 방향

장기 예측 확장: 더 큰 계산 리소스에서 초장기(예: 100+ 단계) 예측 능력 검증
교차 영역 검증: 금융, 의료, 기후 등 다양한 영역에서 프레임워크 일반화 능력 테스트
다중 수준 추세 분류: 강한 상승, 약한 상승, 평탄 등으로 확장
맞춤형 인코더: 추세-편차 분해에 최적화된 특징 추출기 탐색
해석 가능성 연구: 사용자 연구 수행, 해석 가능성 향상을 정량적으로 평가

심층 평가

장점

혁신적인 문제 분해: 시계열 예측을 추세 분류와 편차 회귀로 분해하는 것은 직관적이고 효과적이며, 새로운 모델링 관점을 제공합니다
견고한 이론적 기초: 불확실성 인식 다중 작업 학습은 견고한 이론적 지원(Kendall et al., 2018)을 가지며, 구현 세부사항이 완전합니다
체계적인 설계 탐색: 네 가지 변형이 단순에서 복잡으로 점진적으로 진화하여 설계 공간을 명확하게 보여줍니다
엄격하고 충분한 실험:
- 10겹 교차 검증으로 신뢰할 수 있는 추정
- 10개 최첨단 알고리즘과 비교
- 소거 실험으로 각 구성 요소의 기여도 검증
- 단계별 분석으로 추세 안정성 공개
강한 재현성: 익명 코드 제공, 구현 세부사항 상세
명확한 작성: 합리적인 구조, 풍부한 그림, 정확한 기술 설명

부족한 점

해석 가능성 평가 부족:
- 추세-편차 분해가 이해를 돕는 방식을 보여주는 시각화 사례 부족
- 사용자 연구 미실시로 해석 가능성 향상 검증 불가
- 해석 가능성이 주로 개념 수준에 머물러 있습니다
데이터셋 제한:
- 관련 분야의 두 데이터셋만 사용
- 샘플 크기 상대적으로 작음(8784개 포인트)
- 다변량 시계열 검증 부족
장기 예측 검증 부재:
- 주로 6단계 예측에서 평가
- 그림5가 추세 안정성을 보여주지만 더 긴 시간 범위에서 실제 테스트하지 않음
- 장기 예측 능력 판단 제한
계산 오버헤드 분석 미흡:
- 총 실행 시간만 보고
- 상세한 시간 및 메모리 복잡도 분석 부족
- 다양한 구성 요소의 계산 병목 분석 미흡
기준선 설계 의문:
- 세 가지 설계 기준선이 충분하지 않을 수 있음
- 다른 다중 작업 학습 방법과의 비교 부족
추세 정의 단순화:
- 이진 추세(상승/하강)가 너무 거칠 수 있음
- 평탄 상태 또는 추세 강도를 고려하지 않음

영향력

학술적 기여:
- 출력 계층 분해의 새로운 관점 제공
- 불확실성 인식 다중 작업 학습의 시계열 예측 응용
- 추세-진폭 분리 연구에 영감을 줄 수 있음
실용적 가치:
- 전력 예측 등 응용에서 실용성 입증
- 추세 분류가 의사결정 보조 정보 제공
- 계산 오버헤드 제어 가능하여 실제 배포에 적합
재현성:
- 코드 제공(익명)
- 구현 세부사항 완전
- 후속 연구 복제 및 확장 용이
한계의 영향:
- 데이터셋 및 장기 예측의 한계가 영향력을 제한할 수 있음
- 광범위한 응용을 위해 더 많은 교차 영역 검증 필요

적용 가능한 시나리오

적합한 시나리오:

단기-중기 예측 작업(6-8단계): 프레임워크가 이 범위에서 충분히 검증됨
추세 설명이 필요한 응용: 금융 의사결정, 에너지 조정 등 추세 방향이 정확한 수치보다 중요
단변량 또는 저차원 시계열: 현재 실험 설정이 단변량
중간 규모 데이터: 훈련 샘플 약 6000개

부적합한 시나리오:

초장기 예측(>10단계): 검증 부족, 효과 미지수
고차원 다변량 시계열: 다변량 설정에서 충분히 테스트되지 않음
실시간 예측: 200-400초 계산 시간이 실시간 요구사항을 충족하지 못할 수 있음
추세가 명확하지 않은 평탄 수열: 추세 분류가 명확한 이점을 제공하지 못할 수 있음

참고문헌

논문에서 인용한 주요 문헌

Kendall et al. (2018): Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR. 불확실성 가중치의 이론적 기초
Vaswani et al. (2017): Attention is all you need. NeurIPS. Transformer 아키텍처
Zhou et al. (2021): Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI. ProbSparse 주의
Wu et al. (2021): Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS. 계절-추세 분해
Zhou et al. (2022): FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML. 주파수 영역 분해
Liu et al. (2023): iTransformer: Inverted transformers are effective for time series forecasting. arXiv. 역전된 모델링
Zeng et al. (2023): Are transformers effective for time series forecasting? AAAI. DLinear/NLinear 단순 기준선
Wang et al. (2024c): TimeXer: Empowering transformers for time series forecasting with exogenous variables. NeurIPS. 외생 변수 모델링

종합 평가: 이것은 설계가 정교하고 실험이 견고한 시계열 예측 논문입니다. 핵심 혁신인 출력 계층 추세-편차 분해는 단순하지만 효과적이며, 불확실성 인식 다중 작업 학습 구현은 우아합니다. 실험 결과는 정확성과 해석 가능성 모두에서 방법의 효과성을 입증합니다. 주요 부족한 점은 해석 가능성 평가가 충분하지 않고, 데이터셋 다양성이 제한적이며, 장기 예측 검증이 부족하다는 것입니다. 후속 연구에서는 더 많은 영역과 더 긴 시간 범위에서 검증하고 사용자 연구를 통해 해석 가능성 향상을 정량화할 것을 권장합니다. 전반적으로 이것은 시계열 예측에 새로운 모델링 패러다임을 제공하는 가치 있는 기여입니다.