2025-11-20T12:34:13.863172

CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting

Yao, Zhao, Zheng et al.
Recent advances in deep forecasting models have achieved remarkable performance, yet most approaches still struggle to provide both accurate predictions and interpretable insights into temporal dynamics. This paper proposes CaReTS, a novel multi-task learning framework that combines classification and regression tasks for multi-step time series forecasting problems. The framework adopts a dual-stream architecture, where a classification branch learns the stepwise trend into the future, while a regression branch estimates the corresponding deviations from the latest observation of the target variable. The dual-stream design provides more interpretable predictions by disentangling macro-level trends from micro-level deviations in the target variable. To enable effective learning in output prediction, deviation estimation, and trend classification, we design a multi-task loss with uncertainty-aware weighting to adaptively balance the contribution of each task. Furthermore, four variants (CaReTS1--4) are instantiated under this framework to incorporate mainstream temporal modelling encoders, including convolutional neural networks (CNNs), long short-term memory networks (LSTMs), and Transformers. Experiments on real-world datasets demonstrate that CaReTS outperforms state-of-the-art (SOTA) algorithms in forecasting accuracy, while achieving higher trend classification performance.
academic

CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting

基本信息

  • 论文ID: 2511.09789
  • 标题: CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting
  • 作者: Fulong Yao (Cardiff University), Wanqing Zhao (Newcastle University), Chao Zheng (Newcastle University), Xiaofei Han (University of Leeds)
  • 分类: cs.LG (Machine Learning)
  • 发表时间: 2025年11月12日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2511.09789

摘要

深度学习在时间序列预测领域取得了显著进展,但现有方法在提供准确预测的同时,往往难以提供对时间动态的可解释性洞察。本文提出CaReTS,一个结合分类和回归任务的多任务学习框架,用于多步时间序列预测。该框架采用双流架构:分类分支学习未来的逐步趋势,回归分支估计相对于最新观测值的偏差。这种设计通过解耦宏观趋势和微观偏差提供更可解释的预测。为实现有效学习,设计了基于不确定性感知的多任务损失函数来自适应平衡各任务贡献。论文实例化了四个变体(CaReTS1-4),结合主流时间建模编码器(CNN、LSTM、Transformer)。实验表明CaReTS在预测准确性和趋势分类性能上均超越现有最先进算法。

研究背景与动机

1. 要解决的问题

时间序列预测是能源管理、金融分析、医疗监测和气候建模等领域的基础问题。多步预测尤其关键,但面临两大挑战:

  • 准确性下降:随着预测时域增加,预测精度通常递减
  • 可解释性不足:在高风险场景中,模型缺乏透明度降低了信任度

2. 问题的重要性

多步预测对于捕获系统的短期和长期时间动态至关重要,能够支持知情决策。然而,现有深度学习模型虽然在准确性上有所提升,但在解释性方面仍存在显著不足,限制了其在实际应用中的可靠性。

3. 现有方法的局限性

  • 单一回归范式:大多数深度预测模型将预测建模为单一回归任务,仅关注数值预测
  • 趋势与偏差耦合:难以解耦宏观趋势(如上升/下降轨迹)和微观偏差
  • 缺乏显式趋势建模:虽然Autoformer、FEDformer等模型引入了分解机制,但主要在输入或表示层操作,未在输出层显式分离趋势和幅度

4. 研究动机

本文的核心洞察是:将时间序列预测分解为趋势分类(方向)和偏差回归(幅度)两个互补任务,可以同时提升预测准确性和可解释性。这种输出层面的解耦提供了新的多任务学习视角。

核心贡献

  1. 双流架构设计:提出CaReTS框架,采用双流架构,分类分支预测逐步宏观趋势,回归分支估计相对于最新观测值的细粒度偏差
  2. 不确定性感知多任务学习:设计了基于不确定性的多任务损失函数,通过自适应加权联合优化分类和回归任务,避免手动调参
  3. 框架通用性:实例化四个变体(CaReTS1-4),可与主流时间编码器(CNN、LSTM、Transformer)配合使用,展示了框架的广泛兼容性
  4. 性能提升与可解释性增强:在真实数据集上实现了最先进的预测准确性,同时趋势分类准确率超过91%,计算开销可控

方法详解

任务定义

输入:时间序列 x={x1,x2,,xn}\mathbf{x} = \{x_1, x_2, \ldots, x_n\},其中 xnx_n 为目标变量的最新观测值
输出:未来K步预测 y^={y^1,y^2,,y^K}\hat{\mathbf{y}} = \{\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_K\}
核心思想:将每步预测分解为趋势方向 d(k)d^{(k)} 和偏差幅度 δ(k)\delta^{(k)}

模型架构

1. 两种双流架构

架构(a):并行双流

  • 时间编码器(CNN/LSTM/Transformer)提取时间特征
  • 特征并行输入两个独立的全连接流:
    • 分类流:预测逐步趋势(上升/下降)
    • 回归流:估计相对于 xnx_n 的偏差
  • 残差融合y^(k)=xn+融合(d(k),δ(k))\hat{y}^{(k)} = x_n + \text{融合}(d^{(k)}, \delta^{(k)})

架构(b):顺序双流

  • 先通过分类流推断趋势
  • 将分类输出与原始时间特征拼接
  • 输入回归流进行偏差估计
  • 直接融合:y^(k)=xn+δ^(k)\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}

2. 四个模型变体

模型架构趋势表示偏差表示融合方式
CaReTS1(a)二元标签 d^(k){+1,1}\hat{d}^{(k)} \in \{+1,-1\}单一非负偏差 δ^(k)\hat{\delta}^{(k)}y^(k)=xn+d^(k)δ^(k)\hat{y}^{(k)} = x_n + \hat{d}^{(k)} \cdot \hat{\delta}^{(k)}
CaReTS2(a)二元标签 d^(k){+1,1}\hat{d}^{(k)} \in \{+1,-1\}方向特定偏差 (δ^up(k),δ^down(k))(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})根据趋势选择对应偏差
CaReTS3(a)概率 (pup(k),pdown(k))(p^{(k)}_{up}, p^{(k)}_{down})方向特定偏差 (δ^up(k),δ^down(k))(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})y^(k)=xn+pup(k)δ^up(k)pdown(k)δ^down(k)\hat{y}^{(k)} = x_n + p^{(k)}_{up}\hat{\delta}^{(k)}_{up} - p^{(k)}_{down}\hat{\delta}^{(k)}_{down}
CaReTS4(b)概率 p(k)p^{(k)}有符号偏差 δ^(k)\hat{\delta}^{(k)}y^(k)=xn+δ^(k)\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}

多任务损失函数

架构(a)的损失函数

L(a)=αcaLca+αdeLde+αopLopL^{(a)} = \alpha_{ca}L_{ca} + \alpha_{de}L_{de} + \alpha_{op}L_{op}

其中:

  • LcaL_{ca}:趋势分类损失(二元交叉熵或分类交叉熵)
  • LdeL_{de}:偏差估计损失(MSE)
  • LopL_{op}:输出预测损失(MSE)

架构(b)的损失函数

L(b)=αcaLca+αopLopL^{(b)} = \alpha_{ca}L_{ca} + \alpha_{op}L_{op}

不确定性感知权重

核心创新:将任务权重建模为可学习参数,基于预测不确定性自适应调整:

αi=12σi2,i{ca,de,op}\alpha_i = \frac{1}{2\sigma_i^2}, \quad i \in \{ca, de, op\}

实现上通过对数方差 logσi2\log \sigma_i^2 作为可学习参数,最终损失为:

L(a)=i{ca,de,op}(12elogσi2Li+12logσi2)L^{(a)} = \sum_{i \in \{ca,de,op\}} \left(\frac{1}{2}e^{-\log \sigma_i^2}L_i + \frac{1}{2}\log \sigma_i^2\right)

稳定化策略

  1. 软正则化:对对数方差参数添加惩罚项
  2. 值域限制:将 logσi2\log \sigma_i^2 限制在 [10,10][-10, 10] 范围内

技术创新点

  1. 输出层解耦:不同于Autoformer等在输入层分解,CaReTS在输出层显式分离趋势和偏差,提供更直接的可解释性
  2. 软融合机制(CaReTS3):通过概率加权融合两个方向的偏差,在趋势不确定时实现平滑过渡
  3. 自适应任务平衡:基于不确定性的权重学习避免了手动调参,使模型自动关注更可靠的任务
  4. 渐进复杂度设计:从CaReTS1到CaReTS4,逐步增加建模能力,系统性探索设计空间

实验设置

数据集

两个真实世界时间序列预测任务:

  1. 电价预测:8,784小时观测(一年)
  2. 进出口电力需求预测(未满足电力):8,784小时观测

预测设置:15-to-6方案

  • 输入:当前时间步的月份、星期、小时 + 过去12步目标变量观测
  • 输出:未来6步目标变量预测

数据划分

  • 训练集:6,048点
  • 测试集:2,736点
  • 评估方法:10折交叉验证

评价指标

  1. RMSE(均方根误差):衡量预测准确性
  2. 趋势分类准确率:衡量趋势方向预测的正确性

对比方法

基线方法(3个设计基线):

  • Baseline1:传统编码器-解码器架构
  • Baseline2:移除残差连接的简化版本
  • Baseline3:用单个FC层替换融合模块

SOTA算法(10个):

  • Transformer系列:Autoformer, FEDformer, Non-stationary Transformer, Informer
  • 混合模型:TimesNet, TimeXer, D-CNN-LSTM
  • 轻量级模型:DLinear, NLinear, TimeMixer
  • 模糊神经网络:SOIT2FNN-MO

实现细节

  • 平台:Google Colab with T4 GPU
  • 编码器:2层,64隐藏单元
    • CNN:卷积核大小3,padding 1
    • Transformer:4个注意力头
  • 分类/回归分支:2层FC,64隐藏单元
  • 优化器:Adam,学习率0.001
  • 批大小:64
  • 训练轮数:最多600轮,早停策略(50轮无改善)
  • 激活函数:ReLU
  • 归一化:Min-Max归一化

实验结果

主要结果

1. 架构评估(表2)

未满足电力预测(测试集RMSE)

  • 最佳:CaReTS2-Transformer (0.0691 ± 0.0018)
  • 次佳:CaReTS3-CNN (0.0692 ± 0.0010)
  • 所有CaReTS2-4变体均优于基线

电价预测(测试集RMSE)

  • 最佳:CaReTS2-Transformer (0.0465 ± 0.0012)
  • CaReTS1-4在所有编码器配置下均优于基线(除CaReTS1-LSTM)

关键发现

  • CaReTS2表现最稳定,在6种配置中4次最佳,2次次佳
  • Transformer编码器通常优于CNN和LSTM
  • CaReTS1因偏差分支简化,优势不明显

2. 趋势分类性能(表3)

所有变体均达到90%以上准确率:

  • 未满足电力:CaReTS2-Transformer最高 (0.9192 ± 0.0022)
  • 电价:CaReTS2-Transformer最高 (0.9146 ± 0.0019)

跨步分析(图5):

  • 趋势分类准确率在6步预测中保持稳定,甚至略有提升
  • 与RMSE递增形成对比,展示了框架在长期预测中维持趋势一致性的鲁棒性

消融实验

多任务 vs 单任务学习(表4)

以Transformer编码器为例:

未满足电力

  • CaReTS2多任务:RMSE 0.0691,趋势准确率 0.9192
  • CaReTS2单任务:RMSE 0.0704,趋势准确率 0.9060
  • 改进:RMSE降低1.8%,趋势准确率提升1.3%

电价

  • CaReTS1多任务:RMSE 0.0473,趋势准确率 0.9142
  • CaReTS1单任务:RMSE 0.0539,趋势准确率 0.8663
  • 改进:RMSE降低12.2%,趋势准确率提升5.5%

计算开销

  • 额外参数仅为3个任务权重标量
  • 运行时间增加可忽略(253-401秒 vs 216-386秒)

SOTA对比(表5)

未满足电力

  • CaReTS2:RMSE 0.0691,趋势准确率 0.9192
  • TimeXer(次佳SOTA):RMSE 0.0700,趋势准确率 0.9066
  • 优势:RMSE降低1.3%,趋势准确率提升1.4%

电价

  • CaReTS2:RMSE 0.0465,趋势准确率 0.9146
  • TimeXer(最佳SOTA):RMSE 0.0463,趋势准确率 0.9013
  • 优势:虽然RMSE略高0.4%,但趋势准确率高1.5%

效率对比

  • CaReTS运行时间:200-400秒
  • 轻量级模型(DLinear/NLinear):<70秒
  • 重型模型(Autoformer/TimeXer):>460秒
  • 结论:CaReTS在准确性和效率间取得良好平衡

扩展实验(附录A.6)

在15-4和15-8预测设置下:

  • CaReTS2始终位列RMSE和趋势准确率前三
  • 验证了框架在不同预测时域下的稳定性

实验发现

  1. 趋势稳定性:趋势分类准确率不随预测步数增加而下降,展示了宏观趋势建模的鲁棒性
  2. 互补学习:多任务学习促进了互补学习而非任务干扰,联合优化优于单任务
  3. 编码器兼容性:框架与不同编码器良好兼容,Transformer通常表现最佳
  4. 方向特定建模:CaReTS2的方向特定偏差设计捕获了非对称动态,优于单一偏差(CaReTS1)
  5. 软融合优势:CaReTS3的概率加权在趋势不确定时提供平滑过渡

相关工作

1. 深度时间序列预测

  • CNN方法:提取局部时空模式
  • RNN方法:LSTM、GRU捕获序列依赖
  • Transformer方法
    • Informer:ProbSparse注意力
    • Autoformer:季节-趋势分解 + 自相关注意力
    • FEDformer:频域滤波
    • PatchTST:基于patch的嵌入
    • iTransformer:倒置建模轴关注变量依赖

2. 分解与可解释性

  • 线性分解:DLinear、NLinear通过简单趋势-季节分解取得竞争性结果
  • Transformer分解:ETSformer、Autoformer、FEDformer在输入/表示层建模组件
  • 本文区别:输出层解耦,直接分离预测目标的趋势和偏差

3. 多任务与模块化架构

  • TimeXer:区分内生和外生信号
  • TimesNet:多周期模块捕获不同时间尺度
  • 轻量级MLP:TimeMixer、LightTS、TSMixer
  • 本文创新:输出层双流框架,基于不确定性的自适应任务平衡

结论与讨论

主要结论

  1. CaReTS通过双流架构成功解耦了趋势分类和偏差估计,同时提升了预测准确性和可解释性
  2. 基于不确定性的多任务学习机制有效平衡了三个任务的贡献,避免了手动调参
  3. 四个变体展示了框架的灵活性,CaReTS2-Transformer组合表现最佳
  4. 在真实数据集上达到或超越SOTA性能,趋势分类准确率超过91%,计算开销可控

局限性

  1. 长期预测验证不足:受GPU资源限制,主要在6步预测上评估,未充分验证超长期预测能力
  2. 数据集多样性:仅在两个电力相关数据集上测试,缺乏跨领域验证(如金融、医疗)
  3. 编码器创新有限:采用标准编码器,未探索定制化时间特征提取器
  4. 二元趋势简化:仅建模上升/下降,未考虑平稳趋势或更细粒度的趋势分类
  5. 可解释性量化缺失:虽然声称提升可解释性,但缺乏用户研究或可解释性指标的定量评估

未来方向

  1. 长期预测扩展:在更大计算资源下验证超长期(如100+步)预测能力
  2. 跨领域验证:在金融、医疗、气候等多样化领域测试框架泛化能力
  3. 多级趋势分类:扩展为多类别趋势(如强上升、弱上升、平稳等)
  4. 定制编码器:探索针对趋势-偏差分解优化的特征提取器
  5. 可解释性研究:进行用户研究,量化评估可解释性提升

深度评价

优点

  1. 创新的问题分解:将时间序列预测分解为趋势分类和偏差回归是直观且有效的,提供了新的建模视角
  2. 理论基础扎实:不确定性感知的多任务学习有坚实的理论支撑(Kendall et al., 2018),实现细节完善
  3. 系统性设计探索:四个变体从简单到复杂逐步演进,清晰展示了设计空间
  4. 实验严谨充分
    • 10折交叉验证提供可靠估计
    • 对比10个SOTA算法
    • 消融实验验证各组件贡献
    • 跨步分析揭示趋势稳定性
  5. 可复现性强:提供匿名代码,实现细节详尽
  6. 写作清晰:结构合理,图表丰富,技术描述准确

不足

  1. 可解释性评估不足
    • 缺乏可视化案例展示趋势-偏差分解如何帮助理解
    • 未进行用户研究验证可解释性提升
    • 可解释性主要停留在概念层面
  2. 数据集局限
    • 仅两个相关领域数据集
    • 样本量相对较小(8784点)
    • 缺乏多变量时间序列验证
  3. 长期预测验证缺失
    • 主要在6步预测上评估
    • 虽然图5显示趋势稳定性,但未实际测试更长时域
    • 限制了对长期预测能力的判断
  4. 计算开销分析粗糙
    • 仅报告总运行时间
    • 缺乏详细的时间和内存复杂度分析
    • 未分析不同组件的计算瓶颈
  5. 基线设计疑问
    • 三个设计基线可能不够有力
    • 缺乏与其他多任务学习方法的对比
  6. 趋势定义简化
    • 二元趋势(上升/下降)可能过于粗糙
    • 未考虑平稳状态或趋势强度

影响力

  1. 学术贡献
    • 提供了输出层分解的新视角
    • 不确定性感知多任务学习在时间序列预测中的应用
    • 可能启发更多趋势-幅度分离的研究
  2. 实用价值
    • 在电力预测等应用中展示了实用性
    • 趋势分类提供了决策辅助信息
    • 计算开销可控,适合实际部署
  3. 可复现性
    • 提供代码(虽然匿名)
    • 实现细节完整
    • 便于后续研究复现和扩展
  4. 局限性影响
    • 数据集和长期预测的局限可能限制影响力
    • 需要更多跨领域验证才能广泛应用

适用场景

适合的场景

  1. 短中期预测任务(6-8步):框架在此范围内验证充分
  2. 需要趋势解释的应用:如金融决策、能源调度,趋势方向比精确数值更重要
  3. 单变量或低维时间序列:当前实验设置为单变量
  4. 数据量中等的场景:训练样本约6000点

不太适合的场景

  1. 超长期预测(>10步):缺乏验证,效果未知
  2. 高维多变量时间序列:未在多变量设置下充分测试
  3. 实时预测:计算时间200-400秒可能不满足实时需求
  4. 趋势不明显的平稳序列:趋势分类可能无显著优势

参考文献

论文引用的关键文献

  1. Kendall et al. (2018): Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR. 不确定性加权的理论基础
  2. Vaswani et al. (2017): Attention is all you need. NeurIPS. Transformer架构
  3. Zhou et al. (2021): Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI. ProbSparse注意力
  4. Wu et al. (2021): Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS. 季节-趋势分解
  5. Zhou et al. (2022): FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML. 频域分解
  6. Liu et al. (2023): iTransformer: Inverted transformers are effective for time series forecasting. arXiv. 倒置建模
  7. Zeng et al. (2023): Are transformers effective for time series forecasting? AAAI. DLinear/NLinear简单基线
  8. Wang et al. (2024c): TimeXer: Empowering transformers for time series forecasting with exogenous variables. NeurIPS. 外生变量建模

总体评价:这是一篇设计精巧、实验扎实的时间序列预测论文。核心创新——输出层趋势-偏差分解——简单但有效,不确定性感知的多任务学习实现优雅。实验结果证明了方法的有效性,在准确性和可解释性上均有提升。主要不足在于可解释性评估不够深入、数据集多样性有限、长期预测验证缺失。建议后续工作在更多领域和更长时域上验证,并通过用户研究量化可解释性提升。总体而言,这是一项有价值的贡献,为时间序列预测提供了新的建模范式。