2025-11-20T12:34:13.863172

CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting

Yao, Zhao, Zheng et al.
Recent advances in deep forecasting models have achieved remarkable performance, yet most approaches still struggle to provide both accurate predictions and interpretable insights into temporal dynamics. This paper proposes CaReTS, a novel multi-task learning framework that combines classification and regression tasks for multi-step time series forecasting problems. The framework adopts a dual-stream architecture, where a classification branch learns the stepwise trend into the future, while a regression branch estimates the corresponding deviations from the latest observation of the target variable. The dual-stream design provides more interpretable predictions by disentangling macro-level trends from micro-level deviations in the target variable. To enable effective learning in output prediction, deviation estimation, and trend classification, we design a multi-task loss with uncertainty-aware weighting to adaptively balance the contribution of each task. Furthermore, four variants (CaReTS1--4) are instantiated under this framework to incorporate mainstream temporal modelling encoders, including convolutional neural networks (CNNs), long short-term memory networks (LSTMs), and Transformers. Experiments on real-world datasets demonstrate that CaReTS outperforms state-of-the-art (SOTA) algorithms in forecasting accuracy, while achieving higher trend classification performance.
academic

CaReTS: Единая многозадачная архитектура классификации и регрессии для прогнозирования временных рядов

Основная информация

  • ID статьи: 2511.09789
  • Название: CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting
  • Авторы: Fulong Yao (Cardiff University), Wanqing Zhao (Newcastle University), Chao Zheng (Newcastle University), Xiaofei Han (University of Leeds)
  • Категория: cs.LG (Машинное обучение)
  • Дата публикации: 12 ноября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2511.09789

Аннотация

Глубокое обучение достигло значительных успехов в прогнозировании временных рядов, однако существующие методы часто испытывают трудности с обеспечением интерпретируемости динамики временных рядов при предоставлении точных прогнозов. В данной работе предлагается CaReTS — многозадачная архитектура обучения, объединяющая задачи классификации и регрессии для многошагового прогнозирования временных рядов. Архитектура использует двухпоточный дизайн: ветвь классификации изучает пошаговые тренды будущего, ветвь регрессии оценивает отклонения относительно последнего наблюдения. Такой дизайн обеспечивает более интерпретируемые прогнозы путём разделения макротренда и микроотклонений. Для эффективного обучения разработана функция многозадачных потерь, основанная на неопределённости, для адаптивного балансирования вклада каждой задачи. Статья представляет четыре варианта (CaReTS1-4), интегрирующие основные кодировщики временных рядов (CNN, LSTM, Transformer). Экспериментальные результаты демонстрируют, что CaReTS превосходит современные методы как по точности прогнозирования, так и по производительности классификации трендов.

Исследовательский контекст и мотивация

1. Решаемая проблема

Прогнозирование временных рядов является фундаментальной задачей в управлении энергией, финансовом анализе, медицинском мониторинге и климатическом моделировании. Многошаговое прогнозирование особенно критично, но сталкивается с двумя основными вызовами:

  • Снижение точности: с увеличением горизонта прогнозирования точность обычно снижается
  • Недостаточная интерпретируемость: в высокорисковых сценариях отсутствие прозрачности модели снижает доверие

2. Значимость проблемы

Многошаговое прогнозирование критично для захвата краткосрочной и долгосрочной динамики системы, что поддерживает принятие обоснованных решений. Однако, несмотря на повышение точности глубокого обучения, существует значительный дефицит в интерпретируемости, ограничивающий надёжность в практических приложениях.

3. Ограничения существующих методов

  • Единая парадигма регрессии: большинство глубоких моделей прогнозирования моделируют предсказание как единую задачу регрессии, сосредоточиваясь только на числовом прогнозировании
  • Связанность тренда и отклонения: сложность разделения макротренда (например, восходящей/нисходящей траектории) и микроотклонений
  • Отсутствие явного моделирования тренда: хотя модели типа Autoformer и FEDformer вводят механизмы декомпозиции, они в основном работают на входном или представительном уровне, не разделяя явно тренд и амплитуду на выходном уровне

4. Исследовательская мотивация

Ключевое понимание данной работы заключается в том, что разложение прогнозирования временных рядов на классификацию тренда (направление) и регрессию отклонения (амплитуда) как две дополняющие друг друга задачи может одновременно повысить точность прогнозирования и интерпретируемость. Такое разделение на уровне выхода предоставляет новую перспективу многозадачного обучения.

Основные вклады

  1. Дизайн двухпоточной архитектуры: предложена архитектура CaReTS с двухпоточным дизайном, где ветвь классификации предсказывает пошаговые макротренды, а ветвь регрессии оценивает мелкозернистые отклонения относительно последнего наблюдения
  2. Многозадачное обучение с учётом неопределённости: разработана функция многозадачных потерь, основанная на неопределённости, которая адаптивно взвешивает и совместно оптимизирует задачи классификации и регрессии, избегая ручной настройки параметров
  3. Универсальность архитектуры: реализованы четыре варианта (CaReTS1-4), совместимые с основными кодировщиками временных рядов (CNN, LSTM, Transformer), демонстрирующие широкую применимость архитектуры
  4. Повышение производительности и интерпретируемости: достигнута передовая точность прогнозирования на реальных наборах данных с точностью классификации тренда выше 91% при контролируемых вычислительных затратах

Подробное описание метода

Определение задачи

Вход: временной ряд x={x1,x2,,xn}\mathbf{x} = \{x_1, x_2, \ldots, x_n\}, где xnx_n — последнее наблюдение целевой переменной
Выход: прогноз на K шагов вперёд y^={y^1,y^2,,y^K}\hat{\mathbf{y}} = \{\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_K\}
Основная идея: разложение каждого шага прогноза на направление тренда d(k)d^{(k)} и амплитуду отклонения δ(k)\delta^{(k)}

Архитектура модели

1. Два варианта двухпоточной архитектуры

Архитектура (a): параллельные потоки

  • Кодировщик временных рядов (CNN/LSTM/Transformer) извлекает временные признаки
  • Признаки параллельно подаются в два независимых полносвязных потока:
    • Поток классификации: предсказывает пошаговые тренды (восходящий/нисходящий)
    • Поток регрессии: оценивает отклонение относительно xnx_n
  • Слияние с остатком: y^(k)=xn+слияние(d(k),δ(k))\hat{y}^{(k)} = x_n + \text{слияние}(d^{(k)}, \delta^{(k)})

Архитектура (b): последовательные потоки

  • Сначала вывод через поток классификации для определения тренда
  • Конкатенация выхода классификации с исходными временными признаками
  • Подача в поток регрессии для оценки отклонения
  • Прямое слияние: y^(k)=xn+δ^(k)\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}

2. Четыре варианта модели

МодельАрхитектураПредставление трендаПредставление отклоненияСпособ слияния
CaReTS1(a)Бинарная метка d^(k){+1,1}\hat{d}^{(k)} \in \{+1,-1\}Единое неотрицательное отклонение δ^(k)\hat{\delta}^{(k)}y^(k)=xn+d^(k)δ^(k)\hat{y}^{(k)} = x_n + \hat{d}^{(k)} \cdot \hat{\delta}^{(k)}
CaReTS2(a)Бинарная метка d^(k){+1,1}\hat{d}^{(k)} \in \{+1,-1\}Зависящие от направления отклонения (δ^up(k),δ^down(k))(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})Выбор отклонения в зависимости от тренда
CaReTS3(a)Вероятность (pup(k),pdown(k))(p^{(k)}_{up}, p^{(k)}_{down})Зависящие от направления отклонения (δ^up(k),δ^down(k))(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})y^(k)=xn+pup(k)δ^up(k)pdown(k)δ^down(k)\hat{y}^{(k)} = x_n + p^{(k)}_{up}\hat{\delta}^{(k)}_{up} - p^{(k)}_{down}\hat{\delta}^{(k)}_{down}
CaReTS4(b)Вероятность p(k)p^{(k)}Знаковое отклонение δ^(k)\hat{\delta}^{(k)}y^(k)=xn+δ^(k)\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}

Функция многозадачных потерь

Функция потерь для архитектуры (a)

L(a)=αcaLca+αdeLde+αopLopL^{(a)} = \alpha_{ca}L_{ca} + \alpha_{de}L_{de} + \alpha_{op}L_{op}

где:

  • LcaL_{ca}: потери классификации тренда (бинарная кроссэнтропия или кроссэнтропия)
  • LdeL_{de}: потери оценки отклонения (MSE)
  • LopL_{op}: потери выходного прогноза (MSE)

Функция потерь для архитектуры (b)

L(b)=αcaLca+αopLopL^{(b)} = \alpha_{ca}L_{ca} + \alpha_{op}L_{op}

Веса с учётом неопределённости

Ключевое нововведение: моделирование весов задач как обучаемых параметров, адаптивно настраиваемых на основе неопределённости прогноза:

αi=12σi2,i{ca,de,op}\alpha_i = \frac{1}{2\sigma_i^2}, \quad i \in \{ca, de, op\}

На практике логарифмическая дисперсия logσi2\log \sigma_i^2 используется как обучаемый параметр, итоговая потеря:

L(a)=i{ca,de,op}(12elogσi2Li+12logσi2)L^{(a)} = \sum_{i \in \{ca,de,op\}} \left(\frac{1}{2}e^{-\log \sigma_i^2}L_i + \frac{1}{2}\log \sigma_i^2\right)

Стратегии стабилизации:

  1. Мягкая регуляризация: добавление штрафного члена к параметрам логарифмической дисперсии
  2. Ограничение диапазона: ограничение logσi2\log \sigma_i^2 в диапазоне [10,10][-10, 10]

Технические инновации

  1. Разделение на уровне выхода: в отличие от Autoformer и подобных моделей, разлагающих на входном уровне, CaReTS явно разделяет тренд и отклонение на выходном уровне, обеспечивая более прямую интерпретируемость
  2. Механизм мягкого слияния (CaReTS3): слияние отклонений обоих направлений через вероятностное взвешивание обеспечивает плавный переход при неопределённости тренда
  3. Адаптивная балансировка задач: обучение весов на основе неопределённости избегает ручной настройки параметров, позволяя модели автоматически сосредоточиться на более надёжных задачах
  4. Прогрессивный дизайн сложности: от CaReTS1 к CaReTS4 постепенно увеличивается моделирующая способность, систематически исследуя пространство дизайна

Экспериментальная установка

Наборы данных

Две задачи прогнозирования временных рядов из реального мира:

  1. Прогнозирование цены электроэнергии: 8784 часовых наблюдения (один год)
  2. Прогнозирование спроса на электроэнергию (неудовлетворённый спрос): 8784 часовых наблюдения

Конфигурация прогнозирования: схема 15-к-6

  • Вход: месяц, день недели, час текущего временного шага + последние 12 наблюдений целевой переменной
  • Выход: прогноз целевой переменной на 6 шагов вперёд

Разделение данных:

  • Обучающий набор: 6048 точек
  • Тестовый набор: 2736 точек
  • Метод оценки: 10-кратная перекрёстная проверка

Метрики оценки

  1. RMSE (среднеквадратическая ошибка): измерение точности прогноза
  2. Точность классификации тренда: измерение правильности предсказания направления тренда

Методы сравнения

Базовые методы (3 разработанных базовых варианта):

  • Baseline1: традиционная архитектура кодировщик-декодировщик
  • Baseline2: упрощённая версия без остаточных соединений
  • Baseline3: замена модуля слияния одним слоем FC

Алгоритмы SOTA (10 методов):

  • Семейство Transformer: Autoformer, FEDformer, Non-stationary Transformer, Informer
  • Гибридные модели: TimesNet, TimeXer, D-CNN-LSTM
  • Лёгкие модели: DLinear, NLinear, TimeMixer
  • Нечёткая нейронная сеть: SOIT2FNN-MO

Детали реализации

  • Платформа: Google Colab с GPU T4
  • Кодировщик: 2 слоя, 64 скрытых единицы
    • CNN: размер ядра свёртки 3, padding 1
    • Transformer: 4 головы внимания
  • Ветви классификации/регрессии: 2 слоя FC, 64 скрытых единицы
  • Оптимизатор: Adam, скорость обучения 0.001
  • Размер пакета: 64
  • Эпохи обучения: максимум 600, ранняя остановка (50 эпох без улучшения)
  • Функция активации: ReLU
  • Нормализация: Min-Max нормализация

Результаты экспериментов

Основные результаты

1. Оценка архитектуры (таблица 2)

Прогнозирование неудовлетворённого спроса (RMSE на тестовом наборе):

  • Лучший: CaReTS2-Transformer (0.0691 ± 0.0018)
  • Второй лучший: CaReTS3-CNN (0.0692 ± 0.0010)
  • Все варианты CaReTS2-4 превосходят базовые методы

Прогнозирование цены электроэнергии (RMSE на тестовом наборе):

  • Лучший: CaReTS2-Transformer (0.0465 ± 0.0012)
  • CaReTS1-4 превосходят базовые методы во всех конфигурациях кодировщика (кроме CaReTS1-LSTM)

Ключевые находки:

  • CaReTS2 показывает наиболее стабильные результаты, лучший в 4 из 6 конфигураций, второй лучший в 2
  • Кодировщик Transformer обычно превосходит CNN и LSTM
  • CaReTS1 показывает менее выраженное преимущество из-за упрощённой ветви отклонения

2. Производительность классификации тренда (таблица 3)

Все варианты достигают точности выше 90%:

  • Неудовлетворённый спрос: CaReTS2-Transformer максимум (0.9192 ± 0.0022)
  • Цена электроэнергии: CaReTS2-Transformer максимум (0.9146 ± 0.0019)

Анализ по шагам (рисунок 5):

  • Точность классификации тренда остаётся стабильной на протяжении 6 шагов прогноза, даже немного улучшается
  • Контрастирует с возрастающей RMSE, демонстрируя робастность архитектуры в поддержании согласованности тренда при долгосрочном прогнозировании

Абляционные исследования

Многозадачное vs однозадачное обучение (таблица 4)

На примере кодировщика Transformer:

Неудовлетворённый спрос:

  • CaReTS2 многозадачное: RMSE 0.0691, точность тренда 0.9192
  • CaReTS2 однозадачное: RMSE 0.0704, точность тренда 0.9060
  • Улучшение: RMSE снижается на 1.8%, точность тренда повышается на 1.3%

Цена электроэнергии:

  • CaReTS1 многозадачное: RMSE 0.0473, точность тренда 0.9142
  • CaReTS1 однозадачное: RMSE 0.0539, точность тренда 0.8663
  • Улучшение: RMSE снижается на 12.2%, точность тренда повышается на 5.5%

Вычислительные затраты:

  • Дополнительные параметры: только 3 скалярных веса задач
  • Увеличение времени выполнения незначительно (253-401 сек vs 216-386 сек)

Сравнение с SOTA (таблица 5)

Неудовлетворённый спрос:

  • CaReTS2: RMSE 0.0691, точность тренда 0.9192
  • TimeXer (второй лучший SOTA): RMSE 0.0700, точность тренда 0.9066
  • Преимущество: RMSE снижается на 1.3%, точность тренда повышается на 1.4%

Цена электроэнергии:

  • CaReTS2: RMSE 0.0465, точность тренда 0.9146
  • TimeXer (лучший SOTA): RMSE 0.0463, точность тренда 0.9013
  • Преимущество: хотя RMSE немного выше на 0.4%, точность тренда выше на 1.5%

Сравнение эффективности:

  • Время выполнения CaReTS: 200-400 сек
  • Лёгкие модели (DLinear/NLinear): <70 сек
  • Тяжёлые модели (Autoformer/TimeXer): >460 сек
  • Вывод: CaReTS достигает хорошего баланса между точностью и эффективностью

Расширенные эксперименты (приложение A.6)

При конфигурациях прогнозирования 15-к-4 и 15-к-8:

  • CaReTS2 постоянно входит в тройку лучших по RMSE и точности тренда
  • Подтверждает стабильность архитектуры при различных горизонтах прогнозирования

Экспериментальные находки

  1. Стабильность тренда: точность классификации тренда не снижается с увеличением количества шагов прогноза, демонстрируя робастность моделирования макротренда
  2. Дополняющее обучение: многозадачное обучение способствует дополняющему обучению, а не конфликту задач, совместная оптимизация превосходит однозадачное обучение
  3. Совместимость кодировщика: архитектура хорошо совместима с различными кодировщиками, Transformer обычно показывает лучшие результаты
  4. Моделирование, зависящее от направления: дизайн зависящих от направления отклонений в CaReTS2 захватывает асимметричную динамику, превосходя единое отклонение (CaReTS1)
  5. Преимущество мягкого слияния: вероятностное взвешивание в CaReTS3 обеспечивает плавный переход при неопределённости тренда

Связанные работы

1. Глубокое прогнозирование временных рядов

  • Методы на основе CNN: извлечение локальных пространственно-временных паттернов
  • Методы на основе RNN: LSTM, GRU для захвата последовательных зависимостей
  • Методы на основе Transformer:
    • Informer: внимание ProbSparse
    • Autoformer: декомпозиция сезонность-тренд + внимание автокорреляции
    • FEDformer: частотное фильтрование
    • PatchTST: встраивание на основе патчей
    • iTransformer: инвертированное моделирование с фокусом на зависимости переменных

2. Декомпозиция и интерпретируемость

  • Линейная декомпозиция: DLinear, NLinear достигают конкурентных результатов через простую декомпозицию тренд-сезонность
  • Декомпозиция Transformer: ETSformer, Autoformer, FEDformer моделируют компоненты на входном/представительном уровне
  • Отличие данной работы: разделение на выходном уровне, прямое разделение целевых компонентов прогноза

3. Многозадачность и модульные архитектуры

  • TimeXer: различие эндогенных и экзогенных сигналов
  • TimesNet: многопериодные модули для захвата различных временных масштабов
  • Лёгкие MLP: TimeMixer, LightTS, TSMixer
  • Инновация данной работы: двухпоточная архитектура на выходном уровне, адаптивная балансировка задач на основе неопределённости

Заключение и обсуждение

Основные выводы

  1. CaReTS успешно разделяет классификацию тренда и оценку отклонения через двухпоточную архитектуру, одновременно повышая точность прогнозирования и интерпретируемость
  2. Механизм многозадачного обучения на основе неопределённости эффективно балансирует вклад трёх задач, избегая ручной настройки параметров
  3. Четыре варианта демонстрируют гибкость архитектуры, комбинация CaReTS2-Transformer показывает лучшую производительность
  4. Достигнута или превышена производительность SOTA на реальных наборах данных, точность классификации тренда превышает 91%, вычислительные затраты контролируемы

Ограничения

  1. Недостаточная проверка долгосрочного прогнозирования: из-за ограничений ресурсов GPU основная оценка проводилась на 6-шаговом прогнозировании, не полностью проверена способность к сверхдолгосрочному прогнозированию
  2. Ограниченное разнообразие наборов данных: тестирование только на двух наборах данных, связанных с электроэнергией, отсутствует кросс-доменная проверка (финансы, медицина)
  3. Ограниченная инновация кодировщика: использованы стандартные кодировщики, не исследованы специализированные извлекатели временных признаков
  4. Упрощение бинарного тренда: моделируется только восходящий/нисходящий тренд, не рассматривается стационарный тренд или более мелкозернистая классификация
  5. Отсутствие количественной оценки интерпретируемости: хотя заявляется повышение интерпретируемости, отсутствуют пользовательские исследования или количественные метрики интерпретируемости

Будущие направления

  1. Расширение долгосрочного прогнозирования: проверка способности к сверхдолгосрочному прогнозированию (100+ шагов) при большей вычислительной мощности
  2. Кросс-доменная проверка: тестирование обобщаемости архитектуры в разнообразных областях (финансы, медицина, климат)
  3. Многоуровневая классификация тренда: расширение на многоклассовые тренды (сильный восходящий, слабый восходящий, стационарный и т.д.)
  4. Специализированные кодировщики: исследование извлекателей признаков, оптимизированных для разложения тренд-отклонение
  5. Исследование интерпретируемости: проведение пользовательских исследований, количественная оценка повышения интерпретируемости

Глубокая оценка

Преимущества

  1. Инновационное разложение проблемы: разложение прогнозирования временных рядов на классификацию тренда и регрессию отклонения интуитивно и эффективно, предоставляет новую перспективу моделирования
  2. Прочная теоретическая основа: многозадачное обучение с учётом неопределённости имеет прочную теоретическую поддержку (Kendall et al., 2018), детали реализации тщательно разработаны
  3. Систематическое исследование пространства дизайна: четыре варианта эволюционируют от простого к сложному, ясно демонстрируя пространство дизайна
  4. Строгие и полные эксперименты:
    • 10-кратная перекрёстная проверка обеспечивает надёжные оценки
    • Сравнение с 10 алгоритмами SOTA
    • Абляционные исследования проверяют вклад компонентов
    • Анализ по шагам раскрывает стабильность тренда
  5. Высокая воспроизводимость: предоставлен анонимный код, детали реализации подробны
  6. Ясное изложение: логичная структура, богатые графики, точное техническое описание

Недостатки

  1. Недостаточная оценка интерпретируемости:
    • Отсутствуют визуальные примеры, демонстрирующие, как разложение тренд-отклонение помогает пониманию
    • Не проведены пользовательские исследования для проверки повышения интерпретируемости
    • Интерпретируемость остаётся в основном на концептуальном уровне
  2. Ограничения наборов данных:
    • Только два набора данных связанной области
    • Относительно небольшой размер выборки (8784 точки)
    • Отсутствует проверка на многомерных временных рядах
  3. Отсутствие проверки долгосрочного прогнозирования:
    • Основная оценка на 6-шаговом прогнозировании
    • Хотя рисунок 5 показывает стабильность тренда, не проведено фактическое тестирование на более длительных горизонтах
    • Ограничивает суждение о способности к долгосрочному прогнозированию
  4. Грубый анализ вычислительных затрат:
    • Только отчёт об общем времени выполнения
    • Отсутствует детальный анализ временной и пространственной сложности
    • Не проанализированы вычислительные узкие места различных компонентов
  5. Вопросы к дизайну базовых методов:
    • Три разработанных базовых варианта могут быть недостаточно сильными
    • Отсутствует сравнение с другими методами многозадачного обучения
  6. Упрощение определения тренда:
    • Бинарный тренд (восходящий/нисходящий) может быть слишком грубым
    • Не рассматривается стационарное состояние или интенсивность тренда

Влияние

  1. Академический вклад:
    • Предоставляет новую перспективу разложения на выходном уровне
    • Применение многозадачного обучения с учётом неопределённости в прогнозировании временных рядов
    • Может вдохновить больше исследований на разделение тренда-амплитуды
  2. Практическая ценность:
    • Демонстрирует практичность в приложениях, таких как прогнозирование электроэнергии
    • Классификация тренда предоставляет вспомогательную информацию для принятия решений
    • Контролируемые вычислительные затраты подходят для практического развёртывания
  3. Воспроизводимость:
    • Предоставлен код (хотя анонимный)
    • Полные детали реализации
    • Облегчает воспроизведение и расширение последующими исследованиями
  4. Влияние ограничений:
    • Ограничения наборов данных и долгосрочного прогнозирования могут ограничить влияние
    • Требуется больше кросс-доменной проверки для широкого применения

Применимые сценарии

Подходящие сценарии:

  1. Задачи краткосрочного и среднесрочного прогнозирования (6-8 шагов): архитектура полностью проверена в этом диапазоне
  2. Приложения, требующие объяснения тренда: такие как финансовые решения, планирование энергии, где направление тренда важнее точного значения
  3. Одномерные или низкомерные временные ряды: текущая экспериментальная установка одномерная
  4. Сценарии со средним объёмом данных: обучающая выборка около 6000 точек

Менее подходящие сценарии:

  1. Сверхдолгосрочное прогнозирование (>10 шагов): отсутствует проверка, эффект неизвестен
  2. Высокомерные многомерные временные ряды: не полностью протестировано в многомерной установке
  3. Прогнозирование в реальном времени: время вычисления 200-400 сек может не удовлетворять требованиям реального времени
  4. Стационарные последовательности без явного тренда: классификация тренда может не иметь значительного преимущества

Ссылки

Ключевые цитируемые работы

  1. Kendall et al. (2018): Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR. Теоретическая основа взвешивания неопределённости
  2. Vaswani et al. (2017): Attention is all you need. NeurIPS. Архитектура Transformer
  3. Zhou et al. (2021): Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI. Внимание ProbSparse
  4. Wu et al. (2021): Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS. Декомпозиция сезонность-тренд
  5. Zhou et al. (2022): FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML. Частотная декомпозиция
  6. Liu et al. (2023): iTransformer: Inverted transformers are effective for time series forecasting. arXiv. Инвертированное моделирование
  7. Zeng et al. (2023): Are transformers effective for time series forecasting? AAAI. Простые базовые методы DLinear/NLinear
  8. Wang et al. (2024c): TimeXer: Empowering transformers for time series forecasting with exogenous variables. NeurIPS. Моделирование экзогенных переменных

Общая оценка: Это тщательно разработанная и экспериментально строгая статья по прогнозированию временных рядов. Ключевая инновация — разложение тренд-отклонение на выходном уровне — проста, но эффективна, многозадачное обучение с учётом неопределённости реализовано элегантно. Экспериментальные результаты подтверждают эффективность метода, с улучшениями как в точности, так и в интерпретируемости. Основные недостатки заключаются в недостаточной оценке интерпретируемости, ограниченном разнообразии наборов данных и отсутствии проверки долгосрочного прогнозирования. Рекомендуется, чтобы будущие работы проверили архитектуру в большем количестве областей и на более длительных горизонтах, а также провели пользовательские исследования для количественной оценки повышения интерпретируемости. В целом, это ценный вклад, предоставляющий новую парадигму моделирования для прогнозирования временных рядов.