Recent advances in deep forecasting models have achieved remarkable performance, yet most approaches still struggle to provide both accurate predictions and interpretable insights into temporal dynamics. This paper proposes CaReTS, a novel multi-task learning framework that combines classification and regression tasks for multi-step time series forecasting problems. The framework adopts a dual-stream architecture, where a classification branch learns the stepwise trend into the future, while a regression branch estimates the corresponding deviations from the latest observation of the target variable. The dual-stream design provides more interpretable predictions by disentangling macro-level trends from micro-level deviations in the target variable. To enable effective learning in output prediction, deviation estimation, and trend classification, we design a multi-task loss with uncertainty-aware weighting to adaptively balance the contribution of each task. Furthermore, four variants (CaReTS1--4) are instantiated under this framework to incorporate mainstream temporal modelling encoders, including convolutional neural networks (CNNs), long short-term memory networks (LSTMs), and Transformers. Experiments on real-world datasets demonstrate that CaReTS outperforms state-of-the-art (SOTA) algorithms in forecasting accuracy, while achieving higher trend classification performance.
- ID статьи: 2511.09789
- Название: CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting
- Авторы: Fulong Yao (Cardiff University), Wanqing Zhao (Newcastle University), Chao Zheng (Newcastle University), Xiaofei Han (University of Leeds)
- Категория: cs.LG (Машинное обучение)
- Дата публикации: 12 ноября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2511.09789
Глубокое обучение достигло значительных успехов в прогнозировании временных рядов, однако существующие методы часто испытывают трудности с обеспечением интерпретируемости динамики временных рядов при предоставлении точных прогнозов. В данной работе предлагается CaReTS — многозадачная архитектура обучения, объединяющая задачи классификации и регрессии для многошагового прогнозирования временных рядов. Архитектура использует двухпоточный дизайн: ветвь классификации изучает пошаговые тренды будущего, ветвь регрессии оценивает отклонения относительно последнего наблюдения. Такой дизайн обеспечивает более интерпретируемые прогнозы путём разделения макротренда и микроотклонений. Для эффективного обучения разработана функция многозадачных потерь, основанная на неопределённости, для адаптивного балансирования вклада каждой задачи. Статья представляет четыре варианта (CaReTS1-4), интегрирующие основные кодировщики временных рядов (CNN, LSTM, Transformer). Экспериментальные результаты демонстрируют, что CaReTS превосходит современные методы как по точности прогнозирования, так и по производительности классификации трендов.
Прогнозирование временных рядов является фундаментальной задачей в управлении энергией, финансовом анализе, медицинском мониторинге и климатическом моделировании. Многошаговое прогнозирование особенно критично, но сталкивается с двумя основными вызовами:
- Снижение точности: с увеличением горизонта прогнозирования точность обычно снижается
- Недостаточная интерпретируемость: в высокорисковых сценариях отсутствие прозрачности модели снижает доверие
Многошаговое прогнозирование критично для захвата краткосрочной и долгосрочной динамики системы, что поддерживает принятие обоснованных решений. Однако, несмотря на повышение точности глубокого обучения, существует значительный дефицит в интерпретируемости, ограничивающий надёжность в практических приложениях.
- Единая парадигма регрессии: большинство глубоких моделей прогнозирования моделируют предсказание как единую задачу регрессии, сосредоточиваясь только на числовом прогнозировании
- Связанность тренда и отклонения: сложность разделения макротренда (например, восходящей/нисходящей траектории) и микроотклонений
- Отсутствие явного моделирования тренда: хотя модели типа Autoformer и FEDformer вводят механизмы декомпозиции, они в основном работают на входном или представительном уровне, не разделяя явно тренд и амплитуду на выходном уровне
Ключевое понимание данной работы заключается в том, что разложение прогнозирования временных рядов на классификацию тренда (направление) и регрессию отклонения (амплитуда) как две дополняющие друг друга задачи может одновременно повысить точность прогнозирования и интерпретируемость. Такое разделение на уровне выхода предоставляет новую перспективу многозадачного обучения.
- Дизайн двухпоточной архитектуры: предложена архитектура CaReTS с двухпоточным дизайном, где ветвь классификации предсказывает пошаговые макротренды, а ветвь регрессии оценивает мелкозернистые отклонения относительно последнего наблюдения
- Многозадачное обучение с учётом неопределённости: разработана функция многозадачных потерь, основанная на неопределённости, которая адаптивно взвешивает и совместно оптимизирует задачи классификации и регрессии, избегая ручной настройки параметров
- Универсальность архитектуры: реализованы четыре варианта (CaReTS1-4), совместимые с основными кодировщиками временных рядов (CNN, LSTM, Transformer), демонстрирующие широкую применимость архитектуры
- Повышение производительности и интерпретируемости: достигнута передовая точность прогнозирования на реальных наборах данных с точностью классификации тренда выше 91% при контролируемых вычислительных затратах
Вход: временной ряд x={x1,x2,…,xn}, где xn — последнее наблюдение целевой переменной
Выход: прогноз на K шагов вперёд y^={y^1,y^2,…,y^K}
Основная идея: разложение каждого шага прогноза на направление тренда d(k) и амплитуду отклонения δ(k)
Архитектура (a): параллельные потоки
- Кодировщик временных рядов (CNN/LSTM/Transformer) извлекает временные признаки
- Признаки параллельно подаются в два независимых полносвязных потока:
- Поток классификации: предсказывает пошаговые тренды (восходящий/нисходящий)
- Поток регрессии: оценивает отклонение относительно xn
- Слияние с остатком: y^(k)=xn+слияние(d(k),δ(k))
Архитектура (b): последовательные потоки
- Сначала вывод через поток классификации для определения тренда
- Конкатенация выхода классификации с исходными временными признаками
- Подача в поток регрессии для оценки отклонения
- Прямое слияние: y^(k)=xn+δ^(k)
| Модель | Архитектура | Представление тренда | Представление отклонения | Способ слияния |
|---|
| CaReTS1 | (a) | Бинарная метка d^(k)∈{+1,−1} | Единое неотрицательное отклонение δ^(k) | y^(k)=xn+d^(k)⋅δ^(k) |
| CaReTS2 | (a) | Бинарная метка d^(k)∈{+1,−1} | Зависящие от направления отклонения (δ^up(k),δ^down(k)) | Выбор отклонения в зависимости от тренда |
| CaReTS3 | (a) | Вероятность (pup(k),pdown(k)) | Зависящие от направления отклонения (δ^up(k),δ^down(k)) | y^(k)=xn+pup(k)δ^up(k)−pdown(k)δ^down(k) |
| CaReTS4 | (b) | Вероятность p(k) | Знаковое отклонение δ^(k) | y^(k)=xn+δ^(k) |
L(a)=αcaLca+αdeLde+αopLop
где:
- Lca: потери классификации тренда (бинарная кроссэнтропия или кроссэнтропия)
- Lde: потери оценки отклонения (MSE)
- Lop: потери выходного прогноза (MSE)
L(b)=αcaLca+αopLop
Ключевое нововведение: моделирование весов задач как обучаемых параметров, адаптивно настраиваемых на основе неопределённости прогноза:
αi=2σi21,i∈{ca,de,op}
На практике логарифмическая дисперсия logσi2 используется как обучаемый параметр, итоговая потеря:
L(a)=∑i∈{ca,de,op}(21e−logσi2Li+21logσi2)
Стратегии стабилизации:
- Мягкая регуляризация: добавление штрафного члена к параметрам логарифмической дисперсии
- Ограничение диапазона: ограничение logσi2 в диапазоне [−10,10]
- Разделение на уровне выхода: в отличие от Autoformer и подобных моделей, разлагающих на входном уровне, CaReTS явно разделяет тренд и отклонение на выходном уровне, обеспечивая более прямую интерпретируемость
- Механизм мягкого слияния (CaReTS3): слияние отклонений обоих направлений через вероятностное взвешивание обеспечивает плавный переход при неопределённости тренда
- Адаптивная балансировка задач: обучение весов на основе неопределённости избегает ручной настройки параметров, позволяя модели автоматически сосредоточиться на более надёжных задачах
- Прогрессивный дизайн сложности: от CaReTS1 к CaReTS4 постепенно увеличивается моделирующая способность, систематически исследуя пространство дизайна
Две задачи прогнозирования временных рядов из реального мира:
- Прогнозирование цены электроэнергии: 8784 часовых наблюдения (один год)
- Прогнозирование спроса на электроэнергию (неудовлетворённый спрос): 8784 часовых наблюдения
Конфигурация прогнозирования: схема 15-к-6
- Вход: месяц, день недели, час текущего временного шага + последние 12 наблюдений целевой переменной
- Выход: прогноз целевой переменной на 6 шагов вперёд
Разделение данных:
- Обучающий набор: 6048 точек
- Тестовый набор: 2736 точек
- Метод оценки: 10-кратная перекрёстная проверка
- RMSE (среднеквадратическая ошибка): измерение точности прогноза
- Точность классификации тренда: измерение правильности предсказания направления тренда
Базовые методы (3 разработанных базовых варианта):
- Baseline1: традиционная архитектура кодировщик-декодировщик
- Baseline2: упрощённая версия без остаточных соединений
- Baseline3: замена модуля слияния одним слоем FC
Алгоритмы SOTA (10 методов):
- Семейство Transformer: Autoformer, FEDformer, Non-stationary Transformer, Informer
- Гибридные модели: TimesNet, TimeXer, D-CNN-LSTM
- Лёгкие модели: DLinear, NLinear, TimeMixer
- Нечёткая нейронная сеть: SOIT2FNN-MO
- Платформа: Google Colab с GPU T4
- Кодировщик: 2 слоя, 64 скрытых единицы
- CNN: размер ядра свёртки 3, padding 1
- Transformer: 4 головы внимания
- Ветви классификации/регрессии: 2 слоя FC, 64 скрытых единицы
- Оптимизатор: Adam, скорость обучения 0.001
- Размер пакета: 64
- Эпохи обучения: максимум 600, ранняя остановка (50 эпох без улучшения)
- Функция активации: ReLU
- Нормализация: Min-Max нормализация
Прогнозирование неудовлетворённого спроса (RMSE на тестовом наборе):
- Лучший: CaReTS2-Transformer (0.0691 ± 0.0018)
- Второй лучший: CaReTS3-CNN (0.0692 ± 0.0010)
- Все варианты CaReTS2-4 превосходят базовые методы
Прогнозирование цены электроэнергии (RMSE на тестовом наборе):
- Лучший: CaReTS2-Transformer (0.0465 ± 0.0012)
- CaReTS1-4 превосходят базовые методы во всех конфигурациях кодировщика (кроме CaReTS1-LSTM)
Ключевые находки:
- CaReTS2 показывает наиболее стабильные результаты, лучший в 4 из 6 конфигураций, второй лучший в 2
- Кодировщик Transformer обычно превосходит CNN и LSTM
- CaReTS1 показывает менее выраженное преимущество из-за упрощённой ветви отклонения
Все варианты достигают точности выше 90%:
- Неудовлетворённый спрос: CaReTS2-Transformer максимум (0.9192 ± 0.0022)
- Цена электроэнергии: CaReTS2-Transformer максимум (0.9146 ± 0.0019)
Анализ по шагам (рисунок 5):
- Точность классификации тренда остаётся стабильной на протяжении 6 шагов прогноза, даже немного улучшается
- Контрастирует с возрастающей RMSE, демонстрируя робастность архитектуры в поддержании согласованности тренда при долгосрочном прогнозировании
На примере кодировщика Transformer:
Неудовлетворённый спрос:
- CaReTS2 многозадачное: RMSE 0.0691, точность тренда 0.9192
- CaReTS2 однозадачное: RMSE 0.0704, точность тренда 0.9060
- Улучшение: RMSE снижается на 1.8%, точность тренда повышается на 1.3%
Цена электроэнергии:
- CaReTS1 многозадачное: RMSE 0.0473, точность тренда 0.9142
- CaReTS1 однозадачное: RMSE 0.0539, точность тренда 0.8663
- Улучшение: RMSE снижается на 12.2%, точность тренда повышается на 5.5%
Вычислительные затраты:
- Дополнительные параметры: только 3 скалярных веса задач
- Увеличение времени выполнения незначительно (253-401 сек vs 216-386 сек)
Неудовлетворённый спрос:
- CaReTS2: RMSE 0.0691, точность тренда 0.9192
- TimeXer (второй лучший SOTA): RMSE 0.0700, точность тренда 0.9066
- Преимущество: RMSE снижается на 1.3%, точность тренда повышается на 1.4%
Цена электроэнергии:
- CaReTS2: RMSE 0.0465, точность тренда 0.9146
- TimeXer (лучший SOTA): RMSE 0.0463, точность тренда 0.9013
- Преимущество: хотя RMSE немного выше на 0.4%, точность тренда выше на 1.5%
Сравнение эффективности:
- Время выполнения CaReTS: 200-400 сек
- Лёгкие модели (DLinear/NLinear): <70 сек
- Тяжёлые модели (Autoformer/TimeXer): >460 сек
- Вывод: CaReTS достигает хорошего баланса между точностью и эффективностью
При конфигурациях прогнозирования 15-к-4 и 15-к-8:
- CaReTS2 постоянно входит в тройку лучших по RMSE и точности тренда
- Подтверждает стабильность архитектуры при различных горизонтах прогнозирования
- Стабильность тренда: точность классификации тренда не снижается с увеличением количества шагов прогноза, демонстрируя робастность моделирования макротренда
- Дополняющее обучение: многозадачное обучение способствует дополняющему обучению, а не конфликту задач, совместная оптимизация превосходит однозадачное обучение
- Совместимость кодировщика: архитектура хорошо совместима с различными кодировщиками, Transformer обычно показывает лучшие результаты
- Моделирование, зависящее от направления: дизайн зависящих от направления отклонений в CaReTS2 захватывает асимметричную динамику, превосходя единое отклонение (CaReTS1)
- Преимущество мягкого слияния: вероятностное взвешивание в CaReTS3 обеспечивает плавный переход при неопределённости тренда
- Методы на основе CNN: извлечение локальных пространственно-временных паттернов
- Методы на основе RNN: LSTM, GRU для захвата последовательных зависимостей
- Методы на основе Transformer:
- Informer: внимание ProbSparse
- Autoformer: декомпозиция сезонность-тренд + внимание автокорреляции
- FEDformer: частотное фильтрование
- PatchTST: встраивание на основе патчей
- iTransformer: инвертированное моделирование с фокусом на зависимости переменных
- Линейная декомпозиция: DLinear, NLinear достигают конкурентных результатов через простую декомпозицию тренд-сезонность
- Декомпозиция Transformer: ETSformer, Autoformer, FEDformer моделируют компоненты на входном/представительном уровне
- Отличие данной работы: разделение на выходном уровне, прямое разделение целевых компонентов прогноза
- TimeXer: различие эндогенных и экзогенных сигналов
- TimesNet: многопериодные модули для захвата различных временных масштабов
- Лёгкие MLP: TimeMixer, LightTS, TSMixer
- Инновация данной работы: двухпоточная архитектура на выходном уровне, адаптивная балансировка задач на основе неопределённости
- CaReTS успешно разделяет классификацию тренда и оценку отклонения через двухпоточную архитектуру, одновременно повышая точность прогнозирования и интерпретируемость
- Механизм многозадачного обучения на основе неопределённости эффективно балансирует вклад трёх задач, избегая ручной настройки параметров
- Четыре варианта демонстрируют гибкость архитектуры, комбинация CaReTS2-Transformer показывает лучшую производительность
- Достигнута или превышена производительность SOTA на реальных наборах данных, точность классификации тренда превышает 91%, вычислительные затраты контролируемы
- Недостаточная проверка долгосрочного прогнозирования: из-за ограничений ресурсов GPU основная оценка проводилась на 6-шаговом прогнозировании, не полностью проверена способность к сверхдолгосрочному прогнозированию
- Ограниченное разнообразие наборов данных: тестирование только на двух наборах данных, связанных с электроэнергией, отсутствует кросс-доменная проверка (финансы, медицина)
- Ограниченная инновация кодировщика: использованы стандартные кодировщики, не исследованы специализированные извлекатели временных признаков
- Упрощение бинарного тренда: моделируется только восходящий/нисходящий тренд, не рассматривается стационарный тренд или более мелкозернистая классификация
- Отсутствие количественной оценки интерпретируемости: хотя заявляется повышение интерпретируемости, отсутствуют пользовательские исследования или количественные метрики интерпретируемости
- Расширение долгосрочного прогнозирования: проверка способности к сверхдолгосрочному прогнозированию (100+ шагов) при большей вычислительной мощности
- Кросс-доменная проверка: тестирование обобщаемости архитектуры в разнообразных областях (финансы, медицина, климат)
- Многоуровневая классификация тренда: расширение на многоклассовые тренды (сильный восходящий, слабый восходящий, стационарный и т.д.)
- Специализированные кодировщики: исследование извлекателей признаков, оптимизированных для разложения тренд-отклонение
- Исследование интерпретируемости: проведение пользовательских исследований, количественная оценка повышения интерпретируемости
- Инновационное разложение проблемы: разложение прогнозирования временных рядов на классификацию тренда и регрессию отклонения интуитивно и эффективно, предоставляет новую перспективу моделирования
- Прочная теоретическая основа: многозадачное обучение с учётом неопределённости имеет прочную теоретическую поддержку (Kendall et al., 2018), детали реализации тщательно разработаны
- Систематическое исследование пространства дизайна: четыре варианта эволюционируют от простого к сложному, ясно демонстрируя пространство дизайна
- Строгие и полные эксперименты:
- 10-кратная перекрёстная проверка обеспечивает надёжные оценки
- Сравнение с 10 алгоритмами SOTA
- Абляционные исследования проверяют вклад компонентов
- Анализ по шагам раскрывает стабильность тренда
- Высокая воспроизводимость: предоставлен анонимный код, детали реализации подробны
- Ясное изложение: логичная структура, богатые графики, точное техническое описание
- Недостаточная оценка интерпретируемости:
- Отсутствуют визуальные примеры, демонстрирующие, как разложение тренд-отклонение помогает пониманию
- Не проведены пользовательские исследования для проверки повышения интерпретируемости
- Интерпретируемость остаётся в основном на концептуальном уровне
- Ограничения наборов данных:
- Только два набора данных связанной области
- Относительно небольшой размер выборки (8784 точки)
- Отсутствует проверка на многомерных временных рядах
- Отсутствие проверки долгосрочного прогнозирования:
- Основная оценка на 6-шаговом прогнозировании
- Хотя рисунок 5 показывает стабильность тренда, не проведено фактическое тестирование на более длительных горизонтах
- Ограничивает суждение о способности к долгосрочному прогнозированию
- Грубый анализ вычислительных затрат:
- Только отчёт об общем времени выполнения
- Отсутствует детальный анализ временной и пространственной сложности
- Не проанализированы вычислительные узкие места различных компонентов
- Вопросы к дизайну базовых методов:
- Три разработанных базовых варианта могут быть недостаточно сильными
- Отсутствует сравнение с другими методами многозадачного обучения
- Упрощение определения тренда:
- Бинарный тренд (восходящий/нисходящий) может быть слишком грубым
- Не рассматривается стационарное состояние или интенсивность тренда
- Академический вклад:
- Предоставляет новую перспективу разложения на выходном уровне
- Применение многозадачного обучения с учётом неопределённости в прогнозировании временных рядов
- Может вдохновить больше исследований на разделение тренда-амплитуды
- Практическая ценность:
- Демонстрирует практичность в приложениях, таких как прогнозирование электроэнергии
- Классификация тренда предоставляет вспомогательную информацию для принятия решений
- Контролируемые вычислительные затраты подходят для практического развёртывания
- Воспроизводимость:
- Предоставлен код (хотя анонимный)
- Полные детали реализации
- Облегчает воспроизведение и расширение последующими исследованиями
- Влияние ограничений:
- Ограничения наборов данных и долгосрочного прогнозирования могут ограничить влияние
- Требуется больше кросс-доменной проверки для широкого применения
Подходящие сценарии:
- Задачи краткосрочного и среднесрочного прогнозирования (6-8 шагов): архитектура полностью проверена в этом диапазоне
- Приложения, требующие объяснения тренда: такие как финансовые решения, планирование энергии, где направление тренда важнее точного значения
- Одномерные или низкомерные временные ряды: текущая экспериментальная установка одномерная
- Сценарии со средним объёмом данных: обучающая выборка около 6000 точек
Менее подходящие сценарии:
- Сверхдолгосрочное прогнозирование (>10 шагов): отсутствует проверка, эффект неизвестен
- Высокомерные многомерные временные ряды: не полностью протестировано в многомерной установке
- Прогнозирование в реальном времени: время вычисления 200-400 сек может не удовлетворять требованиям реального времени
- Стационарные последовательности без явного тренда: классификация тренда может не иметь значительного преимущества
- Kendall et al. (2018): Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR. Теоретическая основа взвешивания неопределённости
- Vaswani et al. (2017): Attention is all you need. NeurIPS. Архитектура Transformer
- Zhou et al. (2021): Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI. Внимание ProbSparse
- Wu et al. (2021): Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS. Декомпозиция сезонность-тренд
- Zhou et al. (2022): FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML. Частотная декомпозиция
- Liu et al. (2023): iTransformer: Inverted transformers are effective for time series forecasting. arXiv. Инвертированное моделирование
- Zeng et al. (2023): Are transformers effective for time series forecasting? AAAI. Простые базовые методы DLinear/NLinear
- Wang et al. (2024c): TimeXer: Empowering transformers for time series forecasting with exogenous variables. NeurIPS. Моделирование экзогенных переменных
Общая оценка: Это тщательно разработанная и экспериментально строгая статья по прогнозированию временных рядов. Ключевая инновация — разложение тренд-отклонение на выходном уровне — проста, но эффективна, многозадачное обучение с учётом неопределённости реализовано элегантно. Экспериментальные результаты подтверждают эффективность метода, с улучшениями как в точности, так и в интерпретируемости. Основные недостатки заключаются в недостаточной оценке интерпретируемости, ограниченном разнообразии наборов данных и отсутствии проверки долгосрочного прогнозирования. Рекомендуется, чтобы будущие работы проверили архитектуру в большем количестве областей и на более длительных горизонтах, а также провели пользовательские исследования для количественной оценки повышения интерпретируемости. В целом, это ценный вклад, предоставляющий новую парадигму моделирования для прогнозирования временных рядов.