Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.
- ID статьи: 2510.10564
- Название: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
- Авторы: Liang Li (Чунцинский технологический университет), Zhou Yang (Фучжоуский университет), Xiaofei Zhu (Чунцинский технологический университет)
- Классификация: cs.IR (Информационный поиск)
- Дата публикации: 12 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.10564
- Ссылка на код: https://github.com/lalunex/MGSD-WSS
Последовательные рекомендации направлены на прогнозирование следующего элемента на основе интересов пользователя из его исторической последовательности взаимодействий. Исторические последовательности взаимодействий обычно содержат нерелевантные элементы шума, которые значительно препятствуют производительности систем рекомендаций. Существующие исследования используют неконтролируемые методы для косвенного выявления нерелевантного шума на уровне элементов путём прогнозирования истинных элементов. Поскольку эти методы не имеют явных меток шума, они легко могут ошибочно классифицировать интересующие пользователя элементы как шум. Кроме того, эти методы сосредоточены на удалении шума на уровне элементов, вызванного истинными элементами, но игнорируют шум на уровне интересов, что ограничивает возможность более широкой очистки на основе интересов пользователя. Для решения этих проблем в данной работе предлагается метод многогранулярной очистки последовательностей от шума со слабо контролируемыми сигналами для последовательных рекомендаций (MGSD-WSS).
Основная проблема, с которой сталкиваются системы последовательных рекомендаций, заключается в наличии элементов шума в исторических последовательностях взаимодействий, таких как случайные клики и вредоносные поддельные взаимодействия, которые значительно снижают производительность систем рекомендаций.
- Методы мягкой очистки: Корректируют вес элементов шума посредством механизмов внимания или алгоритмов фильтрации, но не могут полностью устранить влияние шума
- Методы жёсткой очистки: Генерируют сигналы обнаружения шума для явного удаления элементов шума, но имеют следующие проблемы:
- Используют истинные элементы вместо истинных меток шума для направления модели при выявлении шума, что ограничивает точность
- Сосредоточены только на очистке на уровне элементов, игнорируя шум на уровне интересов
- Отсутствие явных меток шума приводит к тому, что существующие неконтролируемые методы легко ошибочно классифицируют интересующие пользователя элементы
- Взаимодействия пользователей отражают не только предпочтения конкретных элементов, но и интересы более высокого уровня (например, интерес к "спорту" включает футбол, спортивную обувь, беговые дорожки и т.д.)
- Необходима иерархическая очистка на нескольких уровнях для более полного удаления шума
- Первое введение слабо контролируемых сигналов: Прямое обучение модели для выявления шума с использованием помеченных слабо контролируемых сигналов, преодоление неточности предыдущих неконтролируемых методов
- Иерархическая многогранулярная очистка: Предложение модулей иерархической очистки на уровне элементов и интересов в сочетании с взвешенным по шуму контрастивным обучением
- Инновационный дизайн архитектуры:
- Модуль Multiple Gaussian Kernel Perceptron (MGP)
- Target-aware Sequence Encoding
- Структура взвешенного по шуму контрастивного обучения
- Значительное повышение производительности: Существенное превосходство над современными моделями последовательных рекомендаций и очистки от шума на пяти наборах данных
Дано множество пользователей U={u1,u2,…,u∣U∣} и множество элементов V={v1,v2,…,v∣V∣}. Каждый пользователь u∈U связан с упорядоченной по времени исторической последовательностью взаимодействий S=[s1,s2,…,sn]. Цель состоит в использовании последовательности взаимодействий S для прогнозирования элемента, с которым пользователь с наибольшей вероятностью взаимодействует на шаге (n+1), то есть p(sn+1∣s1:n).
MGSD-WSS содержит три основных компонента:
Увеличение данных последовательности:
- Случайный выбор t различных элементов для вставки в исходную последовательность в качестве шума
- Построение увеличенной последовательности Sˉ=[sˉ1,sˉ2,…,sˉn+t]
- Получение контролируемого сигнала Yˉ=[yˉ1,yˉ2,…,yˉn+t], указывающего позиции шума
Multiple Gaussian Kernel Perceptron (MGP):
- Вычисление косинусного сходства целевого элемента с каждым элементом в последовательности:
αˉi=cos(hˉn+1,hˉi)
- Использование k гауссовых ядер для преобразования оценок релевантности:
rij=exp(−2σj2(αˉi−μj)2)h^i=∑j=1krijhˉi
- Получение богатых представлений через кодировщик Transformer:
G=Transformer(H^+P)
Использование общего дискриминатора шума на уровне элементов для обнаружения элементов шума в увеличенной последовательности:
βi=Softmax((ReLU(gˉiW1+b1))W2)
Минимизация разницы между сигналом обнаружения шума и контролируемым сигналом через потерю MSE:
MSE=n1∑i=1n(βi0−yˉi)2
Очистка на уровне элементов:
- Использование Gumbel-softmax для преобразования сигнала обнаружения шума в двоичные жёсткие значения
- Фильтрация элементов шума для построения матрицы очищенного представления
- Применение взвешенного по шуму контрастивного обучения:
ITSCL=−∣G+∣1∑gi∈G+log∑gj∈Gω(gj)⋅exp(sim(ese,gj)/τ)ω(gi)⋅exp(sim(ese,gi)/τ)
Очистка на уровне интересов:
- Введение обучаемой матрицы представления интересов Q=[q1,q2,…,qm]
- Вычисление оценок релевантности элементов и интересов
- Использование целевого внимания к интересам для оценки надёжности интересов
- Применение взвешенного по шуму контрастивного обучения на уровне интересов
- Генерация слабо контролируемых сигналов: Генерирование явных меток шума через стратегию увеличения данных, обеспечение точных контролируемых сигналов
- Многогранулярная очистка: Одновременная очистка на уровне элементов и интересов для более полного решения проблемы шума в последовательности
- Взвешенное по шуму контрастивное обучение: Распределение весов образцам в соответствии со степенью шума, превосходящее традиционное контрастивное обучение с равными весами
- Гауссов ядерный перцептрон: Захват информации из различных областей сходства, улучшение представления последовательности
Использование пяти открытых эталонных наборов данных:
| Набор данных | Кол-во последовательностей | Кол-во пользователей | Кол-во элементов | Средняя длина | Разреженность |
|---|
| ML-100k | 99,287 | 944 | 1,350 | 105.29 | 92.21% |
| Beauty | 198,502 | 22,364 | 12,102 | 8.88 | 99.93% |
| Sports | 296,337 | 35,599 | 18,358 | 8.32 | 99.95% |
| Yelp | 316,354 | 30,432 | 20,034 | 10.40 | 99.95% |
| ML-1M | 999,611 | 6,041 | 3,417 | 165.50 | 95.16% |
- Hit Ratio (HR@{5, 10, 20})
- Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
- Mean Reciprocal Rank (MRR@20)
Базовые модели последовательных рекомендаций:
- GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec
Базовые модели очистки от шума:
- DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec
- Размерность встраивания: 100
- Размер пакета: 256
- Скорость обучения: 10^-3
- Количество гауссовых ядер: 10
- Параметр температуры: τ = 0.5
Сравнение с базовыми моделями последовательных рекомендаций:
MGSD-WSS в сочетании с различными основными моделями последовательных рекомендаций достигает значительного повышения производительности на всех наборах данных. На наборе данных ML-100k MGSD-WSS+BERT4Rec показывает улучшение на 167.43%, 195.87% и 235.67% для HR@20, NDCG@20 и MRR@20 соответственно по сравнению с исходной моделью BERT4Rec.
Сравнение с базовыми моделями очистки от шума:
На большинстве метрик MGSD-WSS+BERT4Rec превосходит другие базовые модели очистки от шума, особенно на наборах данных ML-100k и ML-1M. На наборе данных ML-1M по сравнению с самой сильной базовой моделью MSDCCL+BERT4Rec улучшение составляет 30.80%-60.94% по всем метрикам.
Анализ снижения производительности при удалении каждого модуля:
- w/o AND (без вспомогательной дискриминации шума): Наибольшее снижение производительности, подтверждающее важность слабо контролируемых сигналов
- w/o InSD (без очистки на уровне интересов): Значительное влияние на производительность на наборах данных Beauty, Sports и ML-1M
- w/o ItSD (без очистки на уровне элементов): Наибольшее влияние на наборах данных ML-100k и Yelp
- w/o MGP (без многоядерного гауссова перцептрона): Приводит к снижению производительности, подтверждая эффективность этого модуля
По сравнению с традиционным контрастивным обучением взвешенное по шуму контрастивное обучение улучшает HR@20, NDCG@20 и MRR@20 на 12.59%, 10.63% и 9.48% соответственно на наборе данных ML-100k, подтверждая эффективность точного распределения весов.
Количество элементов шума t:
- Умеренное количество элементов шума помогает модели научиться различать истинные предпочтения и шум
- Избыточный шум разбавляет информационный сигнал, приводя к снижению производительности
Количество интересов пользователя m:
- Оптимальная производительность достигается при m=5
- Избыточное количество интересов может привести к введению нерелевантной информации, снижая производительность
Развитие от ранних методов цепей Маркова к методам глубокого обучения, включая RNN, LSTM, CNN, механизмы внимания, графические нейронные сети. Недавние исследования интегрируют внешние графы знаний, кросс-доменную информацию и многомодальные структуры обучения.
Разделение на методы мягкой очистки (корректировка весов) и жёсткой очистки (прямое удаление). Существующие методы жёсткой очистки в основном полагаются на направление истинных элементов, не имея истинных меток шума и сосредоточиваясь только на уровне элементов.
Использование в системах рекомендаций для извлечения высококачественных представлений, но существующие методы одинаково обрабатывают все образцы, игнорируя различия в важности образцов.
- Слабо контролируемые сигналы значительно повышают точность выявления шума
- Многогранулярная очистка более эффективна, чем очистка только на уровне элементов
- Взвешенное по шуму контрастивное обучение превосходит традиционное контрастивное обучение
- Модель сохраняет устойчивость на последовательностях различной длины
- Неоптимальная производительность по некоторым метрикам на наборах данных с короткими последовательностями (Beauty, Sports, Yelp)
- Введение шума может привести к загрязнению информации в коротких последовательностях
- Требуется предварительная установка гиперпараметров, таких как количество интересов пользователя
- Исследование влияния различных конфигураций гауссовых ядер
- Изучение стратегий генерации противоположного или эвристического шума
- Предоставление теоретического или управляемого данными обоснования для конфигурации интересов
- Высокая инновационность: Первое применение слабо контролируемой очистки от шума в последовательных рекомендациях, предложение структуры многогранулярной очистки
- Полнота метода: Полное решение от обнаружения шума до многогранулярной очистки
- Достаточность экспериментов: Пять наборов данных, множество базовых моделей, подробные абляционные эксперименты и анализ параметров
- Теоретическая обоснованность: Взвешенное по шуму контрастивное обучение имеет чёткую теоретическую мотивацию
- Превосходная производительность: Значительное превосходство над существующими методами по большинству метрик
- Ограничения применимости: Нестабильная производительность на наборах данных с короткими последовательностями
- Вычислительная сложность: Многогранулярная очистка и контрастивное обучение увеличивают вычислительные затраты
- Чувствительность к гиперпараметрам: Требуется тщательная настройка количества шума, количества интересов и других параметров
- Стратегия генерации шума: Случайная вставка шума может быть недостаточно реалистичной
- Академическая ценность: Предоставление нового направления исследований для очистки от шума в последовательных рекомендациях
- Практическая ценность: Применимость к реальным системам рекомендаций для повышения производительности
- Воспроизводимость: Предоставление подробных деталей реализации и кода
- Системы рекомендаций с длинными последовательностями взаимодействий пользователей
- Сценарии рекомендаций с большим количеством шума (электронная коммерция, видеоплатформы)
- Приложения, требующие детального моделирования интересов пользователей
Статья цитирует важные работы в области последовательных рекомендаций, методов очистки от шума и контрастивного обучения, включая:
- Классические методы последовательных рекомендаций: GRU4Rec, SASRec, BERT4Rec
- Работы по очистке от шума: HSD, MSDCCL и др.
- Методы контрастивного обучения: CL4SRec, ICL и др.
Данная статья предоставляет инновационное решение проблемы обработки шума в последовательных рекомендациях, имеющее значительную ценность как в теоретическом, так и в практическом аспектах.