2025-11-23T00:10:15.831186

Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation

Li, Yang, Zhu

Sequential recommendation aims to predict the next item based on user interests in historical interaction sequences. Historical interaction sequences often contain irrelevant noisy items, which significantly hinders the performance of recommendation systems. Existing research employs unsupervised methods that indirectly identify item-granularity irrelevant noise by predicting the ground truth item. Since these methods lack explicit noise labels, they are prone to misidentify users' interested items as noise. Additionally, while these methods focus on removing item-granularity noise driven by the ground truth item, they overlook interest-granularity noise, limiting their ability to perform broader denoising based on user interests. To address these issues, we propose Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation(MGSD-WSS). MGSD-WSS first introduces the Multiple Gaussian Kernel Perceptron module to map the original and enhance sequence into a common representation space and utilizes weakly supervised signals to accurately identify noisy items in the historical interaction sequence. Subsequently, it employs the item-granularity denoising module with noise-weighted contrastive learning to obtain denoised item representations. Then, it extracts target interest representations from the ground truth item and applies noise-weighted contrastive learning to obtain denoised interest representations. Finally, based on the denoised item and interest representations, MGSD-WSS predicts the next item. Extensive experiments on five datasets demonstrate that the proposed method significantly outperforms state-of-the-art sequence recommendation and denoising models. Our code is available at https://github.com/lalunex/MGSD-WSS.

academic

Многогранулярная очистка последовательностей от шума с использованием слабо контролируемых сигналов для последовательных рекомендаций

Основная информация

ID статьи: 2510.10564
Название: Multi-Granularity Sequence Denoising with Weakly Supervised Signal for Sequential Recommendation
Авторы: Liang Li (Чунцинский технологический университет), Zhou Yang (Фучжоуский университет), Xiaofei Zhu (Чунцинский технологический университет)
Классификация: cs.IR (Информационный поиск)
Дата публикации: 12 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10564
Ссылка на код: https://github.com/lalunex/MGSD-WSS

Аннотация

Последовательные рекомендации направлены на прогнозирование следующего элемента на основе интересов пользователя из его исторической последовательности взаимодействий. Исторические последовательности взаимодействий обычно содержат нерелевантные элементы шума, которые значительно препятствуют производительности систем рекомендаций. Существующие исследования используют неконтролируемые методы для косвенного выявления нерелевантного шума на уровне элементов путём прогнозирования истинных элементов. Поскольку эти методы не имеют явных меток шума, они легко могут ошибочно классифицировать интересующие пользователя элементы как шум. Кроме того, эти методы сосредоточены на удалении шума на уровне элементов, вызванного истинными элементами, но игнорируют шум на уровне интересов, что ограничивает возможность более широкой очистки на основе интересов пользователя. Для решения этих проблем в данной работе предлагается метод многогранулярной очистки последовательностей от шума со слабо контролируемыми сигналами для последовательных рекомендаций (MGSD-WSS).

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, с которой сталкиваются системы последовательных рекомендаций, заключается в наличии элементов шума в исторических последовательностях взаимодействий, таких как случайные клики и вредоносные поддельные взаимодействия, которые значительно снижают производительность систем рекомендаций.

Ограничения существующих методов

Методы мягкой очистки: Корректируют вес элементов шума посредством механизмов внимания или алгоритмов фильтрации, но не могут полностью устранить влияние шума
Методы жёсткой очистки: Генерируют сигналы обнаружения шума для явного удаления элементов шума, но имеют следующие проблемы:
- Используют истинные элементы вместо истинных меток шума для направления модели при выявлении шума, что ограничивает точность
- Сосредоточены только на очистке на уровне элементов, игнорируя шум на уровне интересов

Исследовательская мотивация

Отсутствие явных меток шума приводит к тому, что существующие неконтролируемые методы легко ошибочно классифицируют интересующие пользователя элементы
Взаимодействия пользователей отражают не только предпочтения конкретных элементов, но и интересы более высокого уровня (например, интерес к "спорту" включает футбол, спортивную обувь, беговые дорожки и т.д.)
Необходима иерархическая очистка на нескольких уровнях для более полного удаления шума

Основные вклады

Первое введение слабо контролируемых сигналов: Прямое обучение модели для выявления шума с использованием помеченных слабо контролируемых сигналов, преодоление неточности предыдущих неконтролируемых методов
Иерархическая многогранулярная очистка: Предложение модулей иерархической очистки на уровне элементов и интересов в сочетании с взвешенным по шуму контрастивным обучением
Инновационный дизайн архитектуры:
- Модуль Multiple Gaussian Kernel Perceptron (MGP)
- Target-aware Sequence Encoding
- Структура взвешенного по шуму контрастивного обучения
Значительное повышение производительности: Существенное превосходство над современными моделями последовательных рекомендаций и очистки от шума на пяти наборах данных

Подробное описание метода

Определение задачи

Дано множество пользователей $\mathcal{U} = \{u_1, u_2, \ldots, u_{|\mathcal{U}|}\}$ и множество элементов $\mathcal{V} = \{v_1, v_2, \ldots, v_{|\mathcal{V}|}\}$ . Каждый пользователь $u \in \mathcal{U}$ связан с упорядоченной по времени исторической последовательностью взаимодействий $S = [s_1, s_2, \ldots, s_n]$ . Цель состоит в использовании последовательности взаимодействий $S$ для прогнозирования элемента, с которым пользователь с наибольшей вероятностью взаимодействует на шаге $(n+1)$ , то есть $p(s_{n+1}|s_{1:n})$ .

Архитектура модели

MGSD-WSS содержит три основных компонента:

1. Кодирование последовательности с учётом целевого элемента

Увеличение данных последовательности:

Случайный выбор $t$ различных элементов для вставки в исходную последовательность в качестве шума
Построение увеличенной последовательности $\bar{S} = [\bar{s}_1, \bar{s}_2, \ldots, \bar{s}_{n+t}]$
Получение контролируемого сигнала $\bar{Y} = [\bar{y}_1, \bar{y}_2, \ldots, \bar{y}_{n+t}]$ , указывающего позиции шума

Multiple Gaussian Kernel Perceptron (MGP):

Вычисление косинусного сходства целевого элемента с каждым элементом в последовательности: $\bar{\alpha}_i = \cos(\bar{h}_{n+1}, \bar{h}_i)$
Использование $k$ гауссовых ядер для преобразования оценок релевантности: $r_{ij} = \exp\left(-\frac{(\bar{\alpha}_i - \mu_j)^2}{2\sigma_j^2}\right)$ $\hat{h}_i = \sum_{j=1}^k r_{ij} \bar{h}_i$
Получение богатых представлений через кодировщик Transformer: $G = \text{Transformer}(\hat{H} + P)$

2. Вспомогательная дискриминация шума

Использование общего дискриминатора шума на уровне элементов для обнаружения элементов шума в увеличенной последовательности: $\boldsymbol{\beta}_i = \text{Softmax}((\text{ReLU}(\bar{g}_i W_1 + b_1))W_2)$

Минимизация разницы между сигналом обнаружения шума и контролируемым сигналом через потерю MSE: $MSE = \frac{1}{n}\sum_{i=1}^n (\beta_i^0 - \bar{y}_i)^2$

3. Многогранулярная очистка последовательности от шума

Очистка на уровне элементов:

Использование Gumbel-softmax для преобразования сигнала обнаружения шума в двоичные жёсткие значения
Фильтрация элементов шума для построения матрицы очищенного представления
Применение взвешенного по шуму контрастивного обучения: $ITSCL = -\frac{1}{|G^+|}\sum_{g_i \in G^+} \log \frac{\omega(g_i) \cdot \exp(\text{sim}(e_{se}, g_i)/\tau)}{\sum_{g_j \in G} \omega(g_j) \cdot \exp(\text{sim}(e_{se}, g_j)/\tau)}$

Очистка на уровне интересов:

Введение обучаемой матрицы представления интересов $Q = [q_1, q_2, \ldots, q_m]$
Вычисление оценок релевантности элементов и интересов
Использование целевого внимания к интересам для оценки надёжности интересов
Применение взвешенного по шуму контрастивного обучения на уровне интересов

Технические инновации

Генерация слабо контролируемых сигналов: Генерирование явных меток шума через стратегию увеличения данных, обеспечение точных контролируемых сигналов
Многогранулярная очистка: Одновременная очистка на уровне элементов и интересов для более полного решения проблемы шума в последовательности
Взвешенное по шуму контрастивное обучение: Распределение весов образцам в соответствии со степенью шума, превосходящее традиционное контрастивное обучение с равными весами
Гауссов ядерный перцептрон: Захват информации из различных областей сходства, улучшение представления последовательности

Экспериментальная установка

Наборы данных

Использование пяти открытых эталонных наборов данных:

Набор данных	Кол-во последовательностей	Кол-во пользователей	Кол-во элементов	Средняя длина	Разреженность
ML-100k	99,287	944	1,350	105.29	92.21%
Beauty	198,502	22,364	12,102	8.88	99.93%
Sports	296,337	35,599	18,358	8.32	99.95%
Yelp	316,354	30,432	20,034	10.40	99.95%
ML-1M	999,611	6,041	3,417	165.50	95.16%

Метрики оценки

Hit Ratio (HR@{5, 10, 20})
Normalized Discounted Cumulative Gain (NDCG@{5, 10, 20})
Mean Reciprocal Rank (MRR@20)

Методы сравнения

Базовые модели последовательных рекомендаций:

GRU4Rec, NARM, STAMP, CASER, SASRec, BERT4Rec

Базовые модели очистки от шума:

DSAN, FMLP-Rec, HSD+BERT4Rec, AC-BERT4Rec, MSDCCL+BERT4Rec

Детали реализации

Размерность встраивания: 100
Размер пакета: 256
Скорость обучения: 10^-3
Количество гауссовых ядер: 10
Параметр температуры: τ = 0.5

Результаты экспериментов

Основные результаты

Сравнение с базовыми моделями последовательных рекомендаций: MGSD-WSS в сочетании с различными основными моделями последовательных рекомендаций достигает значительного повышения производительности на всех наборах данных. На наборе данных ML-100k MGSD-WSS+BERT4Rec показывает улучшение на 167.43%, 195.87% и 235.67% для HR@20, NDCG@20 и MRR@20 соответственно по сравнению с исходной моделью BERT4Rec.

Сравнение с базовыми моделями очистки от шума: На большинстве метрик MGSD-WSS+BERT4Rec превосходит другие базовые модели очистки от шума, особенно на наборах данных ML-100k и ML-1M. На наборе данных ML-1M по сравнению с самой сильной базовой моделью MSDCCL+BERT4Rec улучшение составляет 30.80%-60.94% по всем метрикам.

Абляционные эксперименты

Анализ снижения производительности при удалении каждого модуля:

w/o AND (без вспомогательной дискриминации шума): Наибольшее снижение производительности, подтверждающее важность слабо контролируемых сигналов
w/o InSD (без очистки на уровне интересов): Значительное влияние на производительность на наборах данных Beauty, Sports и ML-1M
w/o ItSD (без очистки на уровне элементов): Наибольшее влияние на наборах данных ML-100k и Yelp
w/o MGP (без многоядерного гауссова перцептрона): Приводит к снижению производительности, подтверждая эффективность этого модуля

Анализ взвешенного по шуму контрастивного обучения

По сравнению с традиционным контрастивным обучением взвешенное по шуму контрастивное обучение улучшает HR@20, NDCG@20 и MRR@20 на 12.59%, 10.63% и 9.48% соответственно на наборе данных ML-100k, подтверждая эффективность точного распределения весов.

Анализ чувствительности параметров

Количество элементов шума $t$ :

Умеренное количество элементов шума помогает модели научиться различать истинные предпочтения и шум
Избыточный шум разбавляет информационный сигнал, приводя к снижению производительности

Количество интересов пользователя $m$ :

Оптимальная производительность достигается при $m=5$
Избыточное количество интересов может привести к введению нерелевантной информации, снижая производительность

Связанные работы

Последовательные рекомендации

Развитие от ранних методов цепей Маркова к методам глубокого обучения, включая RNN, LSTM, CNN, механизмы внимания, графические нейронные сети. Недавние исследования интегрируют внешние графы знаний, кросс-доменную информацию и многомодальные структуры обучения.

Методы очистки от шума

Разделение на методы мягкой очистки (корректировка весов) и жёсткой очистки (прямое удаление). Существующие методы жёсткой очистки в основном полагаются на направление истинных элементов, не имея истинных меток шума и сосредоточиваясь только на уровне элементов.

Контрастивное обучение

Использование в системах рекомендаций для извлечения высококачественных представлений, но существующие методы одинаково обрабатывают все образцы, игнорируя различия в важности образцов.

Заключение и обсуждение

Основные выводы

Слабо контролируемые сигналы значительно повышают точность выявления шума
Многогранулярная очистка более эффективна, чем очистка только на уровне элементов
Взвешенное по шуму контрастивное обучение превосходит традиционное контрастивное обучение
Модель сохраняет устойчивость на последовательностях различной длины

Ограничения

Неоптимальная производительность по некоторым метрикам на наборах данных с короткими последовательностями (Beauty, Sports, Yelp)
Введение шума может привести к загрязнению информации в коротких последовательностях
Требуется предварительная установка гиперпараметров, таких как количество интересов пользователя

Направления будущих исследований

Исследование влияния различных конфигураций гауссовых ядер
Изучение стратегий генерации противоположного или эвристического шума
Предоставление теоретического или управляемого данными обоснования для конфигурации интересов

Глубокая оценка

Преимущества

Высокая инновационность: Первое применение слабо контролируемой очистки от шума в последовательных рекомендациях, предложение структуры многогранулярной очистки
Полнота метода: Полное решение от обнаружения шума до многогранулярной очистки
Достаточность экспериментов: Пять наборов данных, множество базовых моделей, подробные абляционные эксперименты и анализ параметров
Теоретическая обоснованность: Взвешенное по шуму контрастивное обучение имеет чёткую теоретическую мотивацию
Превосходная производительность: Значительное превосходство над существующими методами по большинству метрик

Недостатки

Ограничения применимости: Нестабильная производительность на наборах данных с короткими последовательностями
Вычислительная сложность: Многогранулярная очистка и контрастивное обучение увеличивают вычислительные затраты
Чувствительность к гиперпараметрам: Требуется тщательная настройка количества шума, количества интересов и других параметров
Стратегия генерации шума: Случайная вставка шума может быть недостаточно реалистичной

Влияние

Академическая ценность: Предоставление нового направления исследований для очистки от шума в последовательных рекомендациях
Практическая ценность: Применимость к реальным системам рекомендаций для повышения производительности
Воспроизводимость: Предоставление подробных деталей реализации и кода

Сценарии применения

Системы рекомендаций с длинными последовательностями взаимодействий пользователей
Сценарии рекомендаций с большим количеством шума (электронная коммерция, видеоплатформы)
Приложения, требующие детального моделирования интересов пользователей

Библиография

Статья цитирует важные работы в области последовательных рекомендаций, методов очистки от шума и контрастивного обучения, включая:

Классические методы последовательных рекомендаций: GRU4Rec, SASRec, BERT4Rec
Работы по очистке от шума: HSD, MSDCCL и др.
Методы контрастивного обучения: CL4SRec, ICL и др.

Данная статья предоставляет инновационное решение проблемы обработки шума в последовательных рекомендациях, имеющее значительную ценность как в теоретическом, так и в практическом аспектах.