Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
- ID статьи: 2501.00384
- Название: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
- Авторы: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
- Категория: cs.IR (Поиск информации)
- Конференция: WSDM '25 (Восемнадцатая международная конференция ACM по веб-поиску и интеллектуальному анализу данных)
- Ссылка на статью: https://arxiv.org/abs/2501.00384
Восстановление предпочтений пользователей из матрицы взаимодействия пользователь-товар в системах рекомендаций является ключевой задачей. Хотя модели диффузии могут выполнять выборку и реконструкцию предпочтений из скрытого распределения, они часто не могут эффективно захватить коллективные предпочтения похожих пользователей. Кроме того, скрытые переменные деградируют в чистый гауссовский шум в процессе прямого распространения, что снижает отношение сигнал-шум и влияет на производительность. Для решения этих проблем предлагается S-Diff, вдохновленный методами коллаборативной фильтрации на основе графов, который лучше использует низкочастотные компоненты в спектральной области. S-Diff отображает векторы взаимодействия пользователей в спектральную область и параметризует шум диффузии для выравнивания с частотами графа. Эта анизотропная диффузия сохраняет важные низкочастотные компоненты и поддерживает высокое отношение сигнал-шум. S-Diff дополнительно использует условную сеть удаления шума для кодирования взаимодействий пользователей и восстановления истинных предпочтений из зашумленных данных. Метод демонстрирует сильные результаты на нескольких наборах данных.
Основная задача систем рекомендаций состоит в восстановлении истинных предпочтений пользователей из разреженной матрицы взаимодействия пользователь-товар, что по сути является обратной задачей. Традиционные методы коллаборативной фильтрации решают эту проблему путем выявления сходства между пользователями.
- Недостатки традиционных моделей диффузии:
- Главным образом полагаются на векторы взаимодействия отдельных пользователей в качестве условного входа, не полностью используя информацию о совместных предпочтениях между пользователями в коллаборативной фильтрации
- Вводят большое количество гауссовского шума в высокомерные векторы исторического взаимодействия, что усложняет процесс восстановления декодером удаления шума
- Несогласованность кодирования-декодирования:
- Некоторые модели явно используют коллаборативную информацию в качестве условного руководства в сети декодирования, но процесс прямого распространения не отражает коллаборативный сигнал
- Приводит к несогласованности между процессами кодирования и декодирования
- Деградация отношения сигнал-шум:
- Скрытые переменные деградируют в чистый гауссовский шум в процессе прямого распространения, снижая отношение сигнал-шум
- Влияет на общую производительность модели
Вдохновленные успехом методов коллаборативной фильтрации на основе графов и обработки графовых сигналов, авторы наблюдают, что процесс "чрезмерного сглаживания" графовой свертки аналогичен сглаживанию сигнала в процессе диффузии. На основе этого наблюдения предлагается проведение анизотропной диффузии в спектральной области графа для лучшего сохранения низкочастотной информации (представляющей глобальные предпочтения).
- Предложение процесса прямой диффузии в спектральной области: Введение процесса прямой диффузии, определенного в спектральной области графа, который эффективно интегрирует информацию о глобальных предпочтениях пользователя
- Метод параметризации анизотропного шума: Предложение метода параметризации модуляции масштабов шума для различных частотных компонентов; теоретический анализ и экспериментальные результаты доказывают преимущества этого подхода в отношении сигнал-шум
- Модуль удаления шума с поэлементным слиянием: Разработка модуля удаления шума на основе поэлементного слияния в обратном процессе; обширные эксперименты подтверждают эффективность предложенного метода
- Теоретические гарантии: Предоставление анализа ограниченности процесса диффузии в спектральной области, доказывающего теоретическую обоснованность метода
Учитывая набор пользователей U и набор товаров I, матрица взаимодействия пользователь-товар X ∈ {0,1}^{|U|×|I|}, где x_{u,i} = 1 указывает на взаимодействие пользователя u с товаром i. Цель состоит в предсказании вектора оценок x̂ ∈ ℝ^{|I|}, генерирующего скрытые баллы предпочтений всех товаров для указанного пользователя.
- График сходства товаров: Определение нормализованной матрицы смежности сходства A = X̃^TX̃, где X̃ = D_U^{-1/2}X****D_I^{-1/2}
- Оператор Лапласа: L = I - A
- Спектральное разложение: L = UΛU^T, где Λ содержит собственные значения, U содержит собственные векторы
Традиционный процесс диффузии: x_t = α_tx_0 + σ_tε_t
Улучшенная направляемая графом диффузия: x_t = C_tx_0 + σ_tε_t
где C_t = e^{-Lt} является оператором временного затухания, определяемым матрицей Лапласа.
Преобразование процесса диффузии в спектральную область через спектральное преобразование v_t = U^Tx_t:
v_t = λ_t ⊙ v_0 + σtv{ε,t}
где:
- v_0 = U^Tx_0 является частотной характеристикой x_0
- λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} является вектором собственных значений
- ⊙ обозначает поэлементное умножение
Применение модели диффузии с сохранением дисперсии:
- α_t = λ_t
- σ_t^2 = 1 - λ_t^2
Введение параметризованного управления границами:
- αt = (1 - α) · λt + α
- σ_t = Min(√(1 - λt^2), σ)
Использование нейронной сети φ_θ для удаления шума с целевой функцией оптимизации:
L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2
- Отображение в спектральную область: Преобразование традиционной пространственной диффузии в спектральную область графа, использование спектральных характеристик графа
- Анизотропный шум: Модуляция уровней шума для различных частотных компонентов в соответствии с собственными значениями, сохранение низкочастотной информации
- Свойства ограниченности: Благодаря ограниченности собственных значений матрицы Лапласа обеспечивается нижняя граница отношения сигнал-шум
- FiLM слияние: Использование Feature-wise Linear Modulation для поэлементного условного слияния
Использование трех открытых наборов данных:
- MovieLens-1M: 5,949 пользователей, 2,810 товаров, 571,531 взаимодействие, разреженность 96.6%
- Yelp: 54,574 пользователя, 34,395 товаров, 1,402,736 взаимодействий, разреженность 99.93%
- Amazon-Book: 108,822 пользователя, 94,949 товаров, 3,146,256 взаимодействий, разреженность 99.97%
Данные разделены в соотношении 7:1:2 на обучающий, валидационный и тестовый наборы.
- Recall@K: Измерение доли релевантных товаров в списке рекомендаций top-K
- NDCG@K: Метрика, чувствительная к ранжированию, присваивающая более высокие баллы релевантным товарам на более высоких позициях
Включение традиционных методов коллаборативной фильтрации, методов на основе графовых нейронных сетей и моделей диффузии:
- MF, LightGCN, CDAE, MultiDAE/MultiVAE
- CODIGEM, DiffRec (модели диффузии)
- LinkProp, BSPM, Giff (методы обработки графовых сигналов)
- Размер пакета: 100
- Скорость обучения: 1e-4
- Максимальное количество эпох обучения: 1,000
- Количество шагов диффузии: T=5
- Размерность спектрального разложения: 200 измерений
На всех наборах данных и метриках оценки S-Diff значительно превосходит все методы сравнения:
Набор данных Amazon-Book:
- Recall@10: 0.1155 (против лучшего базового метода Giff: 0.1109)
- NDCG@10: 0.0746 (против лучшего базового метода Giff: 0.0733)
Набор данных Yelp:
- Recall@10: 0.0635 (против лучшего базового метода Giff: 0.0639)
- NDCG@20: 0.0561 (против лучшего базового метода Giff: 0.0520)
Набор данных MovieLens-1M:
- Recall@10: 0.1277 (против лучшего базового метода Giff: 0.1108)
- NDCG@10: 0.0970 (против лучшего базового метода Giff: 0.0952)
Сравнение различных стратегий расписания шума:
- DDPM in Spectral: Использование традиционного гауссовского шума в спектральной области
- S-Diff-VE: Диффузия с взрывом дисперсии
- S-Diff-VP: Диффузия с сохранением дисперсии (предложенный метод)
Результаты показывают, что S-Diff-VP является оптимальным как по отношению сигнал-шум, так и по производительности.
Удаление слоя FiLM приводит к значительному снижению производительности, подтверждая важность поэлементного слияния.
Теоретический анализ и эксперименты доказывают, что спектральная анизотропная диффузия имеет лучшую нижнюю границу отношения сигнал-шум по сравнению с традиционными моделями диффузии:
SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)
Эксперименты показывают, что даже после 1000 шагов диффузии S-Diff сохраняет различимое отношение сигнал-шум.
- Размерность спектрального разложения K: Оптимальная производительность достигается при K=200
- Параметры границ: Лучшие результаты при α_ ∈ 0, 0.1, σ_ ∈ 0.4, 0.5
- CODIGEM: Первое применение DDPM к коллаборативной фильтрации
- DiffRec: Улучшение модели диффузии через отображение скрытого пространства и руководство временным шагом
- CF-Diff: Предварительное вычисление информации о соседях на несколько переходов в качестве условия
- Giff: Использование распространения графа для сглаживания и восстановления сигнала
- LightGCN: Многоуровневая линейная агрегация информации соседей
- Poly-CF: Адаптивная спектральная фильтрация графа
- SGFCF: Преобразование коллаборативной фильтрации в задачу проектирования адаптивного фильтра
- S-Diff успешно объединяет теорию спектральных графов с моделями диффузии, проводя анизотропную диффузию в спектральной области
- Путем сохранения низкочастотных компонентов и поддержания высокого отношения сигнал-шум значительно улучшает производительность рекомендаций
- Метод имеет прочную теоретическую основу и экспериментальную проверку
- Вычислительная сложность: Требует спектрального разложения с временной сложностью O(K|I|m)
- Настройка параметров: Требует тщательной настройки параметров границ α_ и σ_
- Масштабируемость: Применимость к наборам данных сверхбольшого масштаба требует дальнейшей проверки
- Оптимизация вычислительной эффективности: Исследование более эффективных методов спектрального разложения и процессов диффузии
- Адаптивные параметры: Разработка методов автоматической настройки параметров шума
- Расширение на мультимодальность: Распространение метода на сценарии мультимодальных рекомендаций
- Теоретическая инновация: Умелое объединение обработки графовых сигналов и моделей диффузии, предоставление нового теоретического взгляда
- Передовая техника: Расписание анизотропного шума и диффузия в спектральной области являются важными техническими вкладами
- Полные эксперименты: Проведение всестороннего сравнения и абляционных исследований на нескольких наборах данных
- Превосходная производительность: Достижение лучших результатов по всем метрикам оценки
- Высокая сложность: Спектральное разложение увеличивает вычислительные затраты, что может ограничить применение на крупномасштабных данных
- Чувствительность к параметрам: Метод включает несколько гиперпараметров, требующих тщательной настройки
- Недостаточно глубокий теоретический анализ: Отсутствие более глубокого теоретического объяснения того, почему анизотропная диффузия более эффективна
- Академическая ценность: Предоставление новых идей для применения моделей диффузии в системах рекомендаций
- Практическая ценность: Метод демонстрирует хорошее улучшение производительности с потенциалом практического применения
- Воспроизводимость: Статья предоставляет подробные детали реализации и описание алгоритма
- Системы рекомендаций среднего масштаба
- Сценарии с высокими требованиями к качеству рекомендаций
- Наборы данных с явными характеристиками коллаборативной фильтрации
- Среды с относительно достаточными вычислительными ресурсами
Статья цитирует 52 связанные работы, охватывающие важные исследования в области моделей диффузии, коллаборативной фильтрации, графовых нейронных сетей и других областей, предоставляя прочную теоретическую основу для данного исследования.
Общая оценка: Это высококачественная исследовательская статья, демонстрирующая отличные результаты как в теоретических инновациях, так и в экспериментальной проверке. Объединение теории спектральных графов и моделей диффузии является ценным вкладом, предоставляющим новое направление исследований для области систем рекомендаций. Несмотря на некоторые ограничения, это работа, заслуживающая внимания.