2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.

Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.

academic

Перекрёстное внимание скрытно выполняет ортогональное выравнивание в моделях рекомендаций

Основная информация

ID статьи: 2510.09435
Название: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Авторы: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
Учреждения: Meta, UC Berkeley
Классификация: cs.LG cs.IR
Дата публикации: 13 октября 2025
Ссылка на статью: https://arxiv.org/abs/2510.09435

Аннотация

Кросс-доменная рекомендация последовательностей (CDSR) направлена на выравнивание гетерогенных последовательностей поведения пользователей из различных доменов. Хотя механизмы перекрёстного внимания широко используются для улучшения выравнивания и повышения производительности рекомендаций, их внутренние механизмы остаются недостаточно изученными. Большинство исследователей интерпретируют перекрёстное внимание как остаточное выравнивание (residual alignment), то есть удаление избыточной информации и сохранение неизбыточной информации путём ссылки на данные другого домена (в качестве ключей и значений). В данной работе мы выходим за рамки этого преобладающего взгляда и вводим явление ортогонального выравнивания (Orthogonal Alignment), при котором перекрёстное внимание обнаруживает новую информацию, отсутствующую во входных запросах, и утверждаем, что эти два контрастирующих механизма выравнивания могут сосуществовать в моделях рекомендаций. На основе более 300 экспериментов мы обнаруживаем, что производительность модели улучшается, когда входные и выходные данные перекрёстного внимания ортогональны. Примечательно, что ортогональное выравнивание возникает естественным образом без каких-либо явных ограничений ортогональности. Ключевое понимание заключается в том, что естественное возникновение ортогонального выравнивания объясняется улучшением законов масштабирования, позволяя модели достичь оптимального соотношения точность-параметры.

Предпосылки и мотивация исследования

Определение проблемы

Основная задача, стоящая перед современными системами искусственного интеллекта, заключается в эффективном объединении гетерогенных последовательностей поведения пользователей из нескольких платформ (таких как Facebook, Instagram, Amazon). Следы взаимодействия пользователей в различных доменах являются взаимодополняющими, однако простое объединение сигналов часто приводит к снижению производительности из-за шума, избыточности или конфликтов информации между доменами.

Мотивация исследования

Недостаточное теоретическое понимание: Несмотря на широкое применение перекрёстного внимания в кросс-доменной рекомендации последовательностей, его внутренние механизмы работы остаются недостаточно изученными
Ограничения преобладающего взгляда: Текущие исследования рассматривают перекрёстное внимание главным образом как механизм остаточного выравнивания, то есть подавление шума и избыточности для обеспечения передачи только неизбыточной информации
Потребность в эффективности параметров: С ростом размера модели требуются более эффективные стратегии использования параметров

Ограничения существующих методов

Традиционные методы интерпретируют перекрёстное внимание как фильтр для удаления шума и фильтрации релевантности
Строгое остаточное выравнивание может ограничить обучение избыточным компонентам, общим для кросс-модальных данных, игнорируя уникальную или синергетическую информацию, специфичную для модальности
Отсутствует механистическое понимание того, как перекрёстное внимание извлекает дополнительную информацию

Основные вклады

Обнаружение явления ортогонального выравнивания: Впервые выявлено и определено явление ортогонального выравнивания в перекрёстном внимании, при котором входной запрос X и выход X' стремятся быть ортогональными
Установление связи производительность-ортогональность: Доказано на основе 300+ экспериментов отрицательную корреляцию между степенью ортогональности и производительностью рекомендаций
Предложение объяснения эффективности параметров: Доказано, что естественное возникновение ортогонального выравнивания объясняется обеспечением параметрически эффективной стратегии масштабирования модели
Разработка модуля управляемого перекрёстного внимания: Предложен модуль GCA (Gated Cross-Attention), способный естественным образом индуцировать ортогональное выравнивание
Кросс-модельная верификация: Верификация универсальности обнаруженных явлений на трёх базовых алгоритмах CDSR и четырёх комбинациях многодоменных наборов данных

Подробное описание методологии

Определение задачи

Задача кросс-доменной рекомендации последовательностей определяется следующим образом: даны последовательности взаимодействий пользователя в доменах A и B: $X_A \in \mathbb{R}^{B \times l_A \times d}$ и $X_B \in \mathbb{R}^{B \times l_B \times d}$ , предсказать следующий элемент взаимодействия пользователя в целевом домене.

Модуль управляемого перекрёстного внимания (GCA)

Основная архитектура

Математическое выражение модуля GCA:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

где:

$X'_A = CA(X_A, X_B)$ — выход перекрёстного внимания
$FFN([X_A; X_B])$ — сеть прямого распространения, действующая на конкатенированное представление, производящая значения управления
$⊙$ обозначает произведение Адамара (поэлементное умножение)

Характеристики проектирования

Обучаемое управление: В отличие от фиксированных структур управления, модуль управления обучается векторным значениям управления на основе конкатенированной входной последовательности
Селективное распространение информации: Значения управления контролируют степень, в которой представление перекрёстного внимания $X'_A$ интегрируется с исходным представлением $X_A$
Гибкие функции активации: Поддерживает функции активации sigmoid или tanh

Механизм ортогонального выравнивания

Определение явления

Ортогональное выравнивание относится к механизму выравнивания представлений, при котором входной запрос (X) и выход (X') перекрёстного внимания стремятся быть ортогональными, а не просто усиливать предварительно выровненные признаки X.

Метод измерения

Степень ортогональности измеряется с использованием усреднённого по пакетам и позициям косинусного сходства:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

Ключевые находки

Ортогональное выравнивание возникает естественным образом без явной регуляризации ортогональности
|cos(X, X')| демонстрирует отрицательную корреляцию с производительностью рекомендаций
Степень ортогональности остаётся стабильной между различными моделями (медиана ≈ 0,1–0,2)

Экспериментальная установка

Наборы данных

Используются открытые наборы данных Amazon Reviews, охватывающие различные доменные типы продуктов:

Cloth-Sport
Electronic-Phone
Beauty-Electronics
Food-Kitchen

Базовые модели

Выбраны три недавних алгоритма CDSR:

CDSRNP: Кросс-доменная рекомендация на основе условных нейронных процессов
ABXI: Кросс-доменная рекомендация последовательностей, ориентированная на задачи
LLM4CDSR: Кросс-доменная рекомендация на основе больших языковых моделей

Метрики оценки

NDCG@1, NDCG@10: качество ранжирования
AUC: дискриминативная способность
HR@5, HR@10, HR@20: коэффициент попадания

Конфигурация экспериментов

Позиции вставки модуля GCA: GCA0 (ранний), GCA1 (средний) и т.д.
Функции активации: sigmoid, tanh
Количество голов внимания: 4, 8
Каждая конфигурация запускается 5 раз с различными случайными семенами

Результаты экспериментов

Основные результаты

Последовательность повышения производительности

На всех трёх базовых моделях ранний модуль GCA (GCAearly) обеспечивает последовательное повышение производительности:

LLM4CDSR на наборе данных Cloth-Sport:

NDCG@1A: 0,716 → 0,728 (+1,2%)
NDCG@10A: 0,782 → 0,805 (+2,3%)
AUCA: +1,5%

ABXI на наборе данных Food-Kitchen:

NDCG@1A: 0,059 → 0,072 (+22%)
NDCG@10A: 0,154 → 0,176 (+14%)

Связь ортогональное выравнивание-производительность

Ключевая находка: |cos(X, X')| демонстрирует значительную отрицательную корреляцию с NDCG@10:

LLM4CDSR домен B: r = -0,452
ABXI домен A: r = -0,328, домен B: r = -0,340
CDSRNP домен B: r = -0,296

Верификация эффективности параметров

Сравнение модели, улучшенной GCA, с базовой моделью с соответствующим количеством параметров:

Во всех 5 тестовых случаях базовая модель + GCAearly превосходит базовую модель с соответствующим количеством параметров
LLM4CDSR демонстрирует наиболее сильную эффективность параметров, что объясняется ограничением фиксированной размерности предварительно обученных встраиваний LLM

Анализ эффекта стекирования

Вертикальное стекирование нескольких модулей GCA не всегда приводит к монотонному повышению производительности:

CDSRNP: от 0,1 к более глубокому стекированию без дальнейшего улучшения
ABXI: выборочное размещение 1,2 показывает наилучший результат
LLM4CDSR: отдельная позиция 1 превосходит конфигурацию стекирования 0,1

Независимость ортогонализации

Ортогонализация, индуцируемая GCA, независима от сходства X и Y:

|cos(X, X')| остаётся стабильным между различными моделями (диапазон 0,1–0,2)
|cos(X, Y)| варьируется в зависимости от набора данных (0,020–0,397)
Доказывает, что GCA внутренне индуцирует контролируемую степень ортогонализации

Связанные работы

Выравнивание мультимодальности

Методы контрастивного обучения: CLIP, ALIGN и другие достигают выравнивания изображение-текст через контрастивные цели
Механизмы перекрёстного внимания: Используются в моделях диффузии текст-изображение как фильтры для удаления шума и фильтрации релевантности
Проблема модального разрыва: Явление, при котором встраивания изображений и текста занимают непересекающиеся области

Кросс-доменная рекомендация последовательностей

Ранние методы: MiNet сеть смешанных интересов, RecGURU состязательное обучение
Архитектуры Transformer: DASL двойное внимание, MAN сеть смешанного внимания
Методы метаобучения: CDSRNP нейронные процессы, Tri-CDR тройное последовательное обучение
Интеграция LLM: LLM4CDSR, ABXI и другие последние достижения

Заключение и обсуждение

Основные выводы

Универсальность ортогонального выравнивания: В кросс-доменной рекомендации перекрёстное внимание естественным образом производит явление ортогонального выравнивания
Механизм повышения производительности: Отрицательная корреляция между степенью ортогональности и производительностью рекомендаций предоставляет новую перспективу оптимизации производительности
Преимущества эффективности параметров: Ортогональное выравнивание достигает параметрически эффективного масштабирования путём исследования ортогональных подпространств
Руководство по проектированию архитектуры: Раннее размещение GCA наиболее эффективно, глубокое стекирование требует осторожного применения

Ограничения

Диапазон наборов данных: Эксперименты в основном основаны на данных рекомендаций Amazon, обобщаемость требует дальнейшей верификации
Применимость к моделям зрение-язык: Из-за характеристик контрастивного обучения предварительно обученных кодировщиков, наблюдение ортогонального выравнивания в моделях VLM может быть более сложным
Объяснение механизма: Эффективность параметров может быть не единственным объяснением возникновения ортогонального выравнивания
Выбор базовых моделей: Различные базовые модели используют различные подмножества данных, что может влиять на сравнение результатов

Направления будущих исследований

Исследование архитектур: Разработка более эффективных механизмов ортогонального выравнивания, выходящих за рамки GCA
Теоретический анализ: Глубокое понимание математических принципов и свойств сходимости ортогонального выравнивания
Кросс-доменная верификация: Верификация обнаруженных явлений в других мультимодальных задачах, таких как модели зрение-язык
Разработка метрик: Разработка более тонких методов измерения ортогонального выравнивания

Глубокая оценка

Преимущества

Значительный теоретический вклад: Оспаривает традиционное понимание перекрёстного внимания как остаточного выравнивания, предлагая новую перспективу ортогонального выравнивания
Строгое проектирование экспериментов: 300+ конфигураций экспериментов, несколько базовых моделей, верификация статистической значимости
Глубокое объяснение механизма: Не только обнаруживает явление, но и предоставляет разумное объяснение эффективности параметров
Высокая практическая ценность: Модуль GCA прост и эффективен, легко интегрируется в существующие архитектуры
Ясное изложение: Чёткое определение концепций, достаточное представление результатов экспериментов

Недостатки

Разнообразие наборов данных: В основном основано на данных электронной коммерции, применимость в других областях недостаточно верифицирована
Теоретическая база: Отсутствует строгий математический теоретический анализ явления ортогонального выравнивания
Вычислительные затраты: Недостаточно подробный анализ вычислительной сложности и эффективности вывода модуля GCA
Чувствительность гиперпараметров: Недостаточный анализ чувствительности к выбору функции управления, количеству голов внимания и другим гиперпараметрам
Долгосрочные эффекты: Не оценена стабильность ортогонального выравнивания в длинных последовательностях или при крупномасштабном развёртывании

Влияние

Академическая ценность: Предоставляет новую теоретическую перспективу для мультимодального обучения и систем рекомендаций
Практическое руководство: Предоставляет конкретные решения по улучшению архитектуры для проектирования систем кросс-доменной рекомендации
Вклад в методологию: Метод измерения степени ортогонального выравнивания может быть применён к анализу других мультимодальных задач
Исследовательское вдохновение: Открывает новое направление исследований по пониманию механизмов внимания с точки зрения ортогональности

Применимые сценарии

Кросс-доменная рекомендация: Сценарии многодоменной рекомендации в электронной коммерции, социальных сетях, платформах контента
Мультимодальное обучение: Задачи машинного обучения, требующие объединения гетерогенных источников данных
Оптимизация эффективности параметров: Потребности в масштабировании моделей в условиях ограниченных ресурсов
Исследование механизмов внимания: Работы по глубокому пониманию архитектуры трансформера

Библиография

Статья цитирует важные работы в областях систем рекомендаций, мультимодального обучения и механизмов внимания, включая:

Vaswani et al. (2017): Основы архитектуры Transformer
Radford et al. (2021): Метод контрастивного обучения CLIP
Alayrac et al. (2022): Мультимодальная модель Flamingo
Множество связанных работ CDSR: MiNet, RecGURU, DASL, MAN и др.

Общая оценка: Это высококачественная исследовательская статья, демонстрирующая превосходство как в теоретическом вкладе, так и в практической ценности. Путём обнаружения и анализа явления ортогонального выравнивания она предоставляет новую перспективу понимания в области мультимодального обучения, обладая значительной академической ценностью и перспективами применения.