Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic
Перекрёстное внимание скрытно выполняет ортогональное выравнивание в моделях рекомендаций
Название: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Авторы: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
Кросс-доменная рекомендация последовательностей (CDSR) направлена на выравнивание гетерогенных последовательностей поведения пользователей из различных доменов. Хотя механизмы перекрёстного внимания широко используются для улучшения выравнивания и повышения производительности рекомендаций, их внутренние механизмы остаются недостаточно изученными. Большинство исследователей интерпретируют перекрёстное внимание как остаточное выравнивание (residual alignment), то есть удаление избыточной информации и сохранение неизбыточной информации путём ссылки на данные другого домена (в качестве ключей и значений). В данной работе мы выходим за рамки этого преобладающего взгляда и вводим явление ортогонального выравнивания (Orthogonal Alignment), при котором перекрёстное внимание обнаруживает новую информацию, отсутствующую во входных запросах, и утверждаем, что эти два контрастирующих механизма выравнивания могут сосуществовать в моделях рекомендаций. На основе более 300 экспериментов мы обнаруживаем, что производительность модели улучшается, когда входные и выходные данные перекрёстного внимания ортогональны. Примечательно, что ортогональное выравнивание возникает естественным образом без каких-либо явных ограничений ортогональности. Ключевое понимание заключается в том, что естественное возникновение ортогонального выравнивания объясняется улучшением законов масштабирования, позволяя модели достичь оптимального соотношения точность-параметры.
Основная задача, стоящая перед современными системами искусственного интеллекта, заключается в эффективном объединении гетерогенных последовательностей поведения пользователей из нескольких платформ (таких как Facebook, Instagram, Amazon). Следы взаимодействия пользователей в различных доменах являются взаимодополняющими, однако простое объединение сигналов часто приводит к снижению производительности из-за шума, избыточности или конфликтов информации между доменами.
Недостаточное теоретическое понимание: Несмотря на широкое применение перекрёстного внимания в кросс-доменной рекомендации последовательностей, его внутренние механизмы работы остаются недостаточно изученными
Ограничения преобладающего взгляда: Текущие исследования рассматривают перекрёстное внимание главным образом как механизм остаточного выравнивания, то есть подавление шума и избыточности для обеспечения передачи только неизбыточной информации
Потребность в эффективности параметров: С ростом размера модели требуются более эффективные стратегии использования параметров
Традиционные методы интерпретируют перекрёстное внимание как фильтр для удаления шума и фильтрации релевантности
Строгое остаточное выравнивание может ограничить обучение избыточным компонентам, общим для кросс-модальных данных, игнорируя уникальную или синергетическую информацию, специфичную для модальности
Отсутствует механистическое понимание того, как перекрёстное внимание извлекает дополнительную информацию
Обнаружение явления ортогонального выравнивания: Впервые выявлено и определено явление ортогонального выравнивания в перекрёстном внимании, при котором входной запрос X и выход X' стремятся быть ортогональными
Установление связи производительность-ортогональность: Доказано на основе 300+ экспериментов отрицательную корреляцию между степенью ортогональности и производительностью рекомендаций
Предложение объяснения эффективности параметров: Доказано, что естественное возникновение ортогонального выравнивания объясняется обеспечением параметрически эффективной стратегии масштабирования модели
Разработка модуля управляемого перекрёстного внимания: Предложен модуль GCA (Gated Cross-Attention), способный естественным образом индуцировать ортогональное выравнивание
Кросс-модельная верификация: Верификация универсальности обнаруженных явлений на трёх базовых алгоритмах CDSR и четырёх комбинациях многодоменных наборов данных
Задача кросс-доменной рекомендации последовательностей определяется следующим образом: даны последовательности взаимодействий пользователя в доменах A и B: XA∈RB×lA×d и XB∈RB×lB×d, предсказать следующий элемент взаимодействия пользователя в целевом домене.
Обучаемое управление: В отличие от фиксированных структур управления, модуль управления обучается векторным значениям управления на основе конкатенированной входной последовательности
Селективное распространение информации: Значения управления контролируют степень, в которой представление перекрёстного внимания XA′ интегрируется с исходным представлением XA
Гибкие функции активации: Поддерживает функции активации sigmoid или tanh
Ортогональное выравнивание относится к механизму выравнивания представлений, при котором входной запрос (X) и выход (X') перекрёстного внимания стремятся быть ортогональными, а не просто усиливать предварительно выровненные признаки X.
Сравнение модели, улучшенной GCA, с базовой моделью с соответствующим количеством параметров:
Во всех 5 тестовых случаях базовая модель + GCAearly превосходит базовую модель с соответствующим количеством параметров
LLM4CDSR демонстрирует наиболее сильную эффективность параметров, что объясняется ограничением фиксированной размерности предварительно обученных встраиваний LLM
Универсальность ортогонального выравнивания: В кросс-доменной рекомендации перекрёстное внимание естественным образом производит явление ортогонального выравнивания
Механизм повышения производительности: Отрицательная корреляция между степенью ортогональности и производительностью рекомендаций предоставляет новую перспективу оптимизации производительности
Преимущества эффективности параметров: Ортогональное выравнивание достигает параметрически эффективного масштабирования путём исследования ортогональных подпространств
Руководство по проектированию архитектуры: Раннее размещение GCA наиболее эффективно, глубокое стекирование требует осторожного применения
Диапазон наборов данных: Эксперименты в основном основаны на данных рекомендаций Amazon, обобщаемость требует дальнейшей верификации
Применимость к моделям зрение-язык: Из-за характеристик контрастивного обучения предварительно обученных кодировщиков, наблюдение ортогонального выравнивания в моделях VLM может быть более сложным
Объяснение механизма: Эффективность параметров может быть не единственным объяснением возникновения ортогонального выравнивания
Выбор базовых моделей: Различные базовые модели используют различные подмножества данных, что может влиять на сравнение результатов
Значительный теоретический вклад: Оспаривает традиционное понимание перекрёстного внимания как остаточного выравнивания, предлагая новую перспективу ортогонального выравнивания
Строгое проектирование экспериментов: 300+ конфигураций экспериментов, несколько базовых моделей, верификация статистической значимости
Глубокое объяснение механизма: Не только обнаруживает явление, но и предоставляет разумное объяснение эффективности параметров
Высокая практическая ценность: Модуль GCA прост и эффективен, легко интегрируется в существующие архитектуры
Ясное изложение: Чёткое определение концепций, достаточное представление результатов экспериментов
Разнообразие наборов данных: В основном основано на данных электронной коммерции, применимость в других областях недостаточно верифицирована
Теоретическая база: Отсутствует строгий математический теоретический анализ явления ортогонального выравнивания
Вычислительные затраты: Недостаточно подробный анализ вычислительной сложности и эффективности вывода модуля GCA
Чувствительность гиперпараметров: Недостаточный анализ чувствительности к выбору функции управления, количеству голов внимания и другим гиперпараметрам
Долгосрочные эффекты: Не оценена стабильность ортогонального выравнивания в длинных последовательностях или при крупномасштабном развёртывании
Статья цитирует важные работы в областях систем рекомендаций, мультимодального обучения и механизмов внимания, включая:
Vaswani et al. (2017): Основы архитектуры Transformer
Radford et al. (2021): Метод контрастивного обучения CLIP
Alayrac et al. (2022): Мультимодальная модель Flamingo
Множество связанных работ CDSR: MiNet, RecGURU, DASL, MAN и др.
Общая оценка: Это высококачественная исследовательская статья, демонстрирующая превосходство как в теоретическом вкладе, так и в практической ценности. Путём обнаружения и анализа явления ортогонального выравнивания она предоставляет новую перспективу понимания в области мультимодального обучения, обладая значительной академической ценностью и перспективами применения.