Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
교차 도메인 시퀀스 추천(CDSR)은 서로 다른 도메인의 이질적인 사용자 행동 시퀀스를 정렬하는 것을 목표로 한다. 교차 주의 메커니즘이 정렬 강화 및 추천 성능 개선에 널리 사용되고 있지만, 그 내재적 메커니즘은 아직 완전히 이해되지 않았다. 대부분의 연구자들은 교차 주의를 잔차 정렬(residual alignment)로 해석하는데, 이는 다른 도메인의 데이터(키와 값으로)를 참조하여 중복 정보를 제거하고 비중복 정보를 보존하는 것이다. 본 논문은 이러한 주류 관점을 넘어 직교 정렬(Orthogonal Alignment) 현상을 도입하는데, 이는 교차 주의가 쿼리 입력에 존재하지 않는 새로운 정보를 발견하며, 이 두 가지 대조적인 정렬 메커니즘이 추천 모델에서 공존할 수 있음을 주장한다. 300회 이상의 실험을 통해 교차 주의의 쿼리 입력과 출력이 직교할 때 모델 성능이 향상됨을 발견했다. 주목할 점은 직교 정렬이 명시적인 직교성 제약 없이 자연스럽게 나타난다는 것이다. 핵심 통찰은 직교 정렬이 자연스럽게 나타나는 이유는 스케일링 법칙을 개선하여 모델이 더 나은 정확도-매개변수 비율을 달성할 수 있게 하기 때문이다.
현대 AI 시스템이 직면한 핵심 과제는 여러 플랫폼(Facebook, Instagram, Amazon 등)의 이질적인 사용자 행동 시퀀스를 효과적으로 융합하는 방법이다. 사용자가 서로 다른 도메인에서 남긴 상호작용 궤적은 상호 보완적이지만, 단순한 신호 결합은 도메인 간 정보의 노이즈, 중복성 또는 충돌로 인해 성능 저하를 초래하는 경우가 많다.