2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic

교차 주의(Cross-attention)가 추천 모델에서 직교 정렬을 은폐적으로 수행함

기본 정보

  • 논문 ID: 2510.09435
  • 제목: Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
  • 저자: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
  • 기관: Meta, UC Berkeley
  • 분류: cs.LG cs.IR
  • 발표 시간: 2025년 10월 13일
  • 논문 링크: https://arxiv.org/abs/2510.09435

초록

교차 도메인 시퀀스 추천(CDSR)은 서로 다른 도메인의 이질적인 사용자 행동 시퀀스를 정렬하는 것을 목표로 한다. 교차 주의 메커니즘이 정렬 강화 및 추천 성능 개선에 널리 사용되고 있지만, 그 내재적 메커니즘은 아직 완전히 이해되지 않았다. 대부분의 연구자들은 교차 주의를 잔차 정렬(residual alignment)로 해석하는데, 이는 다른 도메인의 데이터(키와 값으로)를 참조하여 중복 정보를 제거하고 비중복 정보를 보존하는 것이다. 본 논문은 이러한 주류 관점을 넘어 직교 정렬(Orthogonal Alignment) 현상을 도입하는데, 이는 교차 주의가 쿼리 입력에 존재하지 않는 새로운 정보를 발견하며, 이 두 가지 대조적인 정렬 메커니즘이 추천 모델에서 공존할 수 있음을 주장한다. 300회 이상의 실험을 통해 교차 주의의 쿼리 입력과 출력이 직교할 때 모델 성능이 향상됨을 발견했다. 주목할 점은 직교 정렬이 명시적인 직교성 제약 없이 자연스럽게 나타난다는 것이다. 핵심 통찰은 직교 정렬이 자연스럽게 나타나는 이유는 스케일링 법칙을 개선하여 모델이 더 나은 정확도-매개변수 비율을 달성할 수 있게 하기 때문이다.

연구 배경 및 동기

문제 정의

현대 AI 시스템이 직면한 핵심 과제는 여러 플랫폼(Facebook, Instagram, Amazon 등)의 이질적인 사용자 행동 시퀀스를 효과적으로 융합하는 방법이다. 사용자가 서로 다른 도메인에서 남긴 상호작용 궤적은 상호 보완적이지만, 단순한 신호 결합은 도메인 간 정보의 노이즈, 중복성 또는 충돌로 인해 성능 저하를 초래하는 경우가 많다.

연구 동기

  1. 이론적 이해 부족: 교차 주의가 교차 도메인 시퀀스 추천에 광범위하게 적용되고 있음에도 불구하고, 그 내재적 작동 메커니즘에 대한 심층적 이해가 부족함
  2. 주류 관점의 한계: 현재 연구는 주로 교차 주의를 잔차 정렬 메커니즘으로 보는데, 이는 노이즈와 중복성을 억제하여 비중복 정보만 전달되도록 보장함
  3. 매개변수 효율성 요구: 모델 규모 증가에 따라 더 효율적인 매개변수 활용 전략이 필요함

기존 방법의 한계

  • 전통적 방법은 교차 주의를 노이즈 제거 및 관련성 필터로 이해함
  • 엄격한 잔차 정렬은 교차 모달 공유 중복 구성 요소 학습을 제한할 수 있으며, 고유하거나 협력적인 모달 특정 정보를 간과함
  • 교차 주의가 상호 보완적 정보를 추출하는 방식에 대한 메커니즘적 이해 부족

핵심 기여

  1. 직교 정렬 현상 발견: 교차 주의에서 입력 쿼리 X와 출력 X'가 직교하는 경향을 보이는 직교 정렬 메커니즘을 처음으로 식별하고 정의함
  2. 성능-직교성 관계 수립: 300회 이상의 실험을 통해 직교 정도와 추천 성능 간의 음의 상관관계를 증명함
  3. 매개변수 효율성 설명 제시: 직교 정렬의 자연스러운 출현이 매개변수 효율적인 모델 스케일링 전략을 제공하기 때문임을 증명함
  4. 게이트 교차 주의 모듈 설계: 직교 정렬을 자연스럽게 유도할 수 있는 GCA(Gated Cross-Attention) 모듈을 제안함
  5. 모델 간 검증: 세 개의 CDSR 기준 알고리즘과 네 개의 다중 도메인 데이터셋 조합에서 발견의 보편성을 검증함

방법 상세 설명

작업 정의

교차 도메인 시퀀스 추천 작업은 다음과 같이 정의된다: 사용자가 도메인 A와 도메인 B에서의 상호작용 시퀀스 XARB×lA×dX_A \in \mathbb{R}^{B \times l_A \times d}XBRB×lB×dX_B \in \mathbb{R}^{B \times l_B \times d}가 주어졌을 때, 목표 도메인에서 사용자의 다음 상호작용 항목을 예측한다.

게이트 교차 주의(GCA) 모듈

핵심 아키텍처

GCA 모듈의 수학적 표현식은 다음과 같다:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

여기서:

  • XA=CA(XA,XB)X'_A = CA(X_A, X_B)는 교차 주의 출력
  • FFN([XA;XB])FFN([X_A; X_B])는 연결된 표현에 작용하는 피드포워드 네트워크로, 게이트 값을 생성함
  • 는 Hadamard 곱(요소별 곱셈)을 나타냄

설계 특징

  1. 학습 가능한 게이트: 고정 게이트 구조와 달리, 게이트 모듈은 연결된 입력 시퀀스에 따라 벡터 값 게이트 출력을 학습함
  2. 선택적 정보 전파: 게이트 값은 교차 주의 표현 XAX'_A가 원본 표현 XAX_A에 융합되는 정도를 제어함
  3. 유연한 활성화 함수: sigmoid 또는 tanh 활성화 함수 지원

직교 정렬 메커니즘

현상 정의

직교 정렬은 교차 주의의 입력 쿼리(X)와 출력(X')이 X의 기존 사전 정렬 특징을 단순히 강화하는 것이 아니라 직교하는 경향을 보이는 표현 정렬 메커니즘을 의미한다.

측정 방법

배치 및 위치 평균 코사인 유사도를 사용하여 직교 정도를 측정한다:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

주요 발견

  • 직교 정렬이 명시적인 직교성 정규화 없이 자연스럽게 나타남
  • |cos(X, X')|와 추천 성능 간에 음의 상관관계 존재
  • 직교 정도가 다양한 모델 간에 안정적으로 유지됨(중앙값 ≈ 0.1-0.2)

실험 설정

데이터셋

Amazon Reviews 공개 데이터셋을 사용하며, 다양한 제품 유형 도메인을 포함한다:

  • Cloth-Sport
  • Electronic-Phone
  • Beauty-Electronics
  • Food-Kitchen

기준 모델

세 가지 최근 CDSR 알고리즘을 선택함:

  1. CDSRNP: 조건부 신경 과정 기반 교차 도메인 추천
  2. ABXI: 작업 지향적 교차 도메인 시퀀스 추천
  3. LLM4CDSR: 대규모 언어 모델 기반 교차 도메인 추천

평가 지표

  • NDCG@1, NDCG@10: 순위 품질
  • AUC: 판별 능력
  • HR@5, HR@10, HR@20: 명중률

실험 구성

  • GCA 모듈 삽입 위치: GCA0, GCA1
  • 활성화 함수: sigmoid, tanh
  • 주의 헤드 수: 4, 8
  • 각 구성마다 5번의 무작위 시드로 실행

실험 결과

주요 결과

성능 향상의 일관성

세 가지 기준 모델 모두에서 초기 GCA 모듈(GCAearly)이 일관된 성능 향상을 가져왔다:

Cloth-Sport 데이터셋의 LLM4CDSR:

  • NDCG@1A: 0.716 → 0.728 (+1.2%)
  • NDCG@10A: 0.782 → 0.805 (+2.3%)
  • AUCA: +1.5%

Food-Kitchen 데이터셋의 ABXI:

  • NDCG@1A: 0.059 → 0.072 (+22%)
  • NDCG@10A: 0.154 → 0.176 (+14%)

직교 정렬-성능 관계

핵심 발견: |cos(X, X')|와 NDCG@10 간에 유의미한 음의 상관관계:

  • LLM4CDSR 도메인 B: r = -0.452
  • ABXI 도메인 A: r = -0.328, 도메인 B: r = -0.340
  • CDSRNP 도메인 B: r = -0.296

매개변수 효율성 검증

GCA 강화 모델과 매개변수 일치 기준 모델 비교:

  • 5가지 테스트 사례 모두에서 기준 + GCAearly가 매개변수 일치 기준 모델보다 우수함
  • LLM4CDSR이 가장 강한 매개변수 효율성을 보여주는데, 이는 사전 훈련된 LLM 임베딩의 고정 차원 제약으로 인함

스택 효과 분석

여러 GCA 모듈을 수직으로 스택하는 것이 항상 단조 증가를 가져오지는 않음:

  • CDSRNP: 0,1에서 더 깊은 스택으로 추가 개선 없음
  • ABXI: 선택적 배치 1,2가 최적 효과
  • LLM4CDSR: 단일 1 위치가 스택 구성 0,1보다 우수

직교화의 독립성

GCA가 유도하는 직교화는 X와 Y의 유사성과 무관함:

  • |cos(X, X')|이 모델 간에 안정적으로 유지됨(0.1-0.2 범위)
  • |cos(X, Y)|는 데이터셋에 따라 다양함(0.020-0.397)
  • GCA가 내재적으로 제어된 정도의 직교화를 유도함을 증명

관련 연구

다중 모달 정렬

  • 대조 학습 방법: CLIP, ALIGN 등이 대조 목표를 통해 이미지-텍스트 정렬 달성
  • 교차 주의 메커니즘: 텍스트-이미지 확산 모델에서 노이즈 제거 및 관련성 필터로 작용
  • 모달 간격 문제: 이미지 및 텍스트 임베딩이 교집합 없는 영역을 차지하는 현상

교차 도메인 시퀀스 추천

  • 초기 방법: MiNet 혼합 관심 네트워크, RecGURU 적대적 학습
  • Transformer 아키텍처: DASL 이중 주의, MAN 혼합 주의 네트워크
  • 메타 학습 방법: CDSRNP 신경 과정, Tri-CDR 삼중 시퀀스 학습
  • LLM 통합: LLM4CDSR, ABXI 등 최신 진전

결론 및 논의

주요 결론

  1. 직교 정렬의 보편성: 교차 도메인 추천에서 교차 주의가 자연스럽게 직교 정렬 현상을 생성함
  2. 성능 향상 메커니즘: 직교 정도와 추천 성능 간의 음의 상관관계로 새로운 성능 최적화 관점 제공
  3. 매개변수 효율성 장점: 직교 정렬이 직교 부분공간 탐색을 통해 매개변수 효율적 스케일링 달성
  4. 아키텍처 설계 지침: 초기 GCA 배치가 가장 효과적이며, 깊이 스택은 신중하게 적용 필요

한계

  1. 데이터셋 범위: 실험이 주로 Amazon 추천 데이터 기반으로 일반화 가능성 추가 검증 필요
  2. 시각-언어 모델 적용성: 사전 훈련된 인코더의 대조 학습 특성으로 인해 VLM에서 직교 정렬 관찰이 더 도전적일 수 있음
  3. 메커니즘 해석: 매개변수 효율성이 직교 정렬 출현의 유일한 설명이 아닐 수 있음
  4. 기준 선택: 서로 다른 기준이 다양한 데이터 부분집합을 사용하여 결과 비교에 영향을 미칠 수 있음

향후 방향

  1. 아키텍처 탐색: GCA를 넘어 더 효과적인 직교 정렬 메커니즘 개발
  2. 이론 분석: 직교 정렬의 수학적 원리 및 수렴 특성에 대한 심층 이해
  3. 교차 영역 검증: 시각-언어 모델 등 다른 다중 모달 작업에서 발견 검증
  4. 측정 개발: 더 정교한 직교 정렬 측정 방법 설계

심층 평가

장점

  1. 이론적 기여 중대: 교차 주의를 잔차 정렬로 보는 전통적 이해에 도전하고 직교 정렬의 새로운 관점 제시
  2. 실험 설계 엄밀: 300회 이상의 실험 구성, 다중 기준 모델, 통계적 유의성 검증
  3. 메커니즘 해석 심층: 현상 발견뿐만 아니라 매개변수 효율성의 합리적 설명 제공
  4. 실용적 가치 높음: GCA 모듈이 단순하고 효과적이며 기존 아키텍처에 쉽게 통합 가능
  5. 작성 명확함: 개념 정의가 명확하고 실험 결과 표시가 충분함

부족한 점

  1. 데이터셋 다양성: 주로 전자상거래 추천 데이터 기반으로 다른 영역의 적용성 미흡
  2. 이론적 기초: 직교 정렬 현상에 대한 엄격한 수학적 이론 분석 부족
  3. 계산 오버헤드: GCA 모듈의 계산 복잡도 및 추론 효율성에 대한 상세 분석 미흡
  4. 초매개변수 민감성: 게이트 함수 선택, 주의 헤드 수 등 초매개변수에 대한 민감성 분석 부족
  5. 장기 효과: 장시간 시퀀스 또는 대규모 배포에서 직교 정렬의 안정성 평가 미흡

영향력

  1. 학술적 가치: 다중 모달 학습 및 추천 시스템에 새로운 이론적 관점 제공
  2. 실무 지침: 교차 도메인 추천 시스템 설계에 구체적인 아키텍처 개선 방안 제공
  3. 방법론 기여: 직교 정렬 정도 측정 방법이 다른 다중 모달 작업 분석에 활용 가능
  4. 연구 영감: 직교성 관점에서 주의 메커니즘을 이해하는 새로운 연구 방향 개시

적용 시나리오

  1. 교차 도메인 추천: 전자상거래, 소셜 미디어, 콘텐츠 플랫폼의 다중 도메인 추천 시나리오
  2. 다중 모달 학습: 이질적 데이터 소스 융합이 필요한 기계 학습 작업
  3. 매개변수 효율성 최적화: 자원 제약 환경에서의 모델 스케일링 요구
  4. 주의 메커니즘 연구: Transformer 아키텍처의 심층 이해 연구 작업

참고문헌

논문은 추천 시스템, 다중 모달 학습 및 주의 메커니즘 등 분야의 중요 연구를 인용하고 있으며, 다음을 포함한다:

  • Vaswani et al. (2017): Transformer 아키텍처 기초
  • Radford et al. (2021): CLIP 대조 학습 방법
  • Alayrac et al. (2022): Flamingo 시각-언어 모델
  • 다양한 CDSR 관련 연구: MiNet, RecGURU, DASL, MAN 등

전체 평가: 이는 이론적 기여와 실무적 가치 측면에서 모두 우수한 고품질 연구 논문이다. 직교 정렬 현상의 발견 및 분석을 통해 다중 모달 학습 분야에 새로운 이해 관점을 제공하며, 중요한 학술적 가치와 응용 전망을 갖고 있다.