2025-11-24T08:31:18.188109

Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models

Lee, Zhang, Nguyen et al.

Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.

academic

الانتباه المتقاطع يؤدي سراً إلى المحاذاة المتعامدة في نماذج التوصية

المعلومات الأساسية

معرّف الورقة: 2510.09435
العنوان: الانتباه المتقاطع يؤدي سراً إلى المحاذاة المتعامدة في نماذج التوصية
المؤلفون: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
المؤسسات: Meta, UC Berkeley
التصنيف: cs.LG cs.IR
تاريخ النشر: 13 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.09435

الملخص

يهدف التوصية بالتسلسل عبر المجالات (CDSR) إلى محاذاة تسلسلات السلوك غير المتجانسة للمستخدمين من مجالات مختلفة. على الرغم من أن آليات الانتباه المتقاطع تُستخدم على نطاق واسع لتعزيز المحاذاة وتحسين أداء التوصية، إلا أن آلياتها الداخلية لم تُفهم بالكامل. يفسر معظم الباحثين الانتباه المتقاطع على أنه محاذاة متبقية (residual alignment)، أي إزالة المعلومات المكررة والاحتفاظ بالمعلومات غير المكررة من خلال الإشارة إلى بيانات مجال آخر (كمفاتيح وقيم). تتجاوز هذه الورقة هذا الرأي السائد وتقدم ظاهرة المحاذاة المتعامدة (Orthogonal Alignment)، حيث يكتشف الانتباه المتقاطع معلومات جديدة غير موجودة في مدخلات الاستعلام، وتجادل بأن هاتين آليتي المحاذاة المتناقضتين يمكن أن تتعايشا في نماذج التوصية. من خلال أكثر من 300 تجربة، تم اكتشاف أن أداء النموذج تتحسن عندما يكون مدخل الاستعلام ومخرجات الانتباه المتقاطع متعامدة. والجدير بالملاحظة أن المحاذاة المتعامدة تظهر بشكل طبيعي دون الحاجة إلى أي قيود تعامدية صريحة. الرؤية الأساسية هي أن المحاذاة المتعامدة تظهر بشكل طبيعي لأنها تحسن قوانين التحجيم، مما يسمح للنموذج بتحقيق نسبة دقة-معاملات أفضل.

الخلفية البحثية والدافع

تعريف المشكلة

التحدي الأساسي الذي تواجهه أنظمة الذكاء الاصطناعي الحديثة هو كيفية دمج تسلسلات السلوك غير المتجانسة للمستخدمين من منصات متعددة (مثل Facebook و Instagram و Amazon) بفعالية. المسارات التفاعلية التي يتركها المستخدمون في مجالات مختلفة متكاملة، لكن الجمع البسيط للإشارات غالباً ما يؤدي إلى انخفاض الأداء بسبب الضوضاء والتكرار أو التضارب في المعلومات بين المجالات.

دافع البحث

نقص الفهم النظري: على الرغم من الاستخدام الواسع للانتباه المتقاطع في التوصية بالتسلسل عبر المجالات، إلا أن آليات عمله الداخلية تفتقر إلى فهم عميق
قيود الرأي السائد: يعتبر البحث الحالي الانتباه المتقاطع بشكل أساسي كآلية محاذاة متبقية، أي قمع الضوضاء والتكرار لضمان نقل المعلومات غير المكررة فقط
الحاجة إلى كفاءة المعاملات: مع نمو حجم النموذج، هناك حاجة إلى استراتيجيات استخدام معاملات أكثر كفاءة

قيود الطرق الموجودة

تفهم الطرق التقليدية الانتباه المتقاطع كمرشح إزالة ضوضاء وملاءمة
قد تحد المحاذاة المتبقية الصارمة من تعلم المكونات المكررة المشتركة عبر الأنماط، مما يتجاهل المعلومات الفريدة أو التعاونية الخاصة بالنمط
نقص الفهم الآلي لكيفية استخراج الانتباه المتقاطع للمعلومات التكاملية

المساهمات الأساسية

اكتشاف ظاهرة المحاذاة المتعامدة: تحديد وتعريف آلية المحاذاة المتعامدة في الانتباه المتقاطع لأول مرة، حيث يميل مدخل الاستعلام X والمخرجات X' إلى أن تكون متعامدة
إنشاء علاقة الأداء والتعامد: إثبات من خلال 300+ تجربة العلاقة السلبية بين درجة التعامد وأداء التوصية
تقديم تفسير كفاءة المعاملات: إثبات أن ظهور المحاذاة المتعامدة بشكل طبيعي يرجع إلى أنها توفر استراتيجية تحجيم نموذج فعالة من حيث المعاملات
تصميم وحدة الانتباه المتقاطع المبوابة: اقتراح وحدة GCA (Gated Cross-Attention)، التي يمكنها تحريض المحاذاة المتعامدة بشكل طبيعي
التحقق عبر النماذج: التحقق من عمومية الاكتشافات على ثلاثة خطوط أساس CDSR وأربع مجموعات بيانات متعددة المجالات

شرح الطريقة

تعريف المهمة

يُعرّف مهمة التوصية بالتسلسل عبر المجالات على النحو التالي: بالنظر إلى تسلسلات التفاعل للمستخدم في المجال A والمجال B $X_A \in \mathbb{R}^{B \times l_A \times d}$ و $X_B \in \mathbb{R}^{B \times l_B \times d}$ ، التنبؤ بعنصر التفاعل التالي للمستخدم في المجال الهدف.

وحدة الانتباه المتقاطع المبوابة (GCA)

العمارة الأساسية

يتم التعبير عن وحدة GCA رياضياً على النحو التالي:

GCA(X_A, X_B) = LayerNorm(X_A + FFN([X_A; X_B]) ⊙ X'_A)

حيث:

$X'_A = CA(X_A, X_B)$ هو مخرجات الانتباه المتقاطع
$FFN([X_A; X_B])$ هي شبكة تغذية أمامية تعمل على التمثيل المسلسل، وتنتج قيم المبوابة
$⊙$ يمثل حاصل الضرب Hadamard (الضرب العنصري)

خصائص التصميم

المبوابة المتعلمة: بخلاف هياكل المبوابة الثابتة، تتعلم وحدة المبوابة قيم المبوابة المتجهة بناءً على مدخلات التسلسل المسلسل
نقل المعلومات الانتقائي: تتحكم قيم المبوابة في درجة دمج تمثيل الانتباه المتقاطع $X'_A$ في التمثيل الأصلي $X_A$
دوال التفعيل المرنة: تدعم دوال التفعيل sigmoid أو tanh

آلية المحاذاة المتعامدة

تعريف الظاهرة

تشير المحاذاة المتعامدة إلى آلية محاذاة التمثيل، حيث يميل مدخل الاستعلام (X) ومخرجات الانتباه المتقاطع (X') إلى أن تكون متعامدة، بدلاً من مجرد تعزيز الميزات المحاذاة مسبقاً الموجودة في X.

طريقة القياس

استخدام متوسط التشابه الكوسيني على مستوى الدفعة والموضع لقياس درجة التعامد:

|cos(X, X')| = (1/(B·l)) ∑_{b,i∈[B]×[l]} cos(X⃗_{bi}, X⃗'_{bi})

الاكتشافات الرئيسية

تظهر المحاذاة المتعامدة بشكل طبيعي دون الحاجة إلى تنظيم تعامدية صريح
هناك علاقة سلبية بين |cos(X, X')| وأداء التوصية
تبقى درجة التعامد مستقرة عبر النماذج المختلفة (الوسيط ≈ 0.1-0.2)

إعداد التجارب

مجموعات البيانات

استخدام مجموعة بيانات Amazon Reviews العامة، التي تغطي مجالات نوع المنتج المختلفة:

Cloth-Sport
Electronic-Phone
Beauty-Electronics
Food-Kitchen

نماذج الخطوط الأساس

اختيار ثلاث خوارزميات CDSR حديثة:

CDSRNP: التوصية عبر المجالات بناءً على العمليات العصبية الشرطية
ABXI: التوصية بالتسلسل عبر المجالات الموجهة للمهام
LLM4CDSR: التوصية عبر المجالات بناءً على نماذج اللغة الكبيرة

مؤشرات التقييم

NDCG@1, NDCG@10: جودة الترتيب
AUC: القدرة التمييزية
HR@5, HR@10, HR@20: معدل الضربات

تكوين التجارب

موضع إدراج وحدة GCA: GCA0 (مبكر)، GCA1 (متوسط)، إلخ
دوال التفعيل: sigmoid، tanh
عدد رؤوس الانتباه: 4، 8
تشغيل كل تكوين 5 مرات مع بذور عشوائية مختلفة

نتائج التجارب

النتائج الرئيسية

اتساق تحسن الأداء

في جميع نماذج الخطوط الأساس الثلاثة، أحضرت وحدات GCA المبكرة (GCAearly) تحسناً متسقاً في الأداء:

LLM4CDSR على مجموعة بيانات Cloth-Sport:

NDCG@1A: 0.716 → 0.728 (+1.2%)
NDCG@10A: 0.782 → 0.805 (+2.3%)
AUCA: +1.5%

ABXI على مجموعة بيانات Food-Kitchen:

NDCG@1A: 0.059 → 0.072 (+22%)
NDCG@10A: 0.154 → 0.176 (+14%)

علاقة المحاذاة المتعامدة والأداء

الاكتشاف الرئيسي: هناك علاقة سلبية كبيرة بين |cos(X, X')| و NDCG@10:

LLM4CDSR المجال B: r = -0.452
ABXI المجال A: r = -0.328، المجال B: r = -0.340
CDSRNP المجال B: r = -0.296

التحقق من كفاءة المعاملات

مقارنة نماذج معززة بـ GCA مع نماذج خطوط أساس متطابقة المعاملات:

في جميع حالات الاختبار الخمس، تفوق النموذج الأساسي + GCAearly على النموذج الأساسي المتطابق المعاملات
يُظهر LLM4CDSR أقوى كفاءة معاملات، وهو يُعزى إلى قيد البعد الثابت لتضمينات LLM المدربة مسبقاً

تحليل تأثير التراص

لا يؤدي تراص عدة وحدات GCA عمودياً دائماً إلى تحسن أحادي الاتجاه:

CDSRNP: من 0,1 إلى تراص أعمق لا يحقق مكاسب إضافية
ABXI: التوضع الانتقائي 1,2 هو الأفضل
LLM4CDSR: الموضع الفردي 1 أفضل من تكوين التراص 0,1

استقلالية التعامدية

التعامدية المستحثة بواسطة GCA مستقلة عن التشابه بين X و Y:

يبقى |cos(X, X')| مستقراً عبر النماذج المختلفة (النطاق 0.1-0.2)
يختلف |cos(X, Y)| حسب مجموعة البيانات (0.020-0.397)
يثبت أن GCA تستحث بشكل متأصل درجة محكومة من التعامدية

الأعمال ذات الصلة

المحاذاة متعددة الأنماط

طرق التعلم التناقضي: CLIP و ALIGN وغيرها تحقق محاذاة الصور والنصوص من خلال أهداف تناقضية
آليات الانتباه المتقاطع: كمرشح إزالة ضوضاء وملاءمة في نماذج الانتشار من النص إلى الصورة
مشكلة الفجوة بين الأنماط: ظاهرة احتلال تضمينات الصور والنصوص لمناطق غير متقاطعة

التوصية بالتسلسل عبر المجالات

الطرق المبكرة: شبكة الاهتمامات المختلطة MiNet و RecGURU للتعلم الخصومي
عمارة Transformer: الانتباه المزدوج DASL وشبكة الانتباه المختلط MAN
طرق التعلم الفوقي: العمليات العصبية CDSRNP والتعلم الثلاثي Tri-CDR
دمج LLM: LLM4CDSR و ABXI والتطورات الأخيرة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

عمومية المحاذاة المتعامدة: في التوصية عبر المجالات، ينتج الانتباه المتقاطع بشكل طبيعي ظاهرة المحاذاة المتعامدة
آلية تحسن الأداء: هناك علاقة سلبية بين درجة التعامد وأداء التوصية، مما يوفر منظوراً جديداً لتحسين الأداء
مزايا كفاءة المعاملات: تحقق المحاذاة المتعامدة تحجيماً فعالاً من حيث المعاملات من خلال استكشاف الفضاء الجزئي المتعامد
إرشادات تصميم العمارة: يكون التوضع المبكر لـ GCA الأكثر فعالية، ويتطلب التراص العميق تطبيقاً حذراً

القيود

نطاق مجموعة البيانات: تركز التجارب بشكل أساسي على بيانات التوصية من Amazon، وتحتاج عمومية النتائج إلى التحقق الإضافي
قابلية التطبيق على نماذج الرؤية واللغة: قد يكون ملاحظة المحاذاة المتعامدة في نماذج VLM أكثر تحدياً بسبب خصائص التعلم التناقضي لأجهزة التشفير المدربة مسبقاً
تفسير الآلية: قد لا تكون كفاءة المعاملات التفسير الوحيد لظهور المحاذاة المتعامدة
اختيار الخطوط الأساس: تستخدم الخطوط الأساس المختلفة مجموعات فرعية مختلفة من البيانات، مما قد يؤثر على مقارنة النتائج

الاتجاهات المستقبلية

استكشاف العمارة: تطوير آليات محاذاة متعامدة أكثر فعالية تتجاوز GCA
التحليل النظري: فهم عميق للمبادئ الرياضية وخصائص التقارب للمحاذاة المتعامدة
التحقق عبر المجالات: التحقق من الاكتشافات في مهام متعددة الأنماط الأخرى مثل نماذج الرؤية واللغة
تطوير المقاييس: تصميم طرق قياس أكثر دقة للمحاذاة المتعامدة

التقييم المتعمق

المزايا

مساهمة نظرية كبيرة: تطعن في الفهم التقليدي للانتباه المتقاطع كمحاذاة متبقية، وتقدم منظوراً جديداً للمحاذاة المتعامدة
تصميم تجريبي صارم: 300+ تكوين تجريبي، نماذج خطوط أساس متعددة، التحقق من الأهمية الإحصائية
شرح آلي عميق: لا يكتشف الظاهرة فحسب، بل يوفر تفسيراً معقولاً لكفاءة المعاملات
قيمة عملية عالية: وحدة GCA بسيطة وفعالة، سهلة الدمج في العمارات الموجودة
كتابة واضحة: تعريفات مفاهيم دقيقة، عرض نتائج تجريبية شامل

أوجه القصور

تنوع مجموعة البيانات: تركز بشكل أساسي على بيانات التوصية الإلكترونية، وقابلية التطبيق في مجالات أخرى لم تُتحقق بشكل كافٍ
الأساس النظري: نقص التحليل النظري الرياضي الصارم لظاهرة المحاذاة المتعامدة
التكلفة الحسابية: لم يتم تحليل التعقيد الحسابي وكفاءة الاستدلال لوحدة GCA بالتفصيل
حساسية المعاملات الفائقة: تحليل غير كافٍ لحساسية اختيار دالة المبوابة وعدد رؤوس الانتباه والمعاملات الفائقة الأخرى
التأثيرات طويلة الأجل: لم يتم تقييم استقرار المحاذاة المتعامدة في التسلسلات الطويلة أو النشر على نطاق واسع

التأثير

القيمة الأكاديمية: توفير منظور نظري جديد للتعلم متعدد الأنماط وأنظمة التوصية
الإرشادات العملية: توفير خطة تحسين عمارة محددة لأنظمة التوصية عبر المجالات
مساهمة المنهجية: يمكن استخدام طريقة قياس درجة المحاذاة المتعامدة في تحليل المهام متعددة الأنماط الأخرى
الإلهام البحثي: فتح اتجاه بحثي جديد لفهم آليات الانتباه من منظور التعامدية

السيناريوهات القابلة للتطبيق

التوصية عبر المجالات: سيناريوهات التوصية متعددة المجالات للتجارة الإلكترونية والوسائط الاجتماعية ومنصات المحتوى
التعلم متعدد الأنماط: مهام التعلم الآلي التي تتطلب دمج مصادر بيانات غير متجانسة
تحسين كفاءة المعاملات: احتياجات تحجيم النموذج في البيئات ذات الموارد المحدودة
بحث آليات الانتباه: العمل البحثي لفهم عمارة transformer بعمق

المراجع

تستشهد الورقة بأعمال مهمة في مجالات أنظمة التوصية والتعلم متعدد الأنماط وآليات الانتباه، بما في ذلك:

Vaswani et al. (2017): أساس عمارة Transformer
Radford et al. (2021): طريقة التعلم التناقضي CLIP
Alayrac et al. (2022): نموذج الرؤية واللغة Flamingo
أعمال CDSR ذات الصلة: MiNet و RecGURU و DASL و MAN وغيرها

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تتفوق في المساهمات النظرية والقيمة العملية. من خلال اكتشاف وتحليل ظاهرة المحاذاة المتعامدة، توفر منظوراً جديداً للفهم في مجال التعلم متعدد الأنماط، وتتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة.