Cross-attention Secretly Performs Orthogonal Alignment in Recommendation Models
Lee, Zhang, Nguyen et al.
Cross-domain sequential recommendation (CDSR) aims to align heterogeneous user behavior sequences collected from different domains. While cross-attention is widely used to enhance alignment and improve recommendation performance, its underlying mechanism is not fully understood. Most researchers interpret cross-attention as residual alignment, where the output is generated by removing redundant and preserving non-redundant information from the query input by referencing another domain data which is input key and value. Beyond the prevailing view, we introduce Orthogonal Alignment, a phenomenon in which cross-attention discovers novel information that is not present in the query input, and further argue that those two contrasting alignment mechanisms can co-exist in recommendation models We find that when the query input and output of cross-attention are orthogonal, model performance improves over 300 experiments. Notably, Orthogonal Alignment emerges naturally, without any explicit orthogonality constraints. Our key insight is that Orthogonal Alignment emerges naturally because it improves scaling law. We show that baselines additionally incorporating cross-attention module outperform parameter-matched baselines, achieving a superior accuracy-per-model parameter. We hope these findings offer new directions for parameter-efficient scaling in multi-modal research.
academic
الانتباه المتقاطع يؤدي سراً إلى المحاذاة المتعامدة في نماذج التوصية
العنوان: الانتباه المتقاطع يؤدي سراً إلى المحاذاة المتعامدة في نماذج التوصية
المؤلفون: Hyunin Lee, Yong Zhang, Hoang Vu Nguyen, Xiaoyi Liu, Namyong Park, Christopher Jung, Rong Jin, Yang Wang, Zhigang Wang, Somayeh Sojoudi, Xue Feng
يهدف التوصية بالتسلسل عبر المجالات (CDSR) إلى محاذاة تسلسلات السلوك غير المتجانسة للمستخدمين من مجالات مختلفة. على الرغم من أن آليات الانتباه المتقاطع تُستخدم على نطاق واسع لتعزيز المحاذاة وتحسين أداء التوصية، إلا أن آلياتها الداخلية لم تُفهم بالكامل. يفسر معظم الباحثين الانتباه المتقاطع على أنه محاذاة متبقية (residual alignment)، أي إزالة المعلومات المكررة والاحتفاظ بالمعلومات غير المكررة من خلال الإشارة إلى بيانات مجال آخر (كمفاتيح وقيم). تتجاوز هذه الورقة هذا الرأي السائد وتقدم ظاهرة المحاذاة المتعامدة (Orthogonal Alignment)، حيث يكتشف الانتباه المتقاطع معلومات جديدة غير موجودة في مدخلات الاستعلام، وتجادل بأن هاتين آليتي المحاذاة المتناقضتين يمكن أن تتعايشا في نماذج التوصية. من خلال أكثر من 300 تجربة، تم اكتشاف أن أداء النموذج تتحسن عندما يكون مدخل الاستعلام ومخرجات الانتباه المتقاطع متعامدة. والجدير بالملاحظة أن المحاذاة المتعامدة تظهر بشكل طبيعي دون الحاجة إلى أي قيود تعامدية صريحة. الرؤية الأساسية هي أن المحاذاة المتعامدة تظهر بشكل طبيعي لأنها تحسن قوانين التحجيم، مما يسمح للنموذج بتحقيق نسبة دقة-معاملات أفضل.
التحدي الأساسي الذي تواجهه أنظمة الذكاء الاصطناعي الحديثة هو كيفية دمج تسلسلات السلوك غير المتجانسة للمستخدمين من منصات متعددة (مثل Facebook و Instagram و Amazon) بفعالية. المسارات التفاعلية التي يتركها المستخدمون في مجالات مختلفة متكاملة، لكن الجمع البسيط للإشارات غالباً ما يؤدي إلى انخفاض الأداء بسبب الضوضاء والتكرار أو التضارب في المعلومات بين المجالات.
اكتشاف ظاهرة المحاذاة المتعامدة: تحديد وتعريف آلية المحاذاة المتعامدة في الانتباه المتقاطع لأول مرة، حيث يميل مدخل الاستعلام X والمخرجات X' إلى أن تكون متعامدة
إنشاء علاقة الأداء والتعامد: إثبات من خلال 300+ تجربة العلاقة السلبية بين درجة التعامد وأداء التوصية
تقديم تفسير كفاءة المعاملات: إثبات أن ظهور المحاذاة المتعامدة بشكل طبيعي يرجع إلى أنها توفر استراتيجية تحجيم نموذج فعالة من حيث المعاملات
تصميم وحدة الانتباه المتقاطع المبوابة: اقتراح وحدة GCA (Gated Cross-Attention)، التي يمكنها تحريض المحاذاة المتعامدة بشكل طبيعي
التحقق عبر النماذج: التحقق من عمومية الاكتشافات على ثلاثة خطوط أساس CDSR وأربع مجموعات بيانات متعددة المجالات
يُعرّف مهمة التوصية بالتسلسل عبر المجالات على النحو التالي: بالنظر إلى تسلسلات التفاعل للمستخدم في المجال A والمجال B XA∈RB×lA×d و XB∈RB×lB×d، التنبؤ بعنصر التفاعل التالي للمستخدم في المجال الهدف.
تشير المحاذاة المتعامدة إلى آلية محاذاة التمثيل، حيث يميل مدخل الاستعلام (X) ومخرجات الانتباه المتقاطع (X') إلى أن تكون متعامدة، بدلاً من مجرد تعزيز الميزات المحاذاة مسبقاً الموجودة في X.
نطاق مجموعة البيانات: تركز التجارب بشكل أساسي على بيانات التوصية من Amazon، وتحتاج عمومية النتائج إلى التحقق الإضافي
قابلية التطبيق على نماذج الرؤية واللغة: قد يكون ملاحظة المحاذاة المتعامدة في نماذج VLM أكثر تحدياً بسبب خصائص التعلم التناقضي لأجهزة التشفير المدربة مسبقاً
تفسير الآلية: قد لا تكون كفاءة المعاملات التفسير الوحيد لظهور المحاذاة المتعامدة
اختيار الخطوط الأساس: تستخدم الخطوط الأساس المختلفة مجموعات فرعية مختلفة من البيانات، مما قد يؤثر على مقارنة النتائج
تستشهد الورقة بأعمال مهمة في مجالات أنظمة التوصية والتعلم متعدد الأنماط وآليات الانتباه، بما في ذلك:
Vaswani et al. (2017): أساس عمارة Transformer
Radford et al. (2021): طريقة التعلم التناقضي CLIP
Alayrac et al. (2022): نموذج الرؤية واللغة Flamingo
أعمال CDSR ذات الصلة: MiNet و RecGURU و DASL و MAN وغيرها
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تتفوق في المساهمات النظرية والقيمة العملية. من خلال اكتشاف وتحليل ظاهرة المحاذاة المتعامدة، توفر منظوراً جديداً للفهم في مجال التعلم متعدد الأنماط، وتتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة.