2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic

ترانسلوشن: توحيد الانتباه الذاتي والالتفاف للنمذجة التكيفية والنسبية

المعلومات الأساسية

  • معرّف الورقة: 2510.10060
  • العنوان: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
  • المؤلفون: Hehe Fan (جامعة زجيانج)، Yi Yang (جامعة زجيانج)، Mohan Kankanhalli (جامعة سنغافورة الوطنية)، Fei Wu (جامعة زجيانج)
  • التصنيفات: cs.LG cs.AI cs.CL cs.CV
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.10060v1

الملخص

يرى المؤلفون أن نمذجة البيانات تتضمن جانبين رئيسيين: 1) تحديد العناصر المرتبطة بالعنصر المركزي (كما في حقل الاستقبال الالتفافي) أو عنصر الاستعلام (كما في الانتباه الذاتي)؛ 2) ترميز هذه الرموز بفعالية. يمكن للانتباه الذاتي تحديد هذه العناصر بشكل تكيفي، لكنه يعتمد على تضمينات الموضع المطلق لتعلم تمثيل البنية. في المقابل، يقوم الالتفاف بترميز العناصر بطريقة نسبية، لكن حجم النواة الثابت يحد من قدرته على الاختيار التكيفي للعناصر ذات الصلة. تقترح هذه الورقة عملية ترانسلوشن التي توحد القدرة على التحديد التكيفي للانتباه الذاتي ومزايا الترميز النسبي للالتفاف. ومع ذلك، يؤدي هذا التكامل إلى زيادة كبيرة في عدد المعاملات، مما يتجاوز موارد الحوسبة الحالية. لذلك، يقترح المؤلفون متغيراً خفيفاً يسمى α-Translution. تُظهر التجارب أن ترانسلوشن يتفوق على الانتباه الذاتي في مهام الرؤية الحاسوبية ومعالجة اللغة الطبيعية.

خلفية البحث والدافع

تعريف المشكلة

التحدي الأساسي الذي تواجهه التعلم العميق الحالي هو كيفية نمذجة البيانات بفعالية. يقسم المؤلفون نمذجة البيانات إلى جانبين رئيسيين:

  1. تحديد العناصر ذات الصلة: تحديد عناصر البيانات التي ترتبط بالعنصر قيد المعالجة حالياً
  2. الترميز الفعال: ترميز هذه العناصر ذات الصلة في تمثيلات فعالة

قيود الطرق الموجودة

قيود الشبكات العصبية الالتفافية:

  • استخدام نوى بحجم ثابت لتحديد حقل الاستقبال المحلي
  • عدم القدرة على تجنب تضمين البكسلات غير ذات الصلة، خاصة في حدود الأجسام أو مناطق الخلفية
  • على الرغم من قدرتها على ترميز البنية المحلية بشكل نسبي، إلا أنها تفتقر إلى التكيف

قيود آليات الانتباه الذاتي:

  • القدرة على تحديد المناطق ذات الصلة بشكل تكيفي، دون قيود محلية محددة مسبقاً
  • الاعتماد على تضمينات الموضع المطلق لالتقاط معلومات البنية
  • قد تواجه صعوبة في التعرف على الكائنات عندما تتحرك إلى مواقع مختلفة

دافع البحث

مع مواجهة التوسعات المباشرة لنماذج مثل Transformer لتناقص العوائد، لاحظت معامل الذكاء الاصطناعي أن سرعة التحسن في النماذج من الجيل التالي أقل من المتوقع. في ظل تشبع البيانات وقيود قوانين التوسع الحالية، أصبح تصميم معماريات الشبكات العصبية المبتكرة أمراً حتمياً.

المساهمات الأساسية

  1. اقتراح عملية ترانسلوشن: توحد القدرة على التحديد التكيفي للانتباه الذاتي ومزايا الترميز النسبي للالتفاف
  2. تصميم متغير α-Translution الخفيف: يقلل بشكل كبير من عدد المعاملات، مما يجعل الطريقة قابلة للتطبيق مع موارد الحوسبة الحالية
  3. التوحيد النظري: إثبات أن الالتفاف والانتباه الذاتي يمكن اعتبارهما حالات خاصة من ترانسلوشن
  4. التحقق التجريبي: التحقق من فعالية الطريقة في مهام الرؤية الحاسوبية ومعالجة اللغة الطبيعية
  5. التنفيذ مفتوح المصدر: توفير تنفيذ كامل لاستخدام المجتمع

شرح الطريقة

تعريف المهمة

بالنظر إلى بيانات الإدخال (رقع الصور أو رموز النصوص)، الهدف هو تعلم عملية يمكنها:

  • تحديد العناصر المرتبطة بعنصر الاستعلام بشكل تكيفي
  • ترميز العلاقات البنيوية لهذه العناصر بطريقة نسبية
  • توليد تمثيلات إخراج فعالة

معمارية النموذج

عملية ترانسلوشن

تعتمد ترانسلوشن على نهج بأسلوب التفافي، حيث تُسند مصفوفات معاملات مختلفة لكل مسافة واتجاه:

ترميز الاستعلام النسبي: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
ترميز المفتاح النسبي: kj,i = fj · W^k_{-δx,-δy}
الانتباه النسبي: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
ترميز القيمة النسبية: vi,j = fj · W^v_{δx,δy}
المجموع المرجح: f'i = ∑αi,j × vi,j

حيث W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} هي مصفوفات المعاملات القابلة للتعلم المقابلة للإزاحة (δx,δy).

متغير α-Translution الخفيف

نظراً لأن ترانسلوشن تتطلب (2H-1)×(2W-1)×C×C' معامل، يقلل α-Translution من عدد المعاملات عن طريق تقليل أبعاد الإدخال والإخراج:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

حيث C1 ≪ C, C2 ≪ C'.

نقاط الابتكار التقني

1. التوحيد النظري

يثبت المؤلفون أن الالتفاف والانتباه الذاتي هما حالات خاصة من ترانسلوشن:

  • الالتفاف: أوزان الانتباه تساوي 1 داخل حقل الاستقبال و0 خارجه
  • الانتباه الذاتي: استخدام معاملات W^q, W^k, W^v مشتركة، مع تجاهل ترميز الاتجاه والمسافة
  • ترانسلوشن: يجمع مزايا كليهما

2. ترميز الموضع النسبي

بخلاف الطرق الموجودة (الانحياز العددي أو إضافة المتجهات)، تستخدم ترانسلوشن مصفوفات قائمة على الإزاحة للترميز النسبي، مما يمكنها من التقاط معلومات الاتجاه والمسافة بشكل أفضل.

3. تنفيذ محسّن للذاكرة

تم تصميم تنفيذ فعال للذاكرة لـ α-Translution، مما يقلل استخدام الذاكرة الذروة من N×N×C' إلى N×C'+N×N×C2.

إعداد التجارب

مجموعات البيانات

مهام الرؤية الحاسوبية:

  • Dynamic MNIST: مجموعة بيانات اصطناعية حيث تتحرك الأرقام داخل منطقة 84×84 بكسل
  • Static MNIST: مجموعة بيانات التحكم حيث تكون الأرقام ثابتة في مركز الصورة
  • ImageNet-1K: مجموعة بيانات تصنيف صور واسعة النطاق تحتوي على 1000 فئة

مهام معالجة اللغة الطبيعية:

  • OpenWebText: 9 مليارات رمز تدريب، 4 ملايين رمز التحقق، مفردات 50K

مقاييس التقييم

  • تصنيف الصور: دقة Top-1 و Top-5
  • نمذجة اللغة: الحيرة (Perplexity)

طرق المقارنة

  • الانتباه الذاتي القياسي (خط أساس Transformer)
  • متغيرات ترميز الموضع النسبي (Shaw et al., Swin Transformer, ConViT, RoFormer، إلخ)
  • متغيرات الترميز المطلق (للدراسات الاستئصالية)

تفاصيل التنفيذ

  • تكوين المعمارية: عمق 6-12 طبقة، بُعد التضمين 192-384، رؤوس الانتباه 3-6
  • بُعد الضغط الافتراضي لـ α-Translution: C1 = C2 = 8
  • حجم الدفعة: 256 (ImageNet)، 8 (OpenWebText)
  • جميع التدريبات من الصفر، بدون تدريب مسبق خارجي

نتائج التجارب

النتائج الرئيسية

تجارب Dynamic MNIST

الطريقةعدد المعاملاتStatic→StaticDynamic→DynamicStatic→Dynamic
الانتباه الذاتي2.7M98.48%92.64%18.18%
α-Translution4.6M98.48%97.31%34.90%
Translution116.2M98.60%97.35%36.40%

النتائج الرئيسية: يُظهر ترانسلوشن أداءً أفضل بشكل ملحوظ في سيناريوهات تغيير الموضع، مما يثبت مزايا الترميز النسبي.

تجارب ImageNet-1K

مثال على ViT-A/56:

الطريقةعدد المعاملاتTop-1Top-5
الانتباه الذاتي4.7M46.28%71.17%
α-Translution5.3M48.36%73.31%
Translution38.5M52.41%76.50%

تجارب نمذجة اللغة الطبيعية

الطريقةعدد المعاملاتالحيرة
الانتباه الذاتي22.0M60.40
α-Translution23.7M57.97
Translution127.5M56.26

الدراسات الاستئصالية

1. تأثير زيادة المعاملات مقابل الترميز النسبي

تُظهر التجارب أن مجرد زيادة المعاملات (الترميز المطلق) لا يؤدي إلى تحسن الأداء، مما يثبت فعالية طريقة الترميز النسبي نفسها.

2. تأثير بُعد الترميز النسبي

مع زيادة C1 و C2، تتحسن أداء α-Translution، لكن عدد المعاملات يزداد أيضاً، مما يخلق مقايضة بين الكفاءة والفعالية.

3. مقارنة طرق ترميز الموضع

الطريقةعدد المعاملاتTop-1Top-5
بدون تضمين موضع4.69M42.49%67.39%
تضمين موضع قياسي4.69M46.28%71.17%
Swin Transformer4.69M46.36%71.31%
RoFormer4.69M46.65%71.51%
α-Translution5.33M48.36%73.31%
Translution38.53M52.41%76.50%

النتائج التجريبية

  1. أهمية الترميز النسبي: يتفوق الترميز النسبي بشكل ملحوظ على الترميز المطلق في سيناريوهات تغيير الموضع
  2. كفاءة المعاملات: يحقق α-Translution تحسناً كبيراً في الأداء مع زيادة معاملات صغيرة نسبياً
  3. الفعالية عبر الأنماط: الطريقة فعالة في كل من مهام الرؤية واللغة
  4. قيود الذاكرة: تحد قيود ذاكرة GPU الحالية من التجارب على نطاق واسع، وتتطلب 2-3 تيرابايت من الذاكرة لتقييمات أكبر

الأعمال ذات الصلة

أبحاث ترميز الموضع

يقسم المؤلفون الأعمال ذات الصلة إلى ثلاث فئات:

  1. متجهات الموضع النسبي: Shaw et al., BoTNet, HaloNet، إلخ
  2. عددية الموضع النسبي: Swin Transformer, CoAtNet, ConViT، إلخ
  3. تضمينات الموضع الدوراني: RoFormer، إلخ

دمج الالتفاف والانتباه

  • دمج على مستوى المعمارية: Conformer, CeiT وغيرها تستخدم الالتفاف والانتباه في طبقات مختلفة
  • دمج على مستوى الوحدة: ترانسلوشن توحد الاثنين على مستوى العملية الأساسية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجحت ترانسلوشن في توحيد القدرة على التحديد التكيفي للانتباه الذاتي ومزايا الترميز النسبي للالتفاف
  2. توفر α-Translution توازناً جيداً بين كفاءة المعاملات والأداء
  3. يتفوق الترميز النسبي بشكل ملحوظ على الترميز المطلق في التعامل مع تغييرات الموضع
  4. تُظهر الطريقة تحسناً في مهام وأنماط متعددة

القيود

  1. متطلبات الموارد الحسابية: يتطلب ترانسلوشن الكامل عدداً كبيراً من المعاملات والذاكرة
  2. قيود نطاق التقييم: نظراً لقيود الموارد، يتم التقييم بشكل أساسي على معماريات صغيرة ومتوسطة الحجم
  3. تحسين السيناريوهات المحددة: قد تكون بعض الأوضاع النسبية قابلة لمشاركة المعاملات، خاصة عندما تكون المسافة بعيدة

الاتجاهات المستقبلية

  1. استكشاف متغيرات محسّنة: تصميم متغيرات ترانسلوشن أكثر كفاءة
  2. التوسع متعدد الأنماط: التوسع إلى أنماط أخرى مثل ثلاثية الأبعاد والفيديو والجزيئات
  3. تصميم المعمارية: تصميم معماريات متخصصة أكثر فعالية لترانسلوشن
  4. التقييم على نطاق واسع: التحقق من الطريقة على أطر عمل وأنماط بيانات أكبر

التقييم المتعمق

المزايا

  1. المساهمة النظرية: توفير منظور موحد للالتفاف والانتباه الذاتي، أنيق نظرياً
  2. القيمة العملية: يمكن لـ α-Translution تحقيق تحسن في الأداء حتى مع موارد محدودة
  3. التجارب الشاملة: تغطي مهام وأنماط بيانات وأبحاث استئصالية متعددة
  4. تحديد المشكلة الواضح: تحديد وحل القيود الأساسية للطرق الموجودة بوضوح
  5. المساهمة مفتوحة المصدر: توفير تنفيذ كامل لتعزيز البحث المجتمعي

أوجه القصور

  1. متطلبات الموارد: قد تحد متطلبات الحوسبة للطريقة الكاملة من التطبيقات العملية
  2. نطاق التقييم: نقص التقييمات على نماذج واسعة النطاق بسبب قيود الموارد
  3. التحليل النظري: نقص التحليل النظري العميق لخصائص التقارب والتحسين
  4. عدالة المقارنة: قد تؤثر الاختلافات الكبيرة في عدد المعاملات مع الخطوط الأساسية على عدالة المقارنة

التأثير المحتمل

  1. القيمة الأكاديمية: توفير منظور جديد لدمج آليات الانتباه والالتفاف
  2. الآفاق العملية: قد يتم اعتماد α-Translution في التطبيقات العملية بسبب قابليتها للتطبيق
  3. الأهمية الإلهامية: قد تلهم المزيد من الأبحاث حول توحيد العمليات الأساسية

السيناريوهات المناسبة

  1. المهام الحساسة للموضع: مناسبة بشكل خاص للمهام التي تتطلب التعامل مع تغييرات الموضع
  2. البيانات المنظمة: أداء جيد على البيانات ذات البنية المكانية أو التسلسلية مثل الصور والنصوص
  3. بيئات الموارد الوفيرة: ترانسلوشن الكاملة مناسبة للسيناريوهات ذات موارد الحوسبة الوفيرة
  4. الاستكشاف البحثي: توفير اتجاهات جديدة لأبحاث معمارية أساسية

المراجع

تستشهد الورقة بأعمال مهمة في مجال التعلم العميق، بما في ذلك:

  • ورقة Transformer الأصلية (Vaswani et al., 2017)
  • Vision Transformer (Dosovitskiy et al., 2021)
  • الأعمال ذات الصلة بترميز الموضع النسبي (Shaw et al., 2018; Liu et al., 2021، إلخ)
  • الأعمال الكلاسيكية للشبكات العصبية الالتفافية (LeCun et al., 1998; He et al., 2016، إلخ)

التقييم الإجمالي: هذه ورقة عالية الجودة لها مساهمات نظرية وعملية. على الرغم من مشكلة متطلبات الموارد الحسابية العالية، فإن اقتراح متغير α-Translution يحقق توازناً جيداً بين الأداء والكفاءة. توفر الورقة منظوراً جديداً لتوحيد العمليات الأساسية في التعلم العميق، وتتمتع بقيمة أكاديمية وعملية مهمة.