2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy

Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.

academic

ظهور معلومات الموضع في محولات السببية بدون ترميزات موضعية عبر تشابه التضمينات القريبة

المعلومات الأساسية

معرّف الورقة: 2501.00073
العنوان: ظهور معلومات الموضع في محولات السببية بدون ترميزات موضعية عبر تشابه التضمينات القريبة
المؤلفون: Chunsheng Zuo (جامعة جونز هوبكنز)، Pavel Guerzhoy (جامعة هاواي في مانوا)، Michael Guerzhoy (جامعة تورنتو)
التصنيف: cs.CL (اللسانيات الحسابية)، cs.LG (التعلم الآلي)
تاريخ النشر: 30 ديسمبر 2024
رابط الورقة: https://arxiv.org/abs/2501.00073

الملخص

تستكشف هذه الدراسة كيفية قيام محولات Transformer ذات الانتباه السببي بحل المهام التي تتطلب معلومات موضعية دون استخدام ترميزات موضعية. يقترح المؤلفون ويتحققون من فرضية جديدة: يمكن تخزين معلومات الموضع من خلال التشابه بين متجهات التضمين المجاورة. تكتشف الدراسة أن متجهات التضمين المجاورة أكثر تشابهاً من تلك البعيدة، مما يسمح لـ Transformer بإعادة بناء معلومات موضع الرمز. يمكن ملاحظة هذا النمط في نماذج محولات السببية المدربة والمهيأة عشوائياً.

خلفية البحث والدافع

تعريف المشكلة

يعتقد التفكير التقليدي أن محولات Transformer تحتاج إلى ترميزات موضعية صريحة للتعامل مع معلومات موضع الرموز في التسلسل، لكن الأبحاث الحديثة (Haviv et al. 2022؛ Kazemnejad et al. 2024؛ Chi et al. 2023) تشير إلى أن محولات فك التشفير التي تستخدم فقط الانتباه السببي يمكنها تعلم معلومات الموضع دون ترميزات موضعية.

دافع البحث

الفجوة النظرية: البحث الحالي يفتقر إلى فهم عميق لكيفية تخزين محولات السببية لمعلومات الموضع
استكشاف الآليات: اقترح Chi et al. (2023) أن معلومات الموضع مخزنة في تباين التضمين، لكن هذا التفسير قد يكون غير كافٍ
الحاجة إلى منظور جديد: هناك حاجة لفهم آليات تمثيل معلومات الموضع من زاوية جديدة

حدود الطرق الموجودة

آليات الانتباه غير السببي لها خاصية عدم التغيير بالنسبة للتبديل على الرموز المدخلة، ولا يمكنها التعامل مع معلومات الموضع
نظرية التباين لـ Chi et al. أظهرت أداءً ضعيفاً في بعض التجارب، ولا يمكنها شرح الظواهر المرصودة بالكامل

المساهمات الأساسية

اقتراح فرضية النمط المجاور: اكتشاف أن متجهات التضمين في المواضع المجاورة لها درجة تشابه جيب التمام أعلى، مما يشكل "نمطاً مجاوراً"
التحليل النظري: شرح رياضي لسبب ظهور النمط المجاور في الطبقة الأولى من الانتباه السببي
التحقق التجريبي الواسع: التحقق من وجود النمط المجاور عبر مهام متعددة وتكوينات نماذج ومخططات تهيئة مختلفة
طريقة التقييم الكمي: اقتراح درجة احتمالية المجاورة لتحديد قوة معلومات الموضع
التحليل المقارن: إثبات من خلال تجارب الاستكشاف أن تشابه جيب التمام أكثر فعالية من تباين التضمين في ترميز معلومات الموضع

شرح الطريقة

تعريف المهمة

دراسة كيفية قيام محولات السببية بتمثيل واستخدام معلومات الموضع دون ترميزات موضعية صريحة، مع التركيز على أنماط التشابه بين متجهات التضمين.

المفاهيم الأساسية

مصفوفة تشابه جيب التمام الذاتي

بالنسبة لتسلسل تضمينات الرموز بطول n وبعد d، X ∈ R^(n×d)، يتم تعريف مصفوفة تشابه جيب التمام الذاتي C على النحو التالي:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

النمط المجاور (Adjacency Pattern)

يشير النمط المجاور إلى أن مصفوفة تشابه جيب التمام الذاتي تظهر قيماً أعلى بالقرب من القطر الرئيسي وقيماً أقل بعيداً عن القطر، مما يشير إلى أن متجهات التضمين في المواضع المجاورة أكثر تشابهاً.

درجة احتمالية المجاورة

لتحديد قوة النمط المجاور، يقترح المؤلفون درجة احتمالية المجاورة:

بالنسبة للصف k، يتم تعريف درجة احتمالية المجاورة على مستوى الصف على النحو التالي:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

درجة احتمالية المجاورة للمصفوفة بأكملها هي متوسط جميع الصفوف.

التحليل النظري

تأثير المتوسط

في الطبقة الأولى، يتم حساب التضمين في الموضع k من خلال مزيج خطي من التضمينات السابقة (k-1):

التضمين في الموضع k+t: Σ(i=1 to k+t) α_i * e_i
التضمين في الموضع k+t+1: Σ(i=1 to k+t+1) β_i * e_i

نظراً لأن المواضع المجاورة تشترك في المزيد من تضمينات الإدخال، فإن الفرق في حاصل الضرب النقطي بينها يكون موجباً:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

هذا يشرح رياضياً ظهور النمط المجاور.

إعداد التجارب

مجموعات البيانات والمهام

صمم المؤلفون أربع مهام اصطناعية تتطلب معلومات موضعية:

مهمة الجمع (Addition): توليد إجابة "123+456="، بحد أقصى لطول الإدخال 9
مهمة الانعكاس (Reversal): لـ "rev(1234)=" توليد "4321"، بحد أقصى لطول الإدخال 22
مهمة الفهرسة (Indexing): لـ "wherex(134504392,4)=" إخراج موضع الظهور الأول "2"، بحد أقصى لطول الإدخال 20
مهمة الترتيب (Ordering): بالنظر إلى التسلسل الأصلي والتسلسل المعاد ترتيبه، إخراج ترتيب الفهرس الجديد، بحد أقصى لطول الإدخال 18

تكوين النموذج

النموذج الأساسي: NanoGPT بـ 6 طبقات، 10.6 مليون معامل
تكوينات متغيرة: 6/12/24 طبقة، 192/384/768 بعد مخفي
التهيئة: N(0, 0.02) افتراضياً، اختبار وسائل وتباينات مختلفة
إعدادات التدريب: 20000 عينة تدريب و 20000 عينة اختبار لكل مهمة، 5 بذور عشوائية

مقاييس التقييم

درجة احتمالية المجاورة: تحديد قوة النمط المجاور
دقة المهمة: أداء النموذج على المهام المختلفة
تجارب الاستكشاف: استخدام شبكة MLP بـ 4 طبقات للاستكشاف عن معلومات الموضع، تقييم NRMSE و Pearson-R

نتائج التجارب

النتائج الرئيسية

1. الوجود العام للنمط المجاور

في طبقة تضمين الرموز، درجة احتمالية المجاورة حوالي 0.5 (مستوى عشوائي)
بعد الطبقة الأولى من الانتباه السببي، تقفز الدرجة إلى 0.8-1.0
يبقى هذا النمط مستقراً قبل وبعد التدريب، وعبر المهام والتكوينات المختلفة

2. نتائج تحليل الطبقات

الطبقة	النموذج المهيأ	النموذج المدرب
طبقة التضمين	0.48	0.54
الطبقة 1	0.98	0.89
الطبقة 2	0.99	0.97
الطبقة 3	0.99	0.98
الطبقة 6	0.99	0.82

3. حساسية المعاملات الفائقة

تأثير عدد الطبقات: نماذج بـ 6-24 طبقة تظهر جميعها النمط المجاور
تأثير البعد: تكوينات 192-768 بعد تحافظ على النمط
تأثير التهيئة: النمط مستقر تحت مخططات التهيئة القياسية (σ ≤ 0.02)

التجارب الاستئصالية

اختبار مخططات التهيئة

اختبار وسائل مختلفة (μ ∈ {0,4,8}) وانحرافات معيارية (σ ∈ {0.002,0.02,0.2}):

تباين صغير (σ ≤ 0.02): النمط المجاور مستقر
تباين كبير (σ = 0.2): النمط يختفي
الوسط الكبير له تأثير أقل على النمط

المقارنة مع نظرية التباين

مقارنة تشابه جيب التمام وتباين التضمين كميزات موضعية من خلال تجارب الاستكشاف:

نوع الميزة	Pearson-R	NRMSE
متجه التضمين	0.71	0.20
تباين التضمين	0.49	0.23
تشابه جيب التمام	0.93	0.11

تحليل الحالات

يعرض الشكل 1 تصور مصفوفة تشابه جيب التمام الذاتي في مهمة الانعكاس:

النموذج المهيأ: نمط قطري واضح يبدأ من الطبقة 1
النموذج المدرب: الطبقات الأولى تحافظ على نمط مجاور قوي، الطبقات اللاحقة تضعف تدريجياً

الأعمال ذات الصلة

أبحاث الترميز الموضعي

الطرق التقليدية: الترميز الموضعي المطلق، الترميز الموضعي النسبي
الاكتشافات الحديثة: Haviv et al. (2022) أول من أثبت إمكانية تدريب محولات السببية بدون ترميزات موضعية

آليات الانتباه السببي

عدم التغيير بالتبديل: Tsai et al. (2019) أثبتوا أن الانتباه غير السببي له خاصية عدم التغيير بالتبديل
تخزين معلومات الموضع: Chi et al. (2023) اقترحوا فرضية التناقص في التباين

مساهمة هذه الورقة

مقارنة بنظرية التباين لـ Chi et al.، فرضية النمط المجاور في هذه الورقة:

توفر تفسيراً هندسياً أكثر حدساً
تظهر أداءً أفضل في تجارب الاستكشاف
تنطبق على نطاق أوسع من تكوينات النماذج

الخلاصة والمناقشة

الاستنتاجات الرئيسية

وجود النمط المجاور على نطاق واسع: محولات السببية تشكل طبيعياً نمطاً مجاوراً بعد الانتباه في الطبقة الأولى
ترميز معلومات الموضع: التشابه العالي للتضمينات المجاورة يوفر إمكانية إعادة بناء الموضع
شرح الآلية: تأثير المتوسط يشرح رياضياً سبب ظهور النمط
القيمة العملية: تشابه جيب التمام أنسب من تباين التضمين كميزة موضعية

القيود

حدود مجموعة البيانات: التحقق الرئيسي على مهام اصطناعية، وتعميم مجموعات البيانات الحقيقية يحتاج إلى مزيد من البحث
الاعتماد على البنية: الاستنتاجات تعتمد على بنية Transformer محددة، وقابلية التطبيق على المتغيرات الأخرى غير معروفة
مشكلة الاكتمال: النمط المجاور والتباين لا يمكنهما شرح 100% من أداء المهمة

الاتجاهات المستقبلية

التحقق على نطاق واسع: التحقق من النمط المجاور في مهام نمذجة اللغة الحقيقية
دمج الآليات: استكشاف دمج النمط المجاور مع آليات الترميز الموضعي الأخرى
تحسين النظرية: بناء إطار نظري أكثر اكتمالاً لتمثيل معلومات الموضع

التقييم المتعمق

المميزات

منظور مبتكر: فهم معلومات الموضع من زاوية التشابه الهندسي، يوفر رؤى نظرية جديدة
التحقق الصارم: التحقق الشامل من الفرضية من خلال مهام متعددة وتكوينات متعددة وطرق تحليل متنوعة
الأساس الرياضي: توفير تفسير نظري لظهور النمط المجاور
أداة عملية: توفير درجة احتمالية المجاورة كطريقة فعالة لتحديد معلومات الموضع

أوجه القصور

قيود المهام: قد لا تعكس المهام الاصطناعية التعقيد الكامل للتطبيقات الحقيقية
عدم اكتمال الآلية: الاعتراف بأن النظرية الحالية لا يمكنها شرح الأداء بالكامل
التكلفة الحسابية: قد يكون حساب مصفوفة تشابه جيب التمام الذاتي مكلفاً على التسلسلات الطويلة

التأثير

المساهمة النظرية: توفير منظور جديد لفهم تمثيل الموضع في Transformer
التوجيه العملي: توفير دعم نظري لتصميم نماذج بدون ترميزات موضعية
الإلهام البحثي: فتح اتجاه جديد لتحليل آليات Transformer الداخلية من منظور هندسي

السيناريوهات المطبقة

النماذج الخفيفة: تصميم نماذج تقلل معاملات الترميز الموضعي
معالجة التسلسلات الطويلة: نمذجة التسلسل التي تتجنب قيود الترميز الموضعي
تحليل النموذج: فهم وتصحيح التمثيلات الداخلية لـ Transformer

المراجع

تستشهد هذه الورقة بشكل أساسي بالأعمال المهمة التالية:

Haviv et al. (2022): أول من أثبت جدوى التدريب بدون ترميزات موضعية
Chi et al. (2023): اقترح فرضية تناقص التباين لمعلومات الموضع
Tsai et al. (2019): تحليل الخصائص الإحصائية لآليات الانتباه
Vaswani et al. (2017): ورقة Transformer الأصلية

يوفر هذا البحث منظوراً جديداً مهماً لفهم كيفية تعامل محولات Transformer مع معلومات الموضع. على الرغم من أن هناك نقصاً في الاكتمال، فإن رؤاه النظرية واكتشافاته التجريبية توفر أساساً متيناً لمزيد من التطور في هذا المجال.