Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic
ظهور معلومات الموضع في محولات السببية بدون ترميزات موضعية عبر تشابه التضمينات القريبة
تستكشف هذه الدراسة كيفية قيام محولات Transformer ذات الانتباه السببي بحل المهام التي تتطلب معلومات موضعية دون استخدام ترميزات موضعية. يقترح المؤلفون ويتحققون من فرضية جديدة: يمكن تخزين معلومات الموضع من خلال التشابه بين متجهات التضمين المجاورة. تكتشف الدراسة أن متجهات التضمين المجاورة أكثر تشابهاً من تلك البعيدة، مما يسمح لـ Transformer بإعادة بناء معلومات موضع الرمز. يمكن ملاحظة هذا النمط في نماذج محولات السببية المدربة والمهيأة عشوائياً.
يعتقد التفكير التقليدي أن محولات Transformer تحتاج إلى ترميزات موضعية صريحة للتعامل مع معلومات موضع الرموز في التسلسل، لكن الأبحاث الحديثة (Haviv et al. 2022؛ Kazemnejad et al. 2024؛ Chi et al. 2023) تشير إلى أن محولات فك التشفير التي تستخدم فقط الانتباه السببي يمكنها تعلم معلومات الموضع دون ترميزات موضعية.
يشير النمط المجاور إلى أن مصفوفة تشابه جيب التمام الذاتي تظهر قيماً أعلى بالقرب من القطر الرئيسي وقيماً أقل بعيداً عن القطر، مما يشير إلى أن متجهات التضمين في المواضع المجاورة أكثر تشابهاً.
تستشهد هذه الورقة بشكل أساسي بالأعمال المهمة التالية:
Haviv et al. (2022): أول من أثبت جدوى التدريب بدون ترميزات موضعية
Chi et al. (2023): اقترح فرضية تناقص التباين لمعلومات الموضع
Tsai et al. (2019): تحليل الخصائص الإحصائية لآليات الانتباه
Vaswani et al. (2017): ورقة Transformer الأصلية
يوفر هذا البحث منظوراً جديداً مهماً لفهم كيفية تعامل محولات Transformer مع معلومات الموضع. على الرغم من أن هناك نقصاً في الاكتمال، فإن رؤاه النظرية واكتشافاته التجريبية توفر أساساً متيناً لمزيد من التطور في هذا المجال.