2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic

कारणात्मक ट्रांसफॉर्मर्स में स्थिति सूचना आसन्न एम्बेडिंग की समानता के माध्यम से स्थिति एन्कोडिंग के बिना उभरती है

मूल जानकारी

  • पेपर ID: 2501.00073
  • शीर्षक: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
  • लेखक: चुनशेंग ज़ुओ (जॉन्स हॉपकिंस विश्वविद्यालय), पावेल गुएरझॉय (हवाई विश्वविद्यालय मनोआ में), माइकल गुएरझॉय (टोरंटो विश्वविद्यालय)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.LG (मशीन लर्निंग)
  • प्रकाशन तिथि: 30 दिसंबर 2024
  • पेपर लिंक: https://arxiv.org/abs/2501.00073

सारांश

यह अनुसंधान यह अन्वेषण करता है कि कारणात्मक ध्यान वाले ट्रांसफॉर्मर्स स्थिति एन्कोडिंग का उपयोग किए बिना स्थिति सूचना की आवश्यकता वाले कार्यों को कैसे हल करते हैं। लेखकों ने एक नई परिकल्पना प्रस्तावित और सत्यापित की: स्थिति सूचना आसन्न एम्बेडिंग वेक्टर के बीच समानता के माध्यम से संग्रहीत की जा सकती है। अनुसंधान से पता चलता है कि आसन्न एम्बेडिंग वेक्टर दूर के एम्बेडिंग वेक्टर की तुलना में अधिक समान होते हैं, जो ट्रांसफॉर्मर को टोकन की स्थिति सूचना को पुनर्निर्मित करने में सक्षम बनाता है। यह पैटर्न प्रशिक्षण के बाद और यादृच्छिक रूप से आरंभीकृत कारणात्मक ट्रांसफॉर्मर मॉडल दोनों में देखा जा सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक विचार यह है कि ट्रांसफॉर्मर्स को अनुक्रम में टोकन की स्थिति सूचना को संभालने के लिए स्पष्ट स्थिति एन्कोडिंग की आवश्यकता होती है, लेकिन हाल के अनुसंधान (हविव एट अल. 2022; काज़ेमनेजाद एट अल. 2024; ची एट अल. 2023) से पता चलता है कि केवल कारणात्मक ध्यान वाले डिकोडर-केवल ट्रांसफॉर्मर स्थिति एन्कोडिंग के बिना स्थिति सूचना सीख सकते हैं।

अनुसंधान प्रेरणा

  1. सैद्धांतिक अंतराल: मौजूदा अनुसंधान में कारणात्मक ट्रांसफॉर्मर्स कैसे स्थिति सूचना संग्रहीत करते हैं, इसकी गहन समझ का अभाव है
  2. तंत्र अन्वेषण: ची एट अल. (2023) ने प्रस्तावित किया कि स्थिति सूचना एम्बेडिंग विचरण में संग्रहीत होती है, लेकिन यह व्याख्या अपर्याप्त हो सकती है
  3. नए दृष्टिकोण की आवश्यकता: स्थिति सूचना प्रतिनिधित्व तंत्र को समझने के लिए नए दृष्टिकोण की आवश्यकता है

मौजूदा विधियों की सीमाएं

  • गैर-कारणात्मक ध्यान तंत्र इनपुट टोकन की व्यवस्था के प्रति क्रमचय-अपरिवर्तनीय हैं, स्थिति सूचना को संभाल नहीं सकते
  • ची एट अल. का विचरण सिद्धांत कुछ प्रयोगों में खराब प्रदर्शन करता है, देखी गई घटनाओं की पूरी तरह व्याख्या नहीं कर सकता

मुख्य योगदान

  1. आसन्न पैटर्न परिकल्पना प्रस्तावित करना: आसन्न स्थितियों के एम्बेडिंग वेक्टर में उच्च कोसाइन समानता पाई गई, जो "आसन्न पैटर्न" बनाती है
  2. सैद्धांतिक विश्लेषण: कारणात्मक ध्यान की पहली परत में आसन्न पैटर्न के प्रकट होने के कारणों की गणितीय व्याख्या
  3. व्यापक प्रयोगात्मक सत्यापन: कई कार्यों, मॉडल कॉन्फ़िगरेशन और आरंभीकरण योजनाओं के तहत आसन्न पैटर्न के अस्तित्व को सत्यापित करना
  4. मात्रात्मक मूल्यांकन विधि: आसन्न संभाव्यता स्कोर (adjacency probability score) प्रस्तावित करना जो स्थिति सूचना की शक्ति को मापता है
  5. तुलनात्मक विश्लेषण: जांच प्रयोगों के माध्यम से यह साबित करना कि कोसाइन समानता एम्बेडिंग विचरण की तुलना में स्थिति सूचना को अधिक प्रभावी ढंग से एन्कोड करती है

विधि विवरण

कार्य परिभाषा

कारणात्मक ट्रांसफॉर्मर्स में स्पष्ट स्थिति एन्कोडिंग के बिना स्थिति सूचना को कैसे प्रदर्शित और उपयोग किया जाता है, इसका अनुसंधान करना, एम्बेडिंग वेक्टर के बीच समानता पैटर्न पर ध्यान केंद्रित करना।

मुख्य अवधारणाएं

स्व-कोसाइन समानता मैट्रिक्स

लंबाई n और आयाम d के टोकन एम्बेडिंग अनुक्रम X ∈ R^(n×d) के लिए, स्व-कोसाइन समानता मैट्रिक्स C को इस प्रकार परिभाषित किया गया है:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

आसन्न पैटर्न (Adjacency Pattern)

आसन्न पैटर्न स्व-कोसाइन समानता मैट्रिक्स की विशेषता को संदर्भित करता है जहां विकर्ण के पास मान अधिक होते हैं और विकर्ण से दूर मान कम होते हैं, जो दर्शाता है कि आसन्न स्थितियों के एम्बेडिंग वेक्टर अधिक समान हैं।

आसन्न संभाव्यता स्कोर

आसन्न पैटर्न की शक्ति को मापने के लिए, लेखकों ने आसन्न संभाव्यता स्कोर प्रस्तावित किया:

kवीं पंक्ति के लिए, पंक्ति-स्तरीय आसन्न संभाव्यता स्कोर को इस प्रकार परिभाषित किया गया है:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

संपूर्ण मैट्रिक्स का आसन्न संभाव्यता स्कोर सभी पंक्तियों का औसत है।

सैद्धांतिक विश्लेषण

औसतकरण प्रभाव

पहली परत में, स्थिति k का एम्बेडिंग पिछले k-1 एम्बेडिंग के रैखिक संयोजन के माध्यम से गणना की जाती है:

  • स्थिति k+t का एम्बेडिंग: Σ(i=1 to k+t) α_i * e_i
  • स्थिति k+t+1 का एम्बेडिंग: Σ(i=1 to k+t+1) β_i * e_i

चूंकि आसन्न स्थितियां अधिक इनपुट एम्बेडिंग साझा करती हैं, उनके डॉट उत्पाद का अंतर सकारात्मक है:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

यह गणितीय रूप से आसन्न पैटर्न के प्रकट होने की व्याख्या करता है।

प्रयोगात्मक सेटअप

डेटासेट और कार्य

लेखकों ने स्थिति सूचना की आवश्यकता वाले चार सिंथेटिक कार्य डिज़ाइन किए:

  1. जोड़ कार्य (Addition): "123+456=" का उत्तर उत्पन्न करना, अधिकतम इनपुट लंबाई 9
  2. उलट कार्य (Reversal): "rev(1234)=" के लिए "4321" उत्पन्न करना, अधिकतम इनपुट लंबाई 22
  3. अनुक्रमण कार्य (Indexing): "wherex(134504392,4)=" के लिए पहली बार दिखाई देने वाली स्थिति "2" आउटपुट करना, अधिकतम इनपुट लंबाई 20
  4. क्रमबद्ध कार्य (Ordering): मूल अनुक्रम और पुनः क्रमबद्ध अनुक्रम दिए गए, नए सूचकांक क्रम आउटपुट करना, अधिकतम इनपुट लंबाई 18

मॉडल कॉन्फ़िगरेशन

  • आधार मॉडल: 6-परत NanoGPT, 10.6 मिलियन पैरामीटर
  • वेरिएंट कॉन्फ़िगरेशन: 6/12/24 परतें, 192/384/768 छिपे हुए आयाम
  • आरंभीकरण: डिफ़ॉल्ट N(0, 0.02), विभिन्न माध्य और विचरण का परीक्षण
  • प्रशिक्षण सेटिंग: प्रति कार्य 20,000 प्रशिक्षण नमूने और 20,000 परीक्षण नमूने, 5 यादृच्छिक बीज

मूल्यांकन मेट्रिक्स

  1. आसन्न संभाव्यता स्कोर: आसन्न पैटर्न की शक्ति को मापना
  2. कार्य सटीकता: विभिन्न कार्यों पर मॉडल का प्रदर्शन
  3. जांच प्रयोग: 4-परत MLP का उपयोग करके स्थिति सूचना की जांच, NRMSE और Pearson-R का मूल्यांकन

प्रयोगात्मक परिणाम

मुख्य निष्कर्ष

1. आसन्न पैटर्न की सार्वभौमिक उपस्थिति

  • टोकन एम्बेडिंग परत में, आसन्न संभाव्यता स्कोर लगभग 0.5 है (यादृच्छिक स्तर)
  • पहली कारणात्मक ध्यान परत के बाद, स्कोर 0.8-1.0 तक बढ़ जाता है
  • यह पैटर्न प्रशिक्षण से पहले और बाद में, विभिन्न कार्यों और मॉडल कॉन्फ़िगरेशन में स्थिर रहता है

2. परत-स्तरीय विश्लेषण परिणाम

परतआरंभीकृत मॉडलप्रशिक्षित मॉडल
एम्बेडिंग परत0.480.54
पहली परत0.980.89
दूसरी परत0.990.97
तीसरी परत0.990.98
छठी परत0.990.82

3. हाइपरपैरामीटर संवेदनशीलता

  • परत संख्या प्रभाव: 6-24 परत मॉडल सभी आसन्न पैटर्न दिखाते हैं
  • आयाम प्रभाव: 192-768 आयाम कॉन्फ़िगरेशन सभी पैटर्न बनाए रखते हैं
  • आरंभीकरण प्रभाव: मानक आरंभीकरण योजना (σ ≤ 0.02) के तहत पैटर्न स्थिर है

विलोपन प्रयोग

आरंभीकरण योजना परीक्षण

विभिन्न माध्य (μ ∈ {0,4,8}) और मानक विचलन (σ ∈ {0.002,0.02,0.2}) का परीक्षण:

  • छोटा विचरण (σ ≤ 0.02): आसन्न पैटर्न स्थिर
  • बड़ा विचरण (σ = 0.2): पैटर्न गायब हो जाता है
  • बड़ा माध्य पैटर्न पर कम प्रभाव डालता है

विचरण सिद्धांत के साथ तुलना

कोसाइन समानता और एम्बेडिंग विचरण को स्थिति विशेषताओं के रूप में तुलना करने के लिए जांच प्रयोग:

विशेषता प्रकारPearson-RNRMSE
एम्बेडिंग वेक्टर0.710.20
एम्बेडिंग विचरण0.490.23
कोसाइन समानता0.930.11

केस विश्लेषण

चित्र 1 उलट कार्य में स्व-कोसाइन समानता मैट्रिक्स का दृश्य प्रदर्शन करता है:

  • आरंभीकृत मॉडल: पहली परत से शुरू होकर स्पष्ट विकर्ण पैटर्न दिखाई देता है
  • प्रशिक्षित मॉडल: पहली कुछ परतें मजबूत आसन्न पैटर्न बनाए रखती हैं, बाद की परतें धीरे-धीरे कमजोर होती हैं

संबंधित कार्य

स्थिति एन्कोडिंग अनुसंधान

  • पारंपरिक विधियां: निरपेक्ष स्थिति एन्कोडिंग, सापेक्ष स्थिति एन्कोडिंग
  • नवीनतम खोजें: हविव एट अल. (2022) ने पहली बार साबित किया कि कारणात्मक ट्रांसफॉर्मर्स बिना स्थिति एन्कोडिंग के प्रशिक्षित हो सकते हैं

कारणात्मक ध्यान तंत्र

  • क्रमचय अपरिवर्तनीयता: त्साई एट अल. (2019) ने साबित किया कि गैर-कारणात्मक ध्यान क्रमचय-अपरिवर्तनीय है
  • स्थिति सूचना संग्रहण: ची एट अल. (2023) ने विचरण-ह्रास परिकल्पना प्रस्तावित की

इस पेपर का योगदान

ची एट अल. के विचरण सिद्धांत की तुलना में, इस पेपर की आसन्न पैटर्न परिकल्पना:

  1. अधिक सहज ज्यामितीय व्याख्या प्रदान करती है
  2. जांच प्रयोगों में बेहतर प्रदर्शन करती है
  3. व्यापक मॉडल कॉन्फ़िगरेशन पर लागू होती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. आसन्न पैटर्न सार्वभौमिक है: कारणात्मक ट्रांसफॉर्मर्स पहली ध्यान परत के बाद स्वाभाविक रूप से आसन्न पैटर्न बनाते हैं
  2. स्थिति सूचना एन्कोडिंग: आसन्न एम्बेडिंग की उच्च समानता स्थिति पुनर्निर्माण के लिए संभावना प्रदान करती है
  3. तंत्र व्याख्या: औसतकरण प्रभाव गणितीय रूप से पैटर्न के प्रकट होने की व्याख्या करता है
  4. व्यावहारिक मूल्य: कोसाइन समानता एम्बेडिंग विचरण की तुलना में स्थिति विशेषता के रूप में अधिक उपयुक्त है

सीमाएं

  1. डेटासेट सीमा: मुख्य रूप से सिंथेटिक कार्यों पर सत्यापित, वास्तविक डेटासेट पर सामान्यीकरण की आवश्यकता है
  2. आर्किटेक्चर निर्भरता: निष्कर्ष विशिष्ट ट्रांसफॉर्मर आर्किटेक्चर पर आधारित हैं, अन्य वेरिएंट की प्रयोज्यता अज्ञात है
  3. पूर्णता समस्या: आसन्न पैटर्न और विचरण दोनों 100% कार्य प्रदर्शन की पूरी तरह व्याख्या नहीं कर सकते

भविष्य की दिशाएं

  1. बड़े पैमाने पर सत्यापन: वास्तविक भाषा मॉडलिंग कार्यों में आसन्न पैटर्न को सत्यापित करना
  2. तंत्र एकीकरण: आसन्न पैटर्न और अन्य स्थिति एन्कोडिंग तंत्र के संयोजन की खोज
  3. सैद्धांतिक सुधार: स्थिति सूचना प्रतिनिधित्व के लिए अधिक संपूर्ण सैद्धांतिक ढांचा स्थापित करना

गहन मूल्यांकन

शक्तियां

  1. नवीन दृष्टिकोण: ज्यामितीय समानता के कोण से स्थिति सूचना को समझना, नई सैद्धांतिक अंतर्दृष्टि प्रदान करता है
  2. कठोर सत्यापन: कई कार्यों, कॉन्फ़िगरेशन और विश्लेषण विधियों के माध्यम से परिकल्पना को व्यापक रूप से सत्यापित करना
  3. गणितीय आधार: आसन्न पैटर्न के प्रकट होने की सैद्धांतिक व्याख्या प्रदान करना
  4. व्यावहारिक उपकरण: स्थिति सूचना को मापने के लिए आसन्न संभाव्यता स्कोर एक प्रभावी विधि प्रदान करता है

कमियां

  1. कार्य सीमा: सिंथेटिक कार्य वास्तविक अनुप्रयोग परिदृश्यों की जटिलता को पूरी तरह प्रतिबिंबित नहीं कर सकते
  2. तंत्र अधूरापन: मौजूदा सिद्धांत मॉडल प्रदर्शन की पूरी तरह व्याख्या नहीं कर सकते
  3. कम्प्यूटेशनल लागत: स्व-कोसाइन समानता मैट्रिक्स की गणना लंबे अनुक्रमों पर महंगी हो सकती है

प्रभाव

  1. सैद्धांतिक योगदान: ट्रांसफॉर्मर स्थिति प्रतिनिधित्व को समझने के लिए नया दृष्टिकोण प्रदान करता है
  2. व्यावहारिक मार्गदर्शन: बिना स्थिति एन्कोडिंग के मॉडल डिज़ाइन के लिए सैद्धांतिक समर्थन प्रदान करता है
  3. अनुसंधान प्रेरणा: ट्रांसफॉर्मर आंतरिक तंत्र को ज्यामितीय कोण से विश्लेषण करने की नई दिशा खोलता है

लागू परिदृश्य

  1. हल्के मॉडल: स्थिति एन्कोडिंग पैरामीटर को कम करने वाले मॉडल डिज़ाइन
  2. लंबे अनुक्रम प्रसंस्करण: स्थिति एन्कोडिंग सीमाओं से बचने वाली अनुक्रम मॉडलिंग
  3. मॉडल विश्लेषण: ट्रांसफॉर्मर आंतरिक प्रतिनिधित्व को समझना और डीबग करना

संदर्भ

यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण कार्यों का संदर्भ देता है:

  • हविव एट अल. (2022): पहली बार बिना स्थिति एन्कोडिंग प्रशिक्षण की व्यवहार्यता साबित की
  • ची एट अल. (2023): विचरण-ह्रास स्थिति सूचना परिकल्पना प्रस्तावित की
  • त्साई एट अल. (2019): ध्यान तंत्र के क्रमचय गुणों का विश्लेषण किया
  • वास्वानी एट अल. (2017): ट्रांसफॉर्मर मूल पेपर

यह अनुसंधान ट्रांसफॉर्मर्स कैसे स्थिति सूचना को संभालते हैं, इसके लिए महत्वपूर्ण नया दृष्टिकोण प्रदान करता है। हालांकि पूर्णता में कमी है, लेकिन इसकी सैद्धांतिक अंतर्दृष्टि और प्रयोगात्मक निष्कर्ष इस क्षेत्र के आगे विकास के लिए एक मजबूत आधार तैयार करते हैं।