2025-11-12T01:28:29.133817

Stability of Transformers under Layer Normalization

Kan, Li, Zhang et al.

Despite their widespread use, training deep Transformers can be unstable. Layer normalization, a standard component, improves training stability, but its placement has often been ad-hoc. In this paper, we conduct a principled study on the forward (hidden states) and backward (gradient) stability of Transformers under different layer normalization placements. Our theory provides key insights into the training dynamics: whether training drives Transformers toward regular solutions or pathological behaviors. For forward stability, we derive explicit bounds on the growth of hidden states in trained Transformers. For backward stability, we analyze how layer normalization affects the backpropagation of gradients, thereby explaining the training dynamics of each layer normalization placement. Our analysis also guides the scaling of residual steps in Transformer blocks, where appropriate choices can further improve stability and performance. Our numerical results corroborate our theoretical findings. Beyond these results, our framework provides a principled way to sanity-check the stability of Transformers under new architectural modifications, offering guidance for future designs.

academic

परत सामान्यीकरण के तहत ट्रांसफॉर्मर की स्थिरता

मूल जानकारी

पेपर ID: 2510.09904
शीर्षक: परत सामान्यीकरण के तहत ट्रांसफॉर्मर की स्थिरता
लेखक: केल्विन कान (UCLA), शिंगजियान ली (UT Austin), बेंजामिन जे. झांग (UNC चैपल हिल), तुहिन साहाई (SRI International), स्टेनली ओशर (UCLA), कृष्ण कुमार (UT Austin), मार्कोस ए. कत्सौलाकिस (UMass Amherst)
वर्गीकरण: cs.LG, cs.AI, math.OC
प्रकाशन तिथि: 10 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.09904

सारांश

यद्यपि ट्रांसफॉर्मर का व्यापक उपयोग होता है, गहरे ट्रांसफॉर्मर का प्रशिक्षण अस्थिर हो सकता है। परत सामान्यीकरण (Layer Normalization) एक मानक घटक के रूप में प्रशिक्षण स्थिरता में सुधार कर सकता है, लेकिन इसकी स्थिति का चयन अक्सर तदर्थ होता है। यह पेपर विभिन्न परत सामान्यीकरण स्थितियों के तहत ट्रांसफॉर्मर की अग्रगामी स्थिरता (छिपी हुई स्थिति) और पश्चगामी स्थिरता (प्रवणता) का सैद्धांतिक अध्ययन प्रस्तुत करता है। सैद्धांतिक विश्लेषण प्रशिक्षण गतिविज्ञान में महत्वपूर्ण अंतर्दृष्टि प्रकट करता है: क्या प्रशिक्षण ट्रांसफॉर्मर को नियमित समाधान या रोगग्रस्त व्यवहार की ओर ले जाता है। अग्रगामी स्थिरता के संदर्भ में, प्रशिक्षित ट्रांसफॉर्मर में छिपी हुई स्थिति वृद्धि के लिए स्पष्ट सीमाएं प्राप्त की गई हैं। पश्चगामी स्थिरता के संदर्भ में, विश्लेषण किया गया है कि परत सामान्यीकरण प्रवणता पश्चप्रसार को कैसे प्रभावित करता है, जिससे प्रत्येक परत सामान्यीकरण स्थिति के प्रशिक्षण गतिविज्ञान की व्याख्या होती है। विश्लेषण ट्रांसफॉर्मर ब्लॉक में अवशिष्ट चरण आकार के स्केलिंग का भी मार्गदर्शन करता है, उचित चयन स्थिरता और प्रदर्शन को और बेहतर बना सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान जो मूल समस्या को हल करना चाहता है वह है: विभिन्न परत सामान्यीकरण स्थितियों का ट्रांसफॉर्मर प्रशिक्षण स्थिरता पर प्रभाव तंत्र। विशेष रूप से इसमें शामिल हैं:

अग्रगामी स्थिरता समस्या: गहरे नेटवर्क में छिपी हुई स्थिति वृद्धि नियंत्रण
पश्चगामी स्थिरता समस्या: पश्चप्रसार प्रक्रिया में प्रवणता की स्थिरता
आर्किटेक्चर डिजाइन मार्गदर्शन: नए ट्रांसफॉर्मर वेरिएंट के लिए सैद्धांतिक मार्गदर्शन कैसे प्रदान करें

महत्व विश्लेषण

व्यावहारिक मूल्य: ट्रांसफॉर्मर आधुनिक गहन शिक्षा की नींव है, इसकी प्रशिक्षण स्थिरता मॉडल प्रदर्शन और प्रशिक्षण दक्षता को सीधे प्रभावित करती है
सैद्धांतिक अंतराल: मौजूदा परत सामान्यीकरण स्थिति चयन मुख्य रूप से अनुभव पर आधारित है, सैद्धांतिक आधार की कमी है
औद्योगिक आवश्यकता: मॉडल आकार में निरंतर वृद्धि के साथ, प्रशिक्षण स्थिरता समस्याएं अधिक गंभीर हो गई हैं

मौजूदा विधियों की सीमाएं

Post-LN: सूक्ष्म अनुकूलन शेड्यूल की आवश्यकता है, प्रदर्शन अक्सर उप-इष्टतम है
Pre-LN: हालांकि प्रारंभिक प्रशिक्षण स्थिरता में सुधार करता है, लेकिन बहुत बड़ी छिपी हुई स्थिति उत्पन्न करता है, जिससे संख्यात्मक अस्थिरता होती है
Peri-LN: हालांकि व्यावहारिक रूप से अच्छा प्रदर्शन करता है, लेकिन सैद्धांतिक गुणों की समझ अपर्याप्त है

अनुसंधान प्रेरणा

लेखक निरंतर समय गतिविज्ञान और इष्टतम नियंत्रण सिद्धांत के नए दृष्टिकोण का उपयोग करते हैं, ट्रांसफॉर्मर प्रशिक्षण समस्या को माध्य-क्षेत्र नियंत्रण समस्या के रूप में मॉडल करते हैं, जिससे प्रशिक्षण अभिसरण के बाद मॉडल गुणों का विश्लेषण किया जा सकता है, न कि केवल प्रारंभिकीकरण के समय के व्यवहार पर ध्यान केंद्रित करना।

मुख्य योगदान

सैद्धांतिक ढांचा नवाचार: इष्टतम नियंत्रण सिद्धांत पर आधारित नया ढांचा प्रस्तावित करता है, विभिन्न परत सामान्यीकरण स्थितियों के तहत ट्रांसफॉर्मर स्थिरता का व्यवस्थित विश्लेषण
अग्रगामी स्थिरता विश्लेषण: छिपी हुई स्थिति वृद्धि के लिए स्पष्ट सीमाएं प्राप्त करता है, यह साबित करता है कि Pre-LN अनबाउंडेड वृद्धि का कारण बनता है जबकि Peri-LN नियंत्रित वृद्धि बनाए रखता है
पश्चगामी स्थिरता विश्लेषण: परत सामान्यीकरण के प्रवणता पश्चप्रसार पर प्रभाव तंत्र को प्रकट करता है
अवशिष्ट चरण आकार स्केलिंग: स्थिरता और प्रदर्शन में सुधार के लिए अवशिष्ट चरण आकार स्केलिंग विधि प्रस्तावित करता है
प्रायोगिक सत्यापन: GPT-2 श्रृंखला मॉडल पर सैद्धांतिक निष्कर्षों को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

विभिन्न परत सामान्यीकरण स्थितियों के तहत ट्रांसफॉर्मर की स्थिरता का अध्ययन, जिसमें शामिल हैं:

इनपुट: एम्बेडिंग और स्थिति एन्कोडिंग के बाद का अनुक्रम $X_0 \in \mathbb{R}^{d \times n}$
आउटपुट: D परत ट्रांसफॉर्मर ब्लॉक के बाद छिपी हुई स्थिति $X_D$
उद्देश्य: अग्रगामी और पश्चगामी प्रसार की स्थिरता का विश्लेषण

निरंतर समय मॉडलिंग

ट्रांसफॉर्मर का निरंतर समय प्रतिनिधित्व

मानक ट्रांसफॉर्मर ब्लॉक की स्किप कनेक्शन संरचना को निरंतर समय गतिविज्ञान के यूलर विवेकीकरण के रूप में व्याख्या करता है: