2025-11-10T02:52:47.563865

RepDL: Bit-level Reproducible Deep Learning Training and Inference

Xie, Zhang, Chen

Non-determinism and non-reproducibility present significant challenges in deep learning, leading to inconsistent results across runs and platforms. These issues stem from two origins: random number generation and floating-point computation. While randomness can be controlled through deterministic configurations, floating-point inconsistencies remain largely unresolved. To address this, we introduce RepDL, an open-source library that ensures deterministic and bitwise-reproducible deep learning training and inference across diverse computing environments. RepDL achieves this by enforcing correct rounding and order invariance in floating-point computation. The source code is available at https://github.com/microsoft/RepDL .

academic

RepDL: बिट-स्तरीय पुनरुत्पादनीय गहन शिक्षण प्रशिक्षण और अनुमान

मूल जानकारी

पेपर ID: 2510.09180
शीर्षक: RepDL: Bit-level Reproducible Deep Learning Training and Inference
लेखक: Peichen Xie, Xian Zhang, Shuo Chen (Microsoft Research)
वर्गीकरण: cs.LG cs.SE
प्रकाशन तिथि: 10 अक्टूबर 2024
पेपर लिंक: https://arxiv.org/abs/2510.09180
कोड लिंक: https://github.com/microsoft/RepDL

सारांश

गहन शिक्षण में अनिर्धारणीयता और अपुनरुत्पादनीयता की समस्याएं क्रॉस-रन और क्रॉस-प्लेटफॉर्म परिणामों में असंगति का कारण बनती हैं। ये समस्याएं दो मूल कारणों से उत्पन्न होती हैं: यादृच्छिक संख्या पीढ़ी और फ्लोटिंग-पॉइंट संचालन। जबकि यादृच्छिकता को निर्धारणीय कॉन्फ़िगरेशन के माध्यम से नियंत्रित किया जा सकता है, फ्लोटिंग-पॉइंट असंगति की समस्या अभी तक अच्छी तरह से हल नहीं हुई है। इसके लिए, लेखकों ने RepDL का परिचय दिया, जो एक ओपन-सोर्स लाइब्रेरी है जो सही राउंडिंग और क्रम अपरिवर्तनीयता को लागू करके विभिन्न कम्प्यूटेशनल वातावरणों में निर्धारणीय और बिट-स्तरीय पुनरुत्पादनीय गहन शिक्षण प्रशिक्षण और अनुमान सुनिश्चित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

गहन शिक्षण दो महत्वपूर्ण समस्याओं का सामना करती है:

अनिर्धारणीयता (Non-determinism): समान कार्य समान इनपुट और सिस्टम के तहत दोहराए जाने पर अलग-अलग परिणाम देते हैं (रन-दर-रन असंगति)
अपुनरुत्पादनीयता (Non-reproducibility): समान कार्य विभिन्न सिस्टम पर निष्पादित होने पर अलग-अलग परिणाम देते हैं (क्रॉस-प्लेटफॉर्म असंगति)

समस्या की महत्ता

ये समस्याएं निम्नलिखित का कारण बनती हैं:

उत्पादन वातावरण में मॉडल तैनाती और डिबगिंग जटिल हो जाती है
क्रॉस-प्लेटफॉर्म अनुप्रयोगों की सही कार्यप्रणाली प्रभावित होती है
प्रकाशित परिणामों की विश्वसनीयता में कमी आती है
संवेदनशील क्षेत्रों में AI सिस्टम की विश्वसनीयता प्रभावित होती है

मौजूदा विधियों की सीमाएं

हालांकि उद्योग और शैक्षणिक जगत ने कई समाधान प्रस्तावित किए हैं, संख्यात्मक असंगति गहन शिक्षण में एक खुली समस्या बनी हुई है। मौजूदा विधियां मुख्य रूप से यादृच्छिक संख्या जनरेटर के नियंत्रण पर ध्यान केंद्रित करती हैं, लेकिन फ्लोटिंग-पॉइंट गणना समस्याओं के समाधान में अपर्याप्त हैं।

अनुसंधान प्रेरणा

लेखकों ने समस्या के दो मूल कारणों की पहचान की: यादृच्छिक संख्या जनरेटर और फ्लोटिंग-पॉइंट गणना। पहले से ही अच्छे समाधान वाली यादृच्छिक संख्या समस्या की तुलना में, फ्लोटिंग-पॉइंट गणना समस्या अधिक जटिल है और विशेष समाधान की आवश्यकता है।

मुख्य योगदान

समस्या विश्लेषण: गहन शिक्षण में अनिर्धारणीयता और अपुनरुत्पादनीयता के मूल कारणों का व्यवस्थित विश्लेषण, जिसे यादृच्छिक संख्या पीढ़ी और फ्लोटिंग-पॉइंट गणना के दो प्रमुख श्रेणियों में वर्गीकृत किया गया है
डिजाइन सिद्धांत: दो मुख्य डिजाइन सिद्धांत प्रस्तावित किए गए: सही राउंडिंग (correct rounding) और क्रम अपरिवर्तनीयता (order invariance)
RepDL लाइब्रेरी: ओपन-सोर्स लाइब्रेरी RepDL विकसित की गई, जो बिट-स्तरीय पुनरुत्पादनीय गहन शिक्षण प्रशिक्षण और अनुमान को लागू करती है
PyTorch संगतता: PyTorch के साथ संगत API प्रदान करता है, जो गहन शिक्षण संचालन, अवकलनीय कार्य, तंत्रिका नेटवर्क मॉड्यूल और अनुकूलक का समर्थन करता है

विधि विवरण

समस्या मूल कारण विश्लेषण

1. यादृच्छिक संख्या जनरेटर

उपयोग: वजन आरंभीकरण, डेटा शफलिंग, ड्रॉपआउट नियमितीकरण, डेटा वृद्धि आदि
समस्या: विभिन्न बीज, असंगत RNG एल्गोरिदम, बहु-थ्रेड वातावरण में अनिर्धारणीय कॉल अनुक्रम
समाधान: पुनरुत्पादनीय RNG एल्गोरिदम (जैसे MT19937) अपनाना, थ्रेड-सुरक्षित कार्यान्वयन, निश्चित आधार बीज

2. फ्लोटिंग-पॉइंट गणना

अधिक जटिल समस्या, दो उप-श्रेणियों में विभाजित:

2.1 मूल संचालन सटीकता

विभिन्न सिस्टम में मूल गणितीय कार्य कार्यान्वयन सटीकता में भिन्नता
हार्डवेयर निर्देश सटीकता अंतर (जैसे x86 CPU के बीच RCP निर्देश सटीकता परिवर्तन)

2.2 गणना क्रम

फ्लोटिंग-पॉइंट संचालन की गैर-सहयोगिता के कारण क्रम संवेदनशीलता
अनिर्धारणीय कारक: परमाणु संचालन, गतिशील कोड पथ, गतिशील बैच प्रोसेसिंग और कैशिंग
अपुनरुत्पादनीयता कारक: सॉफ्टवेयर परिवर्तनशीलता, संकलक अनुकूलन

RepDL डिजाइन सिद्धांत

सिद्धांत 1: मूल संचालन की सही राउंडिंग

IEEE-754 मानक के सही राउंडिंग सिद्धांत का पालन करना
अनंत परिशुद्धि वास्तविक संख्या परिणामों को राउंड करने के लिए मानक IEEE-754 राउंडिंग नियमों का उपयोग करना
संख्यात्मक सटीकता की अस्पष्टता को समाप्त करना

सिद्धांत 2: अन्य संचालन की क्रम अपरिवर्तनीयता

मूल संचालन के संयोजन के लिए क्रम अपरिवर्तनीयता बनाए रखना
समान प्रकार के मूल संचालन और समान क्रम का उपयोग करके प्रत्येक संचालन को लागू करना
विभिन्न गणना क्रमों के लिए विभिन्न API आवंटित करना

विशिष्ट कार्यान्वयन

1. सही राउंडिंग सुनिश्चित करना

सही राउंडिंग गणित पुस्तकालय या उच्च-सटीकता एल्गोरिदम का उपयोग करना
अंकगणितीय संचालन, वर्गमूल, घातीय कार्य, लघुगणक कार्य आदि के सही राउंडिंग संस्करण को लागू करना
हार्डवेयर-निर्भर कार्यान्वयन अंतर से बचना

2. योग क्रम को ठीक करना

दो योग क्रम प्रदान करना:

क्रमिक योग: डिफ़ॉल्ट संस्करण, कैश-अनुकूल, अधिकांश स्थितियों के लिए उपयुक्त
जोड़ी-वार योग: वैकल्पिक संस्करण, समानता बढ़ाता है

पूर्ण-कनेक्टेड परत और द्वि-आयामी कनवल्शन परत के विश्लेषण के लिए:

पूर्ण-कनेक्टेड परत: t_fc = B × M स्वतंत्र योग कार्य, प्रत्येक कार्य n_fc = N तत्वों को जोड़ता है
कनवल्शन परत: t_conv = B × O × W × H स्वतंत्र योग कार्य, प्रत्येक कार्य n_conv = I × K_w × K_h तत्वों को जोड़ता है

3. गणना ग्राफ परिभाषित करना

गणना क्रम को स्पष्ट रूप से परिभाषित करने के लिए गणना ग्राफ का उपयोग करना
समान कार्य के विभिन्न गणना ग्राफ कार्यान्वयन के लिए विभिन्न API नाम आवंटित करना
गणितीय रूप से समतुल्य लेकिन फ्लोटिंग-पॉइंट परिणाम में भिन्न परिवर्तनों से बचना

4. संकलन विकल्प

असुरक्षित गणितीय अनुकूलन के कारण होने वाले विकल्पों को अक्षम करना
फ्लोटिंग-पॉइंट अभिव्यक्ति संकुचन विकल्प सक्षम करना (FMA संचालन)

प्रयोगात्मक सेटअप

समर्थित विशेषताएं

डेटा प्रकार: एकल-सटीकता फ्लोटिंग-पॉइंट (float32) का समर्थन करता है
संगतता: PyTorch-संगत API प्रदान करता है
संचालन समर्थन: गहन शिक्षण संचालन, अवकलनीय कार्य, तंत्रिका नेटवर्क मॉड्यूल, अनुकूलक

प्रदर्शन विश्लेषण

ResNet-50 के उदाहरण के साथ विश्लेषण:

कनवल्शन परत गणना जटिलता पर हावी है
कई कनवल्शन परतों का t_conv = B × 256 × 56 × 56 = B × 802816
NVIDIA A100 GPU में 6912 CUDA कोर हैं
यहां तक कि B=1 के लिए, कोर संख्या t_conv से बहुत कम है, क्रमिक योग कुशल है

प्रयोगात्मक परिणाम

पुनरुत्पादनीयता सत्यापन

RepDL ने बिट-स्तरीय सुसंगत परिणाम लागू किए, जो सुनिश्चित करते हैं:

एक ही सिस्टम पर कई निष्पादन की सुसंगति
विभिन्न CPU या GPU सिस्टम के बीच सुसंगति
प्रशिक्षण और अनुमान प्रक्रिया की पूर्ण पुनरुत्पादनीयता

प्रदर्शन प्रभाव

अनिर्धारणीय लाइब्रेरी से RepDL में स्विच करने से प्रदर्शन में मामूली कमी आती है
प्रदर्शन गिरावट स्वीकार्य है, भविष्य के अनुकूलन इसे कम कर सकते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RepDL फ्लोटिंग-पॉइंट गणना समस्या को हल करके विश्वसनीय मॉडल विकास और सुसंगत मॉडल तैनाती के लिए आधार प्रदान करता है। यह लाइब्रेरी विभिन्न कम्प्यूटेशनल वातावरणों में निर्धारणीय और पुनरुत्पादनीय गहन शिक्षण को सफलतापूर्वक लागू करती है।

सीमाएं

प्रदर्शन अनुकूलन अपर्याप्त: वर्तमान संस्करण पूरी तरह से अनुकूलित नहीं है, प्रदर्शन हानि मौजूद है
सटीकता समर्थन सीमित: केवल एकल-सटीकता (float32) का समर्थन करता है, निम्न-सटीकता प्रकार समर्थन चुनौतीपूर्ण है
हार्डवेयर विशिष्टता: निम्न-सटीकता गणना की गैर-मानक और हार्डवेयर-विशिष्ट विशेषताएं (जैसे Tensor Cores)

भविष्य की दिशाएं

प्रदर्शन गिरावट को कम करने के लिए आगे का प्रदर्शन अनुकूलन
निम्न-सटीकता फ्लोटिंग-पॉइंट डेटा प्रकार का समर्थन
निम्न-सटीकता गणना के संख्यात्मक व्यवहार का मानकीकरण
सामुदायिक योगदान और कार्यक्षमता का विस्तार

गहन मूल्यांकन

शक्तियां

समस्या पहचान सटीक: गहन शिक्षण पुनरुत्पादनीयता समस्या के मूल कारणों का व्यवस्थित विश्लेषण
समाधान व्यावहारिक: व्यावहारिक इंजीनियरिंग समाधान प्रदान करता है, केवल सैद्धांतिक विश्लेषण नहीं
डिजाइन सिद्धांत स्पष्ट: सही राउंडिंग और क्रम अपरिवर्तनीयता दो सिद्धांत सरल और प्रभावी हैं
संगतता अच्छी: PyTorch के API संगतता उपयोग के लिए बाधा को कम करती है
ओपन-सोर्स योगदान: ओपन-सोर्स कार्यान्वयन प्रदान करता है, सामुदायिक विकास को बढ़ावा देता है

कमियां

प्रयोगात्मक सत्यापन सीमित: बड़े पैमाने पर प्रयोगात्मक सत्यापन और प्रदर्शन बेंचमार्क की कमी
सैद्धांतिक विश्लेषण अपर्याप्त: प्रदर्शन हानि के सैद्धांतिक विश्लेषण में गहराई की कमी
लागू क्षेत्र सीमित: केवल float32 का समर्थन करता है, आधुनिक गहन शिक्षण अनुप्रयोगों को सीमित करता है
तुलनात्मक प्रयोग अनुपस्थित: अन्य पुनरुत्पादनीयता समाधानों के साथ तुलना की कमी

प्रभाव

शैक्षणिक मूल्य: गहन शिक्षण पुनरुत्पादनीयता अनुसंधान के लिए महत्वपूर्ण संदर्भ प्रदान करता है
व्यावहारिक मूल्य: सख्त पुनरुत्पादनीयता की आवश्यकता वाले अनुप्रयोग परिदृश्यों के लिए समाधान प्रदान करता है
उद्योग प्रभाव: गहन शिक्षण ढांचे को पुनरुत्पादनीयता पर ध्यान देने के लिए प्रेरित कर सकता है

लागू परिदृश्य

वैज्ञानिक अनुसंधान: सख्त पुनरुत्पादनीय परिणामों की आवश्यकता वाली अनुसंधान परियोजनाएं
वित्तीय AI: संख्यात्मक सुसंगति के लिए अत्यधिक आवश्यकताओं वाले वित्तीय अनुप्रयोग
चिकित्सा AI: निर्धारणीय परिणामों की आवश्यकता वाली चिकित्सा निदान प्रणालियां
मॉडल सत्यापन: क्रॉस-प्लेटफॉर्म मॉडल तैनाती की सुसंगति सत्यापन

संदर्भ

पेपर 15 संबंधित संदर्भों का हवाला देता है, जिसमें शामिल हैं:

पुनरुत्पादनीय फ्लोटिंग-पॉइंट योग एल्गोरिदम
गहन शिक्षण पुनरुत्पादनीयता अनुसंधान
सही राउंडिंग गणित पुस्तकालय
IEEE फ्लोटिंग-पॉइंट मानक
गहन शिक्षण में यादृच्छिकता और अनिश्चितता विश्लेषण

समग्र मूल्यांकन: यह गहन शिक्षण पुनरुत्पादनीयता समस्या पर एक व्यावहारिक अनुसंधान पेपर है। हालांकि प्रयोगात्मक सत्यापन और सैद्धांतिक विश्लेषण में कुछ कमियां हैं, लेकिन इसके द्वारा प्रस्तावित समाधान का महत्वपूर्ण व्यावहारिक मूल्य है, विशेष रूप से सख्त संख्यात्मक सुसंगति की आवश्यकता वाले अनुप्रयोग परिदृश्यों के लिए। RepDL लाइब्रेरी का ओपन-सोर्स रिलीज समुदाय को एक मूल्यवान उपकरण प्रदान करता है, जो गहन शिक्षण पुनरुत्पादनीयता अनुसंधान के विकास को बढ़ावा देने की संभावना रखता है।