2025-11-22T18:28:15.174123

Federated Dropout: Convergence Analysis and Resource Allocation

Xie, Wen, Liu et al.
Federated Dropout is an efficient technique to overcome both communication and computation bottlenecks for deploying federated learning at the network edge. In each training round, an edge device only needs to update and transmit a sub-model, which is generated by the typical method of dropout in deep learning, and thus effectively reduces the per-round latency. \textcolor{blue}{However, the theoretical convergence analysis for Federated Dropout is still lacking in the literature, particularly regarding the quantitative influence of dropout rate on convergence}. To address this issue, by using the Taylor expansion method, we mathematically show that the gradient variance increases with a scaling factor of $γ/(1-γ)$, with $γ\in [0, θ)$ denoting the dropout rate and $θ$ being the maximum dropout rate ensuring the loss function reduction. Based on the above approximation, we provide the convergence analysis for Federated Dropout. Specifically, it is shown that a larger dropout rate of each device leads to a slower convergence rate. This provides a theoretical foundation for reducing the convergence latency by making a tradeoff between the per-round latency and the overall rounds till convergence. Moreover, a low-complexity algorithm is proposed to jointly optimize the dropout rate and the bandwidth allocation for minimizing the loss function in all rounds under a given per-round latency and limited network resources. Finally, numerical results are provided to verify the effectiveness of the proposed algorithm.
academic

संघीय Dropout: अभिसरण विश्लेषण और संसाधन आवंटन

मूल जानकारी

  • पेपर ID: 2501.00379
  • शीर्षक: Federated Dropout: Convergence Analysis and Resource Allocation
  • लेखक: Sijing Xie, Dingzhu Wen, Xiaonan Liu, Changsheng You, Tharmalingam Ratnarajah, Kaibin Huang
  • वर्गीकरण: cs.LG cs.IT math.IT
  • प्रकाशन तिथि: 31 दिसंबर 2024
  • पेपर लिंक: https://arxiv.org/abs/2501.00379

सारांश

संघीय Dropout एक प्रभावी तकनीक है जो नेटवर्क किनारे पर संघीय शिक्षा को तैनात करते समय संचार और कम्प्यूटेशनल बाधाओं को दूर करती है। प्रशिक्षण के प्रत्येक दौर में, किनारे के उपकरणों को केवल एक उप-मॉडल को अपडेट और प्रसारित करने की आवश्यकता होती है, जो गहन शिक्षा में विशिष्ट dropout विधि द्वारा उत्पन्न होता है, जिससे प्रत्येक दौर की विलंबता प्रभावी रूप से कम हो जाती है। हालांकि, साहित्य में अभी भी संघीय Dropout का सैद्धांतिक अभिसरण विश्लेषण अनुपस्थित है, विशेष रूप से dropout दर के अभिसरण पर मात्रात्मक प्रभाव के संबंध में। इस समस्या को हल करने के लिए, यह पेपर टेलर विस्तार विधि का उपयोग करके गणितीय रूप से सिद्ध करता है कि ग्रेडिएंट विचरण γ/(1-γ) के अनुपात कारक के साथ बढ़ता है, जहां γ∈[0,θ) dropout दर को दर्शाता है और θ नुकसान फ़ंक्शन में कमी सुनिश्चित करने वाली अधिकतम dropout दर है। इस सन्निकटन के आधार पर, यह पेपर संघीय Dropout का अभिसरण विश्लेषण प्रदान करता है, जो दर्शाता है कि प्रत्येक उपकरण की dropout दर जितनी अधिक होती है, अभिसरण गति उतनी ही धीमी होती है। यह प्रत्येक दौर की विलंबता और अभिसरण के कुल दौरों के बीच व्यापार करके अभिसरण विलंबता को कम करने के लिए सैद्धांतिक आधार प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

  1. किनारे AI की बढ़ती मांग: मोबाइल डेटा विस्फोट नेटवर्क किनारे पर AI तैनाती को चलाता है, संघीय किनारे शिक्षा (FEEL) किनारे AI को लागू करने के लिए एक आशाजनक तकनीक बन गई है
  2. कम्प्यूटेशनल संसाधन सीमाएं: किनारे के उपकरणों को गंभीर कम्प्यूटेशनल संसाधन सीमाओं का सामना करना पड़ता है, जबकि आधुनिक गहन तंत्रिका नेटवर्क (DNNs) और बड़े भाषा मॉडल (LLMs) को बड़ी कम्प्यूटेशनल क्षमता की आवश्यकता होती है
  3. मौजूदा विधियों की सीमाएं:
    • संचार-कुशल विधियां (ग्रेडिएंट संपीड़न, उपकरण शेड्यूलिंग आदि) मुख्य रूप से संचार बाधा को संबोधित करती हैं
    • मॉडल प्रूनिंग विधियां प्रशिक्षण के प्रारंभिक चरण में भी बड़ी संचार ओवरहेड रखती हैं, और आमतौर पर मॉडल प्रतिनिधित्व क्षमता को कम करती हैं
    • कम्प्यूटेशनल ओवरहेड में आवश्यक कमी की कमी

अनुसंधान प्रेरणा

  1. सैद्धांतिक अंतराल: FedDrop ढांचा व्यावहारिक है, लेकिन कठोर सैद्धांतिक अभिसरण विश्लेषण की कमी है
  2. अनुकूलन आवश्यकता: dropout दर और संसाधन आवंटन के संयुक्त डिजाइन को अनुकूलित करने के लिए सैद्धांतिक मार्गदर्शन की आवश्यकता है
  3. व्यावहारिक अनुप्रयोग: संसाधन-सीमित वातावरण में संघीय शिक्षा के लिए सैद्धांतिक आधार और व्यावहारिक एल्गोरिदम प्रदान करना

मुख्य योगदान

  1. अभिसरण सिद्धांत विश्लेषण:
    • टेलर विस्तार का उपयोग करके सिद्ध करता है कि उप-नेटवर्क ग्रेडिएंट वेक्टर मूल DNN ग्रेडिएंट वेक्टर का विचरण-बाध्य अनुमान है
    • गणितीय रूप से सिद्ध करता है कि ग्रेडिएंट विचरण γ/(1-γ) के साथ आनुपातिक है
    • dropout दर और अभिसरण गति के बीच मात्रात्मक संबंध स्थापित करता है
  2. प्रत्येक दौर में नुकसान फ़ंक्शन न्यूनीकरण:
    • सैद्धांतिक विश्लेषण के आधार पर, किसी भी दौर में शिक्षा नुकसान में कमी को चिह्नित करता है
    • सिस्टम बैंडविड्थ, कार्य पूर्ण विलंबता और उपकरण ऊर्जा बजट बाधाओं के तहत शिक्षा नुकसान में कमी को अधिकतम करता है
  3. संयुक्त अनुकूलन एल्गोरिदम:
    • अनुकूली dropout दर और बैंडविड्थ आवंटन के संयुक्त डिजाइन का प्रस्ताव करता है
    • KKT शर्तों के माध्यम से बंद-रूप समाधान प्राप्त करता है
    • एल्गोरिदम जटिलता केवल O(K²) है
  4. प्रदर्शन मूल्यांकन:
    • अंडरफिटिंग और ओवरफिटिंग दोनों परिदृश्यों में संख्यात्मक प्रयोग संचालित करता है
    • सैद्धांतिक विश्लेषण की सटीकता को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

इनपुट: K किनारे के उपकरण, प्रत्येक उपकरण k स्थानीय डेटासेट Dk रखता है उद्देश्य: वैश्विक नुकसान फ़ंक्शन को न्यूनतम करना: F(w)=k=1KDkDfk(w^k;Dk)F(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} f_k(\hat{w}_k; D_k) जहां w^k\hat{w}_k उपकरण k के अनुरूप dropout-उत्पन्न उप-नेटवर्क है, fkf_k उपकरण k का स्थानीय नुकसान फ़ंक्शन है।

मॉडल आर्किटेक्चर

1. संघीय Dropout ढांचा

FedDrop ढांचे में पाँच चरण शामिल हैं:

  1. जनरेशन चरण: सर्वर प्रत्येक उपकरण के लिए उप-नेटवर्क उत्पन्न करता है
  2. पुश चरण: उपकरण संबंधित उप-नेटवर्क डाउनलोड करते हैं
  3. कम्प्यूटेशन चरण: उपकरण स्थानीय डेटा के आधार पर उप-नेटवर्क को अपडेट करते हैं
  4. पुल चरण: उपकरण अपडेट किए गए उप-नेटवर्क को अपलोड करते हैं
  5. एकत्रीकरण चरण: सर्वर सभी उप-नेटवर्क अपडेट को एकत्रित करके वैश्विक मॉडल को अपडेट करता है

2. Dropout तंत्र

dropout दर γk वाले उपकरण k के लिए, उप-नेटवर्क को इस प्रकार परिभाषित किया जाता है: w^k=wmk\hat{w}_k = w \circ m_k जहां dropout मास्क mk का j-वां तत्व है:

\frac{1}{1-\gamma_k}, & \text{संभावना के साथ} (1-\gamma_k) \\ 0, & \text{संभावना के साथ} \gamma_k \end{cases}$$ #### 3. विलंबता और ऊर्जा खपत मॉडल प्रत्येक दौर की कुल विलंबता: $$T_{k,t} = T^{com,dl}_{k,t} + T^{cmp}_{k,t} + T^{com,ul}_{k,t}$$ कुल ऊर्जा खपत: $$E_{k,t} = E^{com,ul}_{k,t} + E^{cmp}_{k,t} + \xi_k$$ ### तकनीकी नवाचार बिंदु #### 1. ग्रेडिएंट विचरण सीमा प्रमेय **लेम्मा 1**: धारणा शर्तों के तहत, उप-नेटवर्क ग्रेडिएंट वेक्टर विचरण-बाध्य अनुमान है: $$E_{m_k^{(t)}}[\hat{g}_k(\hat{w}_k^{(t)})] = \tilde{g}_k(w^{(t)})$$ $$D_{m_k^{(t)}}[\hat{g}_k(\hat{w}_k^{(t)})] \leq (AG)^2 \cdot \frac{\gamma_{k,t}}{1-\gamma_{k,t}}$$ #### 2. अभिसरण विश्लेषण **प्रमेय 1**: शिक्षण दर η = 1/(3√TL) दिया गया है, ground-truth ग्रेडिएंट वेक्टर अभिसरित होता है: $$\lim_{T→+∞} \frac{1}{T} \sum_{t=0}^{T-1} \|g(w^{(t)})\|^2 ≤ G_T = 0$$ मुख्य खोज: अभिसरण गति dropout दर में वृद्धि के साथ धीमी हो जाती है। #### 3. संयुक्त अनुकूलन समस्या $$\min_{\{\gamma_{k,t}, \rho_{k,t}\}} \sum_{k=1}^K \frac{|D_k|}{|D|} \frac{1}{1-\gamma_{k,t}}$$ बाधाओं के अधीन: - C1: प्रत्येक दौर की विलंबता बाधा - C2: ऊर्जा खपत बाधा - C3: बैंडविड्थ आवंटन बाधा - C4: Dropout दर बाधा ## प्रयोगात्मक सेटअप ### डेटासेट - **CIFAR-100**: LeNet और AlexNet को प्रशिक्षित करने के लिए - **डेटा वितरण**: - IID वितरण - Non-IID वितरण (Dirichlet(0.1) वितरण का उपयोग करके) ### मॉडल कॉन्फ़िगरेशन 1. **LeNet** (अंडरफिटिंग परिदृश्य): - 2 कनवोल्यूशनल लेयर + 2 पूर्ण कनेक्टेड लेयर - कनवोल्यूशनल कर्नल आकार: 5×5 - सक्रियण फ़ंक्शन: Tanh 2. **AlexNet** (ओवरफिटिंग परिदृश्य): - 5 कनवोल्यूशनल लेयर + 2 पूर्ण कनेक्टेड लेयर - कनवोल्यूशनल कर्नल आकार: 3×3 - सक्रियण फ़ंक्शन: ReLU ### मूल्यांकन मेट्रिक्स - अभिसरण दौर - परीक्षण सटीकता - कम्प्यूटेशनल और संचार ओवरहेड ### तुलना विधियां 1. **प्रस्तावित योजना**: Algorithm 1 की इष्टतम योजना 2. **बैंडविड्थ-जागरूक योजना**: बैंडविड्थ का यादृच्छिक आवंटन, dropout दर को अनुकूलित करना 3. **बिना Dropout योजना**: आदर्श आधार, dropout पर विचार नहीं करना ## प्रयोगात्मक परिणाम ### मुख्य परिणाम #### 1. Dropout दर का प्रदर्शन पर प्रभाव - **अंडरफिटिंग परिदृश्य**: परीक्षण सटीकता dropout दर में वृद्धि के साथ घटती है - **ओवरफिटिंग परिदृश्य**: मध्यम dropout दर (0.15) सर्वोत्तम प्रदर्शन प्राप्त करती है, बहुत अधिक dropout दर प्रदर्शन में गिरावट करती है #### 2. नेटवर्क संसाधनों का शिक्षा प्रदर्शन पर प्रभाव **प्रत्येक दौर की विलंबता का प्रभाव**: - प्रस्तावित योजना हमेशा बैंडविड्थ-जागरूक योजना से बेहतर होती है - प्रत्येक दौर की विलंबता में वृद्धि के साथ, अभिसरण दौर कम हो जाते हैं - विलंबता बढ़ने पर, बिना dropout योजना के साथ प्रदर्शन अंतर कम हो जाता है **सिस्टम बैंडविड्थ का प्रभाव**: - सिस्टम बैंडविड्थ में वृद्धि, अभिसरण दौर कम हो जाते हैं - प्रस्तावित योजना विभिन्न बैंडविड्थ स्थितियों में आधार रेखा विधियों से बेहतर है #### 3. मात्रात्मक परिणाम तालिका II के अनुसार, समान विरलता के तहत: - LeNet पर FedDrop Non-IID डेटा पर सटीकता 25.19% (γ=0) से 19.09% (γ=0.4) तक गिरती है - AlexNet पर FedDrop Non-IID डेटा पर सटीकता पहले बढ़ती है फिर गिरती है, γ=0.15 पर 32.77% पर शिखर तक पहुंचती है ### विलोपन प्रयोग विभिन्न dropout दरों की एकीकृत सेटिंग की तुलना करके, सत्यापित किया: 1. छोटी dropout दर तेजी से अभिसरण की ओर ले जाती है 2. सैद्धांतिक विश्लेषण की सटीकता 3. ओवरफिटिंग परिदृश्य में dropout का नियमितकरण प्रभाव ### प्रयोगात्मक निष्कर्ष 1. **सैद्धांतिक सत्यापन**: प्रयोगात्मक परिणाम सैद्धांतिक विश्लेषण के अनुरूप हैं, dropout दर और अभिसरण गति के बीच नकारात्मक संबंध को सिद्ध करते हैं 2. **संसाधन व्यापार**: अधिक नेटवर्क संसाधन कम dropout दर की अनुमति देते हैं, प्रदर्शन में सुधार करते हैं 3. **परिदृश्य अनुकूलन**: ओवरफिटिंग परिदृश्य में प्रस्तावित योजना बिना dropout योजना से बेहतर है ## संबंधित कार्य ### संचार-कुशल संघीय शिक्षा - आंशिक ग्रेडिएंट औसत, ग्रेडिएंट संपीड़न, संसाधन प्रबंधन, उपकरण शेड्यूलिंग, वायु कम्प्यूटिंग, ज्ञान आसवन आदि ### कम्प्यूटेशनल-कुशल विधियां - मॉडल प्रूनिंग संघीय शिक्षा (PruneFL) - अनुकूली मॉडल प्रूनिंग - उप-नेटवर्क प्रशिक्षण ढांचा: स्थिर, रोलिंग, महत्व-निर्देशित योजनाएं ### इस पेपर के लाभ 1. **कम डिजाइन जटिलता**: केवल dropout ऑपरेशन की आवश्यकता है 2. **बहु-कार्यात्मक अनुकूलन**: dropout दर उपकरण क्षमता और नेटवर्क स्थितियों के अनुकूल हो सकती है 3. **उच्च मॉडल विविधता**: यादृच्छिकता द्वारा लाई गई विविधता प्रशिक्षण को समृद्ध करती है 4. **मजबूत मॉडल दृढ़ता**: मॉडल दृढ़ता को बढ़ाता है, न्यूरॉन्स के बीच सरल निर्भरता को समाप्त करता है ## निष्कर्ष और चर्चा ### मुख्य निष्कर्ष 1. पहली बार FedDrop का कठोर सैद्धांतिक अभिसरण विश्लेषण प्रदान करता है 2. dropout दर और अभिसरण गति के बीच मात्रात्मक संबंध स्थापित करता है 3. कम जटिलता वाला संयुक्त अनुकूलन एल्गोरिदम प्रस्तावित करता है 4. प्रयोग सैद्धांतिक विश्लेषण और एल्गोरिदम प्रभावशीलता को सत्यापित करते हैं ### सीमाएं 1. **धारणा शर्तें**: छोटी dropout दर धारणा के आधार पर विश्लेषण 2. **मॉडल श्रेणी**: मुख्य रूप से DNNs पर विचार करता है, LLMs भविष्य के अनुसंधान के लिए छोड़े गए हैं 3. **चैनल मॉडल**: आवृत्ति गैर-चयनात्मक चैनल मानता है 4. **अनुकूलन उद्देश्य**: सटीक मान के बजाय नुकसान फ़ंक्शन ऊपरी सीमा का उपयोग करता है ### भविष्य की दिशाएं 1. बड़े भाषा मॉडल (LLMs) तक विस्तार 2. संपीड़न और वायु कम्प्यूटिंग तकनीकों के साथ संयोजन 3. अधिक जटिल चैनल मॉडलों पर विचार 4. गतिशील नेटवर्क वातावरण में अनुकूली रणनीतियां ## गहन मूल्यांकन ### शक्तियां 1. **महत्वपूर्ण सैद्धांतिक योगदान**: पहली बार FedDrop के लिए कठोर अभिसरण विश्लेषण प्रदान करता है, महत्वपूर्ण सैद्धांतिक अंतराल को भरता है 2. **कठोर गणितीय व्युत्पत्ति**: टेलर विस्तार और KKT शर्तों का उपयोग करके, गणितीय प्रमाण पूर्ण और विश्वसनीय है 3. **उच्च व्यावहारिक मूल्य**: O(K²) जटिलता का एल्गोरिदम वास्तविक तैनाती के लिए उपयुक्त है 4. **व्यापक प्रयोग**: अंडरफिटिंग और ओवरफिटिंग दोनों परिदृश्यों को कवर करता है, सत्यापन पर्याप्त है 5. **स्पष्ट लेखन**: संरचना स्पष्ट है, तकनीकी विवरण सटीक रूप से व्यक्त किए गए हैं ### कमियां 1. **धारणा सीमाएं**: छोटी dropout दर धारणा वास्तविक अनुप्रयोग श्रेणी को सीमित कर सकती है 2. **मॉडल सीमाएं**: केवल अपेक्षाकृत सरल नेटवर्क पर सत्यापित, बड़े पैमाने पर मॉडल प्रयोगों की कमी है 3. **पर्यावरण सरलीकरण**: एकल-सेल नेटवर्क मॉडल, वास्तविक तैनाती वातावरण अधिक जटिल है 4. **सीमित तुलना**: अन्य उप-नेटवर्क प्रशिक्षण विधियों के साथ तुलना पर्याप्त नहीं है ### प्रभाव 1. **शैक्षणिक मूल्य**: संघीय शिक्षा में dropout तकनीक के लिए सैद्धांतिक आधार प्रदान करता है 2. **व्यावहारिक महत्व**: किनारे कम्प्यूटिंग वातावरण में संघीय शिक्षा के लिए व्यावहारिक समाधान प्रदान करता है 3. **पुनरुत्पादनीयता**: एल्गोरिदम विवरण विस्तृत है, पैरामीटर सेटिंग स्पष्ट है, पुनरुत्पादन के लिए सुविधाजनक है ### लागू परिदृश्य 1. **संसाधन-सीमित किनारे उपकरण**: कम्प्यूटेशनल और संचार क्षमता वाले IoT उपकरण 2. **बैंडविड्थ-सीमित नेटवर्क**: संचार ओवरहेड को कम करने की आवश्यकता वाले वायरलेस नेटवर्क वातावरण 3. **वास्तविक समय अनुप्रयोग**: विलंबता-संवेदनशील किनारे AI अनुप्रयोग 4. **बड़े पैमाने पर तैनाती**: बड़ी संख्या में उपकरणों की भागीदारी का समर्थन करने वाली संघीय शिक्षा प्रणाली ## संदर्भ पेपर संघीय शिक्षा, किनारे कम्प्यूटिंग, संसाधन आवंटन, मॉडल संपीड़न और अन्य कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 50 संबंधित संदर्भों का हवाला देता है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है। --- **समग्र मूल्यांकन**: यह संघीय शिक्षा सैद्धांतिक विश्लेषण में महत्वपूर्ण योगदान वाला एक पेपर है। लेखकों ने पहली बार FedDrop के लिए कठोर अभिसरण विश्लेषण प्रदान किया है, dropout दर और अभिसरण प्रदर्शन के बीच मात्रात्मक संबंध स्थापित किया है, और एक व्यावहारिक संयुक्त अनुकूलन एल्गोरिदम प्रस्तावित किया है। सैद्धांतिक व्युत्पत्ति कठोर है, प्रयोगात्मक सत्यापन पर्याप्त है, और किनारे कम्प्यूटिंग वातावरण में संघीय शिक्षा के अनुप्रयोग को आगे बढ़ाने में महत्वपूर्ण महत्व है।