2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.

5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.

academic

विलंबता को लाभ के साथप्राथमिकता देना: 5G नेटवर्क स्लाइस के लिए DRL-आधारित प्रवेश नियंत्रण

बुनियादी जानकारी

पेपर ID: 2510.08769
शीर्षक: Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices
लेखक: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
वर्गीकरण: cs.NI (नेटवर्क और इंटरनेट आर्किटेक्चर), cs.LG (मशीन लर्निंग), cs.PF (प्रदर्शन)
प्रकाशन समय: 9 अक्टूबर 2025 को arXiv पर प्रस्तुत
पेपर लिंक: https://arxiv.org/abs/2510.08769v1

सारांश

यह पेपर 5G नेटवर्क स्लाइस के प्रवेश नियंत्रण समस्या के लिए DePSAC (विलंबता और लाभ-जागरूक स्लाइस प्रवेश नियंत्रण) प्रस्ताव प्रस्तुत करता है। यह योजना गहन सुदृढ़ीकरण सीखने की रूपरेखा के माध्यम से, नेटवर्क सेवा प्रदाता के लाभ को अधिकतम करते हुए, सेवा विलंबता को स्पष्ट रूप से विचार करती है, विशेष रूप से विलंबता-संवेदनशील URLLC स्लाइस की प्राथमिकता प्रबंधन। यह योजना विलंबता-जागरूक पुरस्कार फ़ंक्शन और बोल्ट्जमैन अन्वेषण रणनीति का उपयोग करती है, अनुकृत 5G कोर नेटवर्क पर सत्यापित की गई है जो लाभ, विलंबता, स्वीकृति दर और संसाधन खपत के संदर्भ में आधारभूत DSARA विधि की तुलना में सुधार दिखाती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

5G नेटवर्क नेटवर्क स्लाइसिंग तकनीक के माध्यम से विविध सेवाओं का समर्थन करते हैं, जिनमें संवर्धित मोबाइल ब्रॉडबैंड (eMBB), अति-विश्वसनीय कम विलंबता संचार (URLLC) और बड़े पैमाने पर मशीन-प्रकार संचार (mMTC) शामिल हैं। ये सेवाएं विषम QoS आवश्यकताओं के साथ हैं, जिन्हें कठोर QoS आवश्यकताओं और नेटवर्क सेवा प्रदाता (NSP) की लाभप्रदता को संतुलित करने के लिए बुद्धिमान प्रवेश नियंत्रण और संसाधन आवंटन रणनीति की आवश्यकता है।

समस्या की महत्ता

सेवा विविधता चुनौती: विभिन्न स्लाइस प्रकारों को विलंबता, विश्वसनीयता और बैंडविड्थ के लिए विभिन्न आवश्यकताएं हैं
संसाधन अनुकूलन आवश्यकता: सीमित भौतिक संसाधनों को कई आभासी नेटवर्क में कुशलतापूर्वक आवंटित करने की आवश्यकता है
व्यावसायिक व्यवहार्यता: NSP को QoS को संतुष्ट करते हुए लाभप्रदता सुनिश्चित करने की आवश्यकता है

मौजूदा विधियों की सीमाएं

विलंबता कारक को अनदेखा करना: मौजूदा DRL ढांचे मुख्य रूप से लाभ अनुकूलन पर ध्यान केंद्रित करते हैं, सेवा विलंबता को स्पष्ट रूप से विचार नहीं करते
अस्थिर अन्वेषण रणनीति: epsilon-greedy अन्वेषण रणनीति अभिसरण अस्थिरता और उप-इष्टतम नीति सीखने का कारण बनती है
QoS उल्लंघन जोखिम: विलंबता-संवेदनशील सेवाओं (जैसे URLLC) के लिए QoS उल्लंघन हो सकता है

अनुसंधान प्रेरणा

आधारभूत DSARA विधि हालांकि लाभ को प्रभावी ढंग से अधिकतम कर सकती है, लेकिन विभिन्न स्लाइस प्रकारों की विलंबता भिन्नता पर विचार नहीं करती है, जिससे QoS उल्लंघन हो सकता है। यह पेपर विलंबता और लाभ दोनों पर विचार करने वाली स्लाइस प्रवेश नियंत्रण योजना विकसित करने का लक्ष्य रखता है।

मुख्य योगदान

विलंबता-जागरूक पुरस्कार फ़ंक्शन: QoS आवश्यकताओं और NSP लाभप्रदता को संतुलित करने वाले लाभ-विलंबता-जागरूक पुरस्कार सूत्र का प्रस्ताव
बोल्ट्जमैन अन्वेषण रणनीति: DRL एजेंट में बोल्ट्जमैन अन्वेषण को एकीकृत करना, सीखने की स्थिरता में सुधार, epsilon-greedy विधि की स्थानीय इष्टतम समस्या से बचना
व्यापक प्रायोगिक मूल्यांकन: अनुकृत 5G कोर नेटवर्क पर DePSAC को लागू करना, यथार्थवादी नेटवर्क स्लाइस अनुरोध आगमन पैटर्न के साथ मूल्यांकन
प्रदर्शन सुधार सत्यापन: प्रायोगिक परिणाम विलंबता-QoS व्यापार-बंद में DePSAC के सुधार को सत्यापित करते हैं, कम सेवा विलंबता, उच्च स्वीकृति दर और कम बैंडविड्थ उपयोग प्राप्त करते हैं

विधि विवरण

कार्य परिभाषा

इनपुट: नेटवर्क स्लाइस अनुरोध (NSLR) प्रवाह, स्लाइस प्रकार, संसाधन आवश्यकताएं, रनटाइम सहित आउटपुट: प्रवेश निर्णय और संसाधन आवंटन रणनीति उद्देश्य: NSP लाभ को अधिकतम करना और सेवा विलंबता को कम करना, विशेष रूप से URLLC स्लाइस की विलंबता

मॉडल आर्किटेक्चर

प्रणाली आर्किटेक्चर

DeepSARA ढांचे की प्रणाली आर्किटेक्चर को अपनाता है, जिसमें चार मुख्य मॉड्यूल हैं:

प्रवेश नियंत्रण मॉड्यूल (ACM): स्लाइस प्रकारों के लिए प्राथमिकता भार आवंटित करने के लिए DRL एजेंट का उपयोग
संसाधन आवंटन मॉड्यूल (RAM): उपलब्धता और QoS बाधाओं के आधार पर VNF को नोड्स में मैप करना
निगरानी मॉड्यूल: संसाधन स्थिति डेटा को लगातार एकत्र करना
जीवनचक्र मॉड्यूल: स्वीकृत स्लाइस को तुरंत करना और समाप्ति पर संसाधन जारी करना

5G कोर नेटवर्क सबस्ट्रेट

NFV बुनियादी ढांचे (NFVI) के रूप में मॉडल किया गया है, जिसमें कोर नोड्स (उच्च क्षमता) और एज नोड्स (कम विलंबता) शामिल हैं
भारित अनिर्देशित ग्राफ SN = {N,L} के रूप में प्रतिनिधित्व किया गया है, नोड्स N में CPU क्षमता है, लिंक L में बैंडविड्थ है

विलंबता-जागरूक पुरस्कार फ़ंक्शन

DePSAC का मुख्य नवाचार विलंबता-जागरूक पुरस्कार फ़ंक्शन है:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

जहां:

priorityi: स्लाइस प्रकार के आधार पर निर्धारित प्राथमिकता (URLLC > eMBB > mMTC)
delayi: NSL अनुरोध i के आगमन से सेवा तक का समय अंतराल
To: स्लाइस रनटाइम
revenuei और costi: राजस्व और परिचालन लागत

बोल्ट्जमैन अन्वेषण रणनीति

Epsilon-greedy के बजाय, बोल्ट्जमैन अन्वेषण को अपनाता है:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

जहां τ तापमान पैरामीटर है, जो अन्वेषण विविधता को समायोजित करता है। उच्च τ अन्वेषण को प्रोत्साहित करता है, कम τ शोषण को बढ़ावा देता है।

तकनीकी नवाचार बिंदु

विलंबता दंड तंत्र: पुरस्कार फ़ंक्शन में विलंबता दंड अवधि को शामिल करके, एजेंट को विलंबता-संवेदनशील स्लाइस को प्राथमिकता देने के लिए प्रोत्साहित करता है
सुचारु अन्वेषण रणनीति: बोल्ट्जमैन अन्वेषण Q-मान के संभाव्यता वितरण के आधार पर कार्य चुनता है, शुद्ध यादृच्छिक या लालची व्यवहार से बचता है
बहु-उद्देश्य अनुकूलन: लाभ अधिकतमकरण और विलंबता न्यूनीकरण दोनों पर विचार करता है, बेहतर QoS-लाभ व्यापार-बंद प्राप्त करता है

प्रायोगिक सेटअप

डेटासेट

सबस्ट्रेट नेटवर्क: 64-नोड Barabási-Albert टोपोलॉजी, वास्तविक 5G बुनियादी ढांचे की स्केल-मुक्त विशेषताओं को कैप्चर करता है
स्लाइस अनुरोध: गतिशील रूप से उत्पन्न NSLR, तीन सेवा प्रकार (eMBB, URLLC, mMTC) सहित
आगमन पैटर्न: यथार्थवादी नेटवर्क स्लाइस अनुरोध आगमन पैटर्न

मूल्यांकन मेट्रिक्स

लाभ (Profit): NSP द्वारा नेटवर्क स्लाइस अनुरोधों की सेवा से प्राप्त कुल राजस्व घटा परिचालन लागत
स्वीकृति दर (AR): सफलतापूर्वक प्रवेश किए गए NSLR का अनुपात, AR = req_a / req_t
विलंबता (Delay): अनुरोध आगमन के बाद सेवा समय, Delay = T_finished - T_arrival
संसाधन खपत (C): स्वीकृत स्लाइस को आवंटित प्रसंस्करण और बैंडविड्थ संसाधनों का अनुपात

तुलना विधियां

आधारभूत: DSARA विधि, DRL-आधारित संयुक्त प्रवेश नियंत्रण और संसाधन आवंटन ढांचा

कार्यान्वयन विवरण

विकास वातावरण: Python 3, मॉड्यूलर ऑब्जेक्ट-ओरिएंटेड डिजाइन
हार्डवेयर प्लेटफॉर्म: AMD Ryzen 5 प्रोसेसर, 16GB RAM, Windows 11
ग्राफ प्रसंस्करण: सबस्ट्रेट नेटवर्क और NSLR के ग्राफ प्रतिनिधित्व को प्रबंधित करने के लिए NetworkX लाइब्रेरी
सिम्युलेटर: विलंबता-जागरूक DRL एजेंट के साथ एकीकृत असतत घटना सिम्युलेटर

प्रायोगिक परिणाम

मुख्य परिणाम

लाभ प्रदर्शन

कुल लाभ: DePSAC प्रशिक्षण की शुरुआत में अन्वेषण के कारण DSARA से थोड़ा कम है, लेकिन प्रशिक्षण की प्रगति के साथ, लगातार आधारभूत से बेहतर है
वर्गीकृत लाभ: सभी सेवा प्रकारों (eMBB, URLLC, mMTC) के लाभ में सुधार, URLLC को सबसे महत्वपूर्ण सुधार मिलता है

विलंबता प्रदर्शन

कुल विलंबता: DePSAC DSARA की तुलना में कम औसत विलंबता प्राप्त करता है
URLLC विलंबता: DSARA की तुलना में विलंबता में बड़ी कमी, समय-महत्वपूर्ण स्लाइस की प्रभावी प्राथमिकता प्रबंधन को सत्यापित करता है
अन्य सेवा प्रकार: mMTC विलंबता में उचित लेकिन निरंतर कमी, eMBB विलंबता अन्वेषण अवधि के बाद आधारभूत से कम मान में परिवर्तित होता है

स्वीकृति दर प्रदर्शन

कुल स्वीकृति दर: DePSAC अंततः DSARA को पार करता है, अनुरोधों को तेजी से सेवा देकर संसाधन जारी करता है, अधिक अनुरोधों को स्वीकार करने की अनुमति देता है
URLLC स्वीकृति दर: महत्वपूर्ण सुधार, एजेंट द्वारा सीखी गई विलंबता-संवेदनशील अनुरोध प्राथमिकता को प्रतिबिंबित करता है
eMBB स्वीकृति दर: उचित वृद्धि
mMTC स्वीकृति दर: हल्की कमी लेकिन स्वीकार्य सीमा के भीतर

संसाधन खपत प्रदर्शन

कुल खपत: DePSAC बाद की प्रशिक्षण में हल्की संसाधन खपत में कमी दिखाता है
बैंडविड्थ दक्षता: कम संसाधन आवश्यकताओं वाले URLLC स्लाइस को प्राथमिकता देने के कारण, कुल बैंडविड्थ उपयोग में कमी
CPU उपयोग दर: सुसंगत या हल्के सुधार को बनाए रखता है

विलोपन प्रयोग

पेपर DSARA के साथ तुलना के माध्यम से विलंबता-जागरूक पुरस्कार फ़ंक्शन और बोल्ट्जमैन अन्वेषण की प्रभावशीलता को सत्यापित करता है, लेकिन घटक-स्तरीय विलोपन विश्लेषण विस्तृत नहीं प्रदान करता है।

प्रायोगिक निष्कर्ष

विलंबता-लाभ संतुलन: विलंबता दंड NSP राजस्व अधिकतमकरण को नुकसान नहीं पहुंचाता है, एजेंट प्रभावी ढंग से संतुलन सीखता है और यहां तक कि सुधार भी करता है
सेवा विभेदीकरण: विलंबता-संवेदनशील सेवाओं की प्राथमिकता प्रबंधन को सफलतापूर्वक लागू करता है, अन्य सेवा प्रकारों के प्रदर्शन को बनाए रखता है
संसाधन दक्षता: बुद्धिमान प्रवेश निर्णयों के माध्यम से अधिक कॉम्पैक्ट और विलंबता-कुशल एम्बेडिंग प्राप्त करता है
अभिसरण स्थिरता: बोल्ट्जमैन अन्वेषण अधिक सुचारु और स्थिर अभिसरण को बढ़ावा देता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

DePSAC विलंबता-जागरूक पुरस्कार डिजाइन के माध्यम से, DRL एजेंट को लाभप्रदता और QoS उद्देश्यों को प्रभावी ढंग से संतुलित करता है
बोल्ट्जमैन अन्वेषण epsilon-greedy रणनीति की तुलना में अधिक सुचारु और स्थिर अभिसरण प्राप्त करता है
कई प्रदर्शन मेट्रिक्स पर DSARA आधारभूत विधि से लगातार बेहतर है

सीमाएं

सिम्युलेशन वातावरण सीमाएं: केवल अनुकृत वातावरण में सत्यापित, वास्तविक नेटवर्क तैनाती सत्यापन की कमी
पैरामीटर संवेदनशीलता: तापमान पैरामीटर τ और प्राथमिकता भार की संवेदनशीलता का पर्याप्त विश्लेषण नहीं
स्केलेबिलिटी विश्लेषण: बड़े नेटवर्क में प्रदर्शन का मूल्यांकन नहीं किया गया
गतिशील अनुकूलन क्षमता: गतिशील रूप से बदलती नेटवर्क स्थितियों और ट्रैफिक पैटर्न के अनुकूल क्षमता सीमित है

भविष्य की दिशाएं

संघीय 5G आर्किटेक्चर: संघीय 5G आर्किटेक्चर का समर्थन करने के लिए DePSAC का विस्तार
गतिशील लोड मूल्यांकन: गतिशील ट्रैफिक लोड के तहत दृढ़ता का मूल्यांकन
गतिशीलता समर्थन: वास्तविक तैनाती प्रक्षेपवक्र का उपयोग करके गतिशीलता परिदृश्य का मूल्यांकन
वास्तविक तैनाती सत्यापन: वास्तविक 5G नेटवर्क में विधि की प्रभावशीलता को सत्यापित करना

गहन मूल्यांकन

शक्तियां

समस्या लक्ष्य शक्तिशाली: मौजूदा विधियों द्वारा विलंबता कारक को अनदेखा करने की मुख्य समस्या को स्पष्ट रूप से पहचानता है
विधि नवाचार उचित: विलंबता-जागरूक पुरस्कार फ़ंक्शन डिजाइन सहज और प्रभावी है
तकनीकी सुधार प्रमाणित: बोल्ट्जमैन अन्वेषण को अपनाने के लिए पर्याप्त सैद्धांतिक आधार है
प्रायोगिक डिजाइन पूर्ण: बहु-आयामी मूल्यांकन मेट्रिक्स, विधि प्रभावशीलता का व्यापक सत्यापन
परिणाम प्रेरक शक्ति मजबूत: सभी मुख्य मेट्रिक्स पर सुधार दिखाता है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: अभिसरण और इष्टतमता के सैद्धांतिक गारंटी की कमी
पैरामीटर ट्यूनिंग मार्गदर्शन अनुपस्थित: तापमान पैरामीटर और प्राथमिकता भार चयन के लिए मार्गदर्शन प्रदान नहीं करता
कम्प्यूटेशनल जटिलता विश्लेषण अनुपस्थित: आधारभूत विधि की तुलना में कम्प्यूटेशनल ओवरहेड का विश्लेषण नहीं
दृढ़ता सत्यापन अपर्याप्त: असामान्य ट्रैफिक या नेटवर्क विफलता के तहत प्रदर्शन का परीक्षण नहीं किया गया
वास्तविक तैनाती विचार अपर्याप्त: वास्तविक तैनाती में सामने आने वाली चुनौतियों की चर्चा की कमी

प्रभाव

शैक्षणिक योगदान: 5G नेटवर्क स्लाइसिंग के बहु-उद्देश्य अनुकूलन के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: विधि में मजबूत व्यावहारिक अनुप्रयोग क्षमता है
पुनरुत्पादनीयता: पर्याप्त कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है
सामान्यीकरण: विलंबता-जागरूक विचार अन्य नेटवर्क अनुकूलन समस्याओं में सामान्यीकृत किया जा सकता है

लागू परिदृश्य

5G नेटवर्क ऑपरेटर: QoS और लाभ को संतुलित करने की आवश्यकता वाली नेटवर्क स्लाइसिंग प्रबंधन
एज कंप्यूटिंग वातावरण: विलंबता-संवेदनशील सेवा तैनाती और संसाधन आवंटन
बहु-किरायेदार नेटवर्क: सेवा विभेदीकरण की आवश्यकता वाले आभासी नेटवर्क वातावरण
वास्तविक समय अनुप्रयोग समर्थन: औद्योगिक IoT, स्वायत्त ड्राइविंग आदि विलंबता-महत्वपूर्ण अनुप्रयोग

संदर्भ

पेपर 12 संबंधित संदर्भों का हवाला देता है, जिसमें 5G नेटवर्क स्लाइसिंग, गहन सुदृढ़ीकरण सीखने, संसाधन आवंटन आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करते हैं।

समग्र मूल्यांकन: यह पेपर 5G नेटवर्क स्लाइस प्रवेश नियंत्रण में विलंबता-लाभ व्यापार-बंद समस्या के लिए एक नवीन और व्यावहारिक समाधान प्रस्तुत करता है। विधि डिजाइन उचित है, प्रायोगिक सत्यापन पर्याप्त है, इस क्षेत्र में अच्छी शैक्षणिक मूल्य और अनुप्रयोग संभावनाएं हैं। मुख्य कमियां सैद्धांतिक विश्लेषण और वास्तविक तैनाती विचार के पहलुओं में सुधार की गुंजाइश है।