2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.

5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.

academic

Priorisierung von Latenz mit Gewinn: Eine DRL-basierte Zulassungskontrolle für 5G-Netzwerk-Slices

Grundinformationen

Paper-ID: 2510.08769
Titel: Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices
Autoren: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
Klassifizierung: cs.NI (Netzwerk- und Internetarchitektur), cs.LG (Maschinelles Lernen), cs.PF (Leistung)
Einreichungsdatum: 9. Oktober 2025 bei arXiv eingereicht
Paper-Link: https://arxiv.org/abs/2510.08769v1

Zusammenfassung

Dieses Paper präsentiert DePSAC (Delay and Profit-aware Slice Admission Control), einen Ansatz zur Zulassungskontrolle für 5G-Netzwerk-Slices. Der Ansatz nutzt ein Deep-Reinforcement-Learning-Framework, um die Gewinnmaximierung des Netzwerkdienstanbieters zu erreichen und gleichzeitig explizit die Dienstverzögerung zu berücksichtigen, insbesondere die Priorisierung von latenzempfindlichen URLLC-Slices. Das Schema verwendet eine verzögerungsbewusste Belohnungsfunktion und eine Boltzmann-Explorationsstrategie. Die Validierung auf einem simulierten 5G-Kernnetz zeigt Verbesserungen gegenüber der Baseline-Methode DSARA in Bezug auf Gewinn, Verzögerung, Akzeptanzrate und Ressourcenverbrauch.

Forschungshintergrund und Motivation

Problembeschreibung

5G-Netze unterstützen durch Netzwerk-Slicing-Technologie vielfältige Dienste, darunter Enhanced Mobile Broadband (eMBB), Ultra-Reliable Low Latency Communication (URLLC) und Massive Machine-Type Communication (mMTC). Diese Dienste haben heterogene QoS-Anforderungen und erfordern intelligente Zulassungskontroll- und Ressourcenallokationsstrategien, um strenge QoS-Anforderungen mit der Rentabilität des Netzwerkdienstanbieters (NSP) auszugleichen.

Bedeutung des Problems

Herausforderungen der Dienstvielfalt: Verschiedene Slice-Typen haben unterschiedliche Anforderungen an Verzögerung, Zuverlässigkeit und Bandbreite
Ressourcenoptimierungsbedarf: Begrenzte physische Ressourcen müssen effizient zwischen mehreren virtuellen Netzen verteilt werden
Geschäftliche Machbarkeit: NSPs müssen Rentabilität sicherstellen und gleichzeitig QoS-Anforderungen erfüllen

Einschränkungen bestehender Methoden

Vernachlässigung von Verzögerungsfaktoren: Bestehende DRL-Frameworks konzentrieren sich hauptsächlich auf Gewinnoptimierung und berücksichtigen Dienstverzögerungen nicht explizit
Instabile Explorationsstrategien: Die Epsilon-Greedy-Explorationsstrategie führt zu instabiler Konvergenz und suboptimalem Strategielernen
QoS-Verletzungsrisiko: Latenzempfindliche Dienste (wie URLLC) können QoS-Verletzungen aufweisen

Forschungsmotivation

Obwohl die Baseline-Methode DSARA die Gewinnmaximierung effektiv erreicht, berücksichtigt sie nicht die Verzögerungsunterschiede zwischen verschiedenen Slice-Typen und kann zu QoS-Verletzungen führen. Dieses Paper zielt darauf ab, ein Slice-Zulassungskontrollschema zu entwickeln, das sowohl Verzögerung als auch Gewinn berücksichtigt.

Kernbeiträge

Verzögerungsbewusste Belohnungsfunktion: Präsentation einer Gewinn-Verzögerungs-bewussten Belohnungsformel, die QoS-Anforderungen und NSP-Rentabilität ausgleicht
Boltzmann-Explorationsstrategie: Integration der Boltzmann-Exploration in den DRL-Agenten zur Verbesserung der Lernstabilität und Vermeidung lokaler Optima der Epsilon-Greedy-Methode
Umfassende experimentelle Evaluierung: Implementierung von DePSAC auf einem simulierten 5G-Kernnetz mit realistischen Netzwerk-Slice-Anforderungsankunftsmustern
Verifizierung von Leistungsverbesserungen: Experimentelle Ergebnisse bestätigen DePSACs Verbesserungen beim Gewinn-QoS-Ausgleich mit kürzeren Dienstverzögerungen, höherer Akzeptanzrate und geringerem Bandbreiteneinsatz

Methodische Details

Aufgabendefinition

Eingabe: Netzwerk-Slice-Anforderungsfluss (NSLR) mit Slice-Typ, Ressourcenbedarf und Laufzeit Ausgabe: Zulassungsentscheidungen und Ressourcenallokationsstrategie Ziel: NSP-Gewinnmaximierung bei gleichzeitiger Minimierung der Dienstverzögerung, insbesondere für URLLC-Slices

Modellarchitektur

Systemarchitektur

Verwendung der DeepSARA-Framework-Systemarchitektur mit vier Hauptmodulen:

Zulassungskontrollmodul (ACM): Nutzt DRL-Agenten zur Zuweisung von Prioritätsgewichtungen für Slice-Typen
Ressourcenallokationsmodul (RAM): Ordnet VNFs basierend auf Verfügbarkeit und QoS-Einschränkungen Knoten zu
Überwachungsmodul: Erfasst kontinuierlich Ressourcenstatusdaten
Lebenszyklusmodul: Instanziiert akzeptierte Slices und gibt Ressourcen bei Ablauf frei

5G-Kernnetz-Substrat

Modelliert als NFV-Infrastruktur (NFVI) mit Kernknoten (hohe Kapazität) und Edge-Knoten (niedrige Latenz)
Dargestellt als gewichteter ungerichteter Graph SN = {N,L}, wobei Knoten N CPU-Kapazität und Links L Bandbreite haben

Verzögerungsbewusste Belohnungsfunktion

Die Kernneuerung von DePSAC ist die verzögerungsbewusste Belohnungsfunktion:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

Dabei gilt:

priorityi: Priorität basierend auf Slice-Typ (URLLC > eMBB > mMTC)
delayi: Zeitintervall von Ankunft bis Bedienung der NSL-Anfrage i
To: Slice-Laufzeit
revenuei und costi: Einnahmen und Betriebskosten

Boltzmann-Explorationsstrategie

Ersatz für Epsilon-Greedy mit Boltzmann-Exploration:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

Dabei ist τ ein Temperaturparameter, der die Explorationsdiversität steuert. Hohe τ fördern Exploration, niedrige τ fördern Ausbeutung.

Technische Innovationspunkte

Verzögerungsbestrafungsmechanismus: Einführung eines Verzögerungsbestrafungsterms in der Belohnungsfunktion, um den Agenten zu ermutigen, latenzempfindliche Slices vorrangig zu behandeln
Sanfte Explorationsstrategie: Boltzmann-Exploration wählt Aktionen basierend auf Q-Wert-Wahrscheinlichkeitsverteilung und vermeidet rein zufälliges oder gieriges Verhalten
Multi-Objective-Optimierung: Gleichzeitige Berücksichtigung von Gewinnmaximierung und Verzögerungsminimierung für besseren QoS-Gewinn-Ausgleich

Experimentelle Einrichtung

Datensatz

Substrat-Netzwerk: 64-Knoten-Barabási-Albert-Topologie, erfasst skalierungsfreie Eigenschaften echter 5G-Infrastruktur
Slice-Anfragen: Dynamisch generierte NSLRs mit drei Servicetypen (eMBB, URLLC, mMTC)
Ankunftsmuster: Realistische Netzwerk-Slice-Anforderungsankunftsmuster

Bewertungsmetriken

Gewinn (Profit): Gesamteinnahmen des NSP aus Netzwerk-Slice-Anfragen minus Betriebskosten
Akzeptanzrate (AR): Anteil erfolgreich zugelassener NSLRs, AR = req_a / req_t
Verzögerung (Delay): Servicezeit nach Anfrageankunft, Delay = T_finished - T_arrival
Ressourcenverbrauch (C): Anteil der Verarbeitungs- und Bandbreitenressourcen für akzeptierte Slices

Vergleichsmethoden

Baseline: DSARA-Methode, ein DRL-basiertes Framework für gemeinsame Zulassungskontrolle und Ressourcenallokation

Implementierungsdetails

Entwicklungsumgebung: Python 3 mit modularem objektorientiertem Design
Hardware-Plattform: AMD Ryzen 5 Prozessor, 16GB RAM, Windows 11
Graphenverarbeitung: NetworkX-Bibliothek zur Verwaltung von Substrat-Netzwerk- und NSLR-Graphdarstellungen
Simulator: Ereignisgesteuerter Simulator mit integriertem verzögerungsbewusstem DRL-Agenten

Experimentelle Ergebnisse

Hauptergebnisse

Gewinnleistung

Gesamtgewinn: DePSAC ist in der frühen Trainingsphase aufgrund von Exploration leicht unter DSARA, übertrifft die Baseline aber mit fortschreitendem Training kontinuierlich
Kategoriegewinn: Gewinnverbesserungen bei allen Servicetypen (eMBB, URLLC, mMTC), mit signifikantesten Verbesserungen bei URLLC

Verzögerungsleistung

Gesamtverzögerung: DePSAC erreicht niedrigere durchschnittliche Verzögerung im Vergleich zu DSARA
URLLC-Verzögerung: Erhebliche Verzögerungsreduktion gegenüber DSARA, validiert effektive Priorisierung zeitkritischer Slices
Andere Servicetypen: Moderate aber kontinuierliche Verzögerungsreduktion bei mMTC, eMBB-Verzögerung konvergiert nach Explorationsphase zu Werten unter der Baseline

Akzeptanzratenleistung

Gesamtakzeptanzrate: DePSAC übertrifft schließlich DSARA durch schnellere Anfragebedienung und Ressourcenfreigabe, was mehr Anfragen ermöglicht
URLLC-Akzeptanzrate: Signifikante Verbesserung, spiegelt vom Agenten gelernte Priorisierung latenzempfindlicher Anfragen wider
eMBB-Akzeptanzrate: Moderate Verbesserung
mMTC-Akzeptanzrate: Leichter Rückgang, aber im akzeptablen Bereich

Ressourcenverbrauchsleistung

Gesamtverbrauch: DePSAC zeigt leichte Ressourcenverbrauchsreduktion in späteren Trainingsphasen
Bandbreiteneffizienz: Geringerer Gesamtbandbreiteneinsatz durch Priorisierung von URLLC-Slices mit niedrigerem Ressourcenbedarf
CPU-Auslastung: Bleibt konsistent oder zeigt leichte Verbesserungen

Ablationsstudien

Das Paper validiert durch Vergleich mit DSARA die Wirksamkeit der verzögerungsbewussten Belohnungsfunktion und Boltzmann-Exploration, bietet aber keine detaillierten komponentengestützten Ablationsanalysen.

Experimentelle Erkenntnisse

Verzögerungs-Gewinn-Ausgleich: Verzögerungsbestrafung schadet nicht der Rentabilität; der Agent lernt, effektiv auszugleichen und sogar NSP-Einnahmen zu maximieren
Servicedifferenzierung: Erfolgreiche Priorisierung latenzempfindlicher Dienste bei Beibehaltung der Leistung anderer Servicetypen
Ressourceneffizienz: Kompaktere und verzögerungseffiziente Einbettung durch intelligente Zulassungsentscheidungen
Konvergensstabilität: Boltzmann-Exploration fördert glattere, stabilere Konvergenz

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

DePSAC ermöglicht es dem DRL-Agenten durch verzögerungsbewusste Belohnungsgestaltung, Rentabilität und QoS-Ziele effektiv auszugleichen
Boltzmann-Exploration erreicht glattere, stabilere Konvergenz im Vergleich zur Epsilon-Greedy-Strategie
Kontinuierliche Überlegenheit gegenüber der DSARA-Baseline-Methode bei mehreren Leistungskennzahlen

Einschränkungen

Simulationsumgebungsbeschränkungen: Validierung nur in simulierter Umgebung, fehlende Validierung in echten Netzwerkbereitstellungen
Parametersensitivität: Unzureichende Analyse der Sensitivität des Temperaturparameters τ und Prioritätsgewichte
Skalierbarkeitsanalyse: Keine Bewertung der Leistung in größeren Netzwerken
Dynamische Anpassungsfähigkeit: Begrenzte Anpassungsfähigkeit an dynamisch wechselnde Netzwerkbedingungen und Verkehrsmuster

Zukünftige Richtungen

Föderierte 5G-Architektur: Erweiterung von DePSAC zur Unterstützung föderierter 5G-Architekturen
Dynamische Lastbewertung: Robustheitsbewertung unter dynamischen Verkehrslasten
Mobilitätsunterstützung: Bewertung von Mobilitätsszenarien mit echten Bereitstellungstrajektorien
Validierung echter Bereitstellungen: Validierung der Methode in echten 5G-Netzen

Tiefgreifende Bewertung

Stärken

Starke Problemorientierung: Klare Identifikation des Schlüsselproblems, dass bestehende Methoden Verzögerungsfaktoren vernachlässigen
Vernünftige Methodische Innovation: Intuitive und effektive Gestaltung der verzögerungsbewussten Belohnungsfunktion
Fundierte technische Verbesserungen: Ausreichende theoretische Grundlagen für die Adoption der Boltzmann-Exploration
Vollständige Experimentgestaltung: Mehrdimensionale Bewertungskennzahlen mit umfassender Methodenvalidierung
Überzeugende Ergebnisse: Verbesserungen bei allen Schlüsselkennzahlen

Mängel

Unzureichende theoretische Analyse: Fehlende Konvergenz- und Optimalitätsgarantien
Fehlende Parameteroptimierungsleitfäden: Keine Anleitung zur Auswahl von Temperaturparameter und Prioritätsgewichten
Fehlende Komplexitätsanalyse: Keine Analyse des Rechenaufwands gegenüber der Baseline-Methode
Unzureichende Robustheitsprüfung: Keine Tests unter anomalen Verkehrsmustern oder Netzwerkausfällen
Unzureichende praktische Bereitstellungsüberlegungen: Mangelnde Diskussion von Herausforderungen bei echter Bereitstellung

Auswirkungen

Akademischer Beitrag: Neue Perspektive für Multi-Objective-Optimierung in 5G-Netzwerk-Slicing
Praktischer Wert: Methode hat starkes Anwendungspotenzial
Reproduzierbarkeit: Ausreichende Implementierungsdetails für Reproduktion
Verallgemeinerbarkeit: Verzögerungsbewusste Ideen können auf andere Netzwerkoptimierungsprobleme übertragen werden

Anwendungsszenarien

5G-Netzwerkbetreiber: Netzwerk-Slice-Management mit QoS- und Rentabilitätsausgleich
Edge-Computing-Umgebungen: Ressourcenallokation und -bereitstellung für latenzempfindliche Dienste
Multi-Tenant-Netze: Virtualisierte Netzwerkumgebungen mit Servicedifferenzierung
Echtzeit-Anwendungsunterstützung: Latenzkrische Anwendungen wie Industrial IoT und autonomes Fahren

Literaturverzeichnis

Das Paper zitiert 12 relevante Arbeiten, die wichtige Arbeiten in den Schlüsselbereichen 5G-Netzwerk-Slicing, Deep Reinforcement Learning und Ressourcenallokation abdecken und eine ausreichende theoretische Grundlage und Vergleichsbenchmarks bieten.

Gesamtbewertung: Dieses Paper präsentiert eine innovative und praktische Lösung für das Verzögerungs-Gewinn-Ausgleichsproblem in der 5G-Netzwerk-Slice-Zulassungskontrolle. Die Methodengestaltung ist vernünftig, die experimentelle Validierung umfassend, und es hat guten akademischen Wert und Anwendungsperspektiven in diesem Bereich. Die Hauptmängel liegen in theoretischer Analyse und praktischen Bereitstellungsüberlegungen, wo noch Verbesserungsspielraum besteht.