2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.
5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.
academic

Priorisierung von Latenz mit Gewinn: Eine DRL-basierte Zulassungskontrolle für 5G-Netzwerk-Slices

Grundinformationen

  • Paper-ID: 2510.08769
  • Titel: Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices
  • Autoren: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
  • Klassifizierung: cs.NI (Netzwerk- und Internetarchitektur), cs.LG (Maschinelles Lernen), cs.PF (Leistung)
  • Einreichungsdatum: 9. Oktober 2025 bei arXiv eingereicht
  • Paper-Link: https://arxiv.org/abs/2510.08769v1

Zusammenfassung

Dieses Paper präsentiert DePSAC (Delay and Profit-aware Slice Admission Control), einen Ansatz zur Zulassungskontrolle für 5G-Netzwerk-Slices. Der Ansatz nutzt ein Deep-Reinforcement-Learning-Framework, um die Gewinnmaximierung des Netzwerkdienstanbieters zu erreichen und gleichzeitig explizit die Dienstverzögerung zu berücksichtigen, insbesondere die Priorisierung von latenzempfindlichen URLLC-Slices. Das Schema verwendet eine verzögerungsbewusste Belohnungsfunktion und eine Boltzmann-Explorationsstrategie. Die Validierung auf einem simulierten 5G-Kernnetz zeigt Verbesserungen gegenüber der Baseline-Methode DSARA in Bezug auf Gewinn, Verzögerung, Akzeptanzrate und Ressourcenverbrauch.

Forschungshintergrund und Motivation

Problembeschreibung

5G-Netze unterstützen durch Netzwerk-Slicing-Technologie vielfältige Dienste, darunter Enhanced Mobile Broadband (eMBB), Ultra-Reliable Low Latency Communication (URLLC) und Massive Machine-Type Communication (mMTC). Diese Dienste haben heterogene QoS-Anforderungen und erfordern intelligente Zulassungskontroll- und Ressourcenallokationsstrategien, um strenge QoS-Anforderungen mit der Rentabilität des Netzwerkdienstanbieters (NSP) auszugleichen.

Bedeutung des Problems

  1. Herausforderungen der Dienstvielfalt: Verschiedene Slice-Typen haben unterschiedliche Anforderungen an Verzögerung, Zuverlässigkeit und Bandbreite
  2. Ressourcenoptimierungsbedarf: Begrenzte physische Ressourcen müssen effizient zwischen mehreren virtuellen Netzen verteilt werden
  3. Geschäftliche Machbarkeit: NSPs müssen Rentabilität sicherstellen und gleichzeitig QoS-Anforderungen erfüllen

Einschränkungen bestehender Methoden

  1. Vernachlässigung von Verzögerungsfaktoren: Bestehende DRL-Frameworks konzentrieren sich hauptsächlich auf Gewinnoptimierung und berücksichtigen Dienstverzögerungen nicht explizit
  2. Instabile Explorationsstrategien: Die Epsilon-Greedy-Explorationsstrategie führt zu instabiler Konvergenz und suboptimalem Strategielernen
  3. QoS-Verletzungsrisiko: Latenzempfindliche Dienste (wie URLLC) können QoS-Verletzungen aufweisen

Forschungsmotivation

Obwohl die Baseline-Methode DSARA die Gewinnmaximierung effektiv erreicht, berücksichtigt sie nicht die Verzögerungsunterschiede zwischen verschiedenen Slice-Typen und kann zu QoS-Verletzungen führen. Dieses Paper zielt darauf ab, ein Slice-Zulassungskontrollschema zu entwickeln, das sowohl Verzögerung als auch Gewinn berücksichtigt.

Kernbeiträge

  1. Verzögerungsbewusste Belohnungsfunktion: Präsentation einer Gewinn-Verzögerungs-bewussten Belohnungsformel, die QoS-Anforderungen und NSP-Rentabilität ausgleicht
  2. Boltzmann-Explorationsstrategie: Integration der Boltzmann-Exploration in den DRL-Agenten zur Verbesserung der Lernstabilität und Vermeidung lokaler Optima der Epsilon-Greedy-Methode
  3. Umfassende experimentelle Evaluierung: Implementierung von DePSAC auf einem simulierten 5G-Kernnetz mit realistischen Netzwerk-Slice-Anforderungsankunftsmustern
  4. Verifizierung von Leistungsverbesserungen: Experimentelle Ergebnisse bestätigen DePSACs Verbesserungen beim Gewinn-QoS-Ausgleich mit kürzeren Dienstverzögerungen, höherer Akzeptanzrate und geringerem Bandbreiteneinsatz

Methodische Details

Aufgabendefinition

Eingabe: Netzwerk-Slice-Anforderungsfluss (NSLR) mit Slice-Typ, Ressourcenbedarf und Laufzeit Ausgabe: Zulassungsentscheidungen und Ressourcenallokationsstrategie Ziel: NSP-Gewinnmaximierung bei gleichzeitiger Minimierung der Dienstverzögerung, insbesondere für URLLC-Slices

Modellarchitektur

Systemarchitektur

Verwendung der DeepSARA-Framework-Systemarchitektur mit vier Hauptmodulen:

  1. Zulassungskontrollmodul (ACM): Nutzt DRL-Agenten zur Zuweisung von Prioritätsgewichtungen für Slice-Typen
  2. Ressourcenallokationsmodul (RAM): Ordnet VNFs basierend auf Verfügbarkeit und QoS-Einschränkungen Knoten zu
  3. Überwachungsmodul: Erfasst kontinuierlich Ressourcenstatusdaten
  4. Lebenszyklusmodul: Instanziiert akzeptierte Slices und gibt Ressourcen bei Ablauf frei

5G-Kernnetz-Substrat

  • Modelliert als NFV-Infrastruktur (NFVI) mit Kernknoten (hohe Kapazität) und Edge-Knoten (niedrige Latenz)
  • Dargestellt als gewichteter ungerichteter Graph SN = {N,L}, wobei Knoten N CPU-Kapazität und Links L Bandbreite haben

Verzögerungsbewusste Belohnungsfunktion

Die Kernneuerung von DePSAC ist die verzögerungsbewusste Belohnungsfunktion:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

Dabei gilt:

  • priorityi: Priorität basierend auf Slice-Typ (URLLC > eMBB > mMTC)
  • delayi: Zeitintervall von Ankunft bis Bedienung der NSL-Anfrage i
  • To: Slice-Laufzeit
  • revenuei und costi: Einnahmen und Betriebskosten

Boltzmann-Explorationsstrategie

Ersatz für Epsilon-Greedy mit Boltzmann-Exploration:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

Dabei ist τ ein Temperaturparameter, der die Explorationsdiversität steuert. Hohe τ fördern Exploration, niedrige τ fördern Ausbeutung.

Technische Innovationspunkte

  1. Verzögerungsbestrafungsmechanismus: Einführung eines Verzögerungsbestrafungsterms in der Belohnungsfunktion, um den Agenten zu ermutigen, latenzempfindliche Slices vorrangig zu behandeln
  2. Sanfte Explorationsstrategie: Boltzmann-Exploration wählt Aktionen basierend auf Q-Wert-Wahrscheinlichkeitsverteilung und vermeidet rein zufälliges oder gieriges Verhalten
  3. Multi-Objective-Optimierung: Gleichzeitige Berücksichtigung von Gewinnmaximierung und Verzögerungsminimierung für besseren QoS-Gewinn-Ausgleich

Experimentelle Einrichtung

Datensatz

  • Substrat-Netzwerk: 64-Knoten-Barabási-Albert-Topologie, erfasst skalierungsfreie Eigenschaften echter 5G-Infrastruktur
  • Slice-Anfragen: Dynamisch generierte NSLRs mit drei Servicetypen (eMBB, URLLC, mMTC)
  • Ankunftsmuster: Realistische Netzwerk-Slice-Anforderungsankunftsmuster

Bewertungsmetriken

  1. Gewinn (Profit): Gesamteinnahmen des NSP aus Netzwerk-Slice-Anfragen minus Betriebskosten
  2. Akzeptanzrate (AR): Anteil erfolgreich zugelassener NSLRs, AR = req_a / req_t
  3. Verzögerung (Delay): Servicezeit nach Anfrageankunft, Delay = T_finished - T_arrival
  4. Ressourcenverbrauch (C): Anteil der Verarbeitungs- und Bandbreitenressourcen für akzeptierte Slices

Vergleichsmethoden

  • Baseline: DSARA-Methode, ein DRL-basiertes Framework für gemeinsame Zulassungskontrolle und Ressourcenallokation

Implementierungsdetails

  • Entwicklungsumgebung: Python 3 mit modularem objektorientiertem Design
  • Hardware-Plattform: AMD Ryzen 5 Prozessor, 16GB RAM, Windows 11
  • Graphenverarbeitung: NetworkX-Bibliothek zur Verwaltung von Substrat-Netzwerk- und NSLR-Graphdarstellungen
  • Simulator: Ereignisgesteuerter Simulator mit integriertem verzögerungsbewusstem DRL-Agenten

Experimentelle Ergebnisse

Hauptergebnisse

Gewinnleistung

  • Gesamtgewinn: DePSAC ist in der frühen Trainingsphase aufgrund von Exploration leicht unter DSARA, übertrifft die Baseline aber mit fortschreitendem Training kontinuierlich
  • Kategoriegewinn: Gewinnverbesserungen bei allen Servicetypen (eMBB, URLLC, mMTC), mit signifikantesten Verbesserungen bei URLLC

Verzögerungsleistung

  • Gesamtverzögerung: DePSAC erreicht niedrigere durchschnittliche Verzögerung im Vergleich zu DSARA
  • URLLC-Verzögerung: Erhebliche Verzögerungsreduktion gegenüber DSARA, validiert effektive Priorisierung zeitkritischer Slices
  • Andere Servicetypen: Moderate aber kontinuierliche Verzögerungsreduktion bei mMTC, eMBB-Verzögerung konvergiert nach Explorationsphase zu Werten unter der Baseline

Akzeptanzratenleistung

  • Gesamtakzeptanzrate: DePSAC übertrifft schließlich DSARA durch schnellere Anfragebedienung und Ressourcenfreigabe, was mehr Anfragen ermöglicht
  • URLLC-Akzeptanzrate: Signifikante Verbesserung, spiegelt vom Agenten gelernte Priorisierung latenzempfindlicher Anfragen wider
  • eMBB-Akzeptanzrate: Moderate Verbesserung
  • mMTC-Akzeptanzrate: Leichter Rückgang, aber im akzeptablen Bereich

Ressourcenverbrauchsleistung

  • Gesamtverbrauch: DePSAC zeigt leichte Ressourcenverbrauchsreduktion in späteren Trainingsphasen
  • Bandbreiteneffizienz: Geringerer Gesamtbandbreiteneinsatz durch Priorisierung von URLLC-Slices mit niedrigerem Ressourcenbedarf
  • CPU-Auslastung: Bleibt konsistent oder zeigt leichte Verbesserungen

Ablationsstudien

Das Paper validiert durch Vergleich mit DSARA die Wirksamkeit der verzögerungsbewussten Belohnungsfunktion und Boltzmann-Exploration, bietet aber keine detaillierten komponentengestützten Ablationsanalysen.

Experimentelle Erkenntnisse

  1. Verzögerungs-Gewinn-Ausgleich: Verzögerungsbestrafung schadet nicht der Rentabilität; der Agent lernt, effektiv auszugleichen und sogar NSP-Einnahmen zu maximieren
  2. Servicedifferenzierung: Erfolgreiche Priorisierung latenzempfindlicher Dienste bei Beibehaltung der Leistung anderer Servicetypen
  3. Ressourceneffizienz: Kompaktere und verzögerungseffiziente Einbettung durch intelligente Zulassungsentscheidungen
  4. Konvergensstabilität: Boltzmann-Exploration fördert glattere, stabilere Konvergenz

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Warteschlangen-theoretische Slice-Methoden: Han et al. präsentieren nutzengesteuerte Multi-Service-Slicing-Methoden
  2. Big-Data-Analyse-Vorhersage: Raza et al. nutzen Verkehrsprognosen zur Verbesserung der Anbieterrentabilität
  3. VNF-Platzierungsoptimierung: Zhang et al. führen heuristische VNF-Platzierungsmethoden ein
  4. Reinforcement-Learning-Methoden: William et al. präsentieren SARA- und DSARA-Modelle

Vorteile dieses Papers

Im Gegensatz zu bestehenden Arbeiten berücksichtigt dieses Paper erstmals explizit sowohl Verzögerung als auch Gewinn im DRL-Framework und nutzt eine stabilere Explorationsstrategie.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. DePSAC ermöglicht es dem DRL-Agenten durch verzögerungsbewusste Belohnungsgestaltung, Rentabilität und QoS-Ziele effektiv auszugleichen
  2. Boltzmann-Exploration erreicht glattere, stabilere Konvergenz im Vergleich zur Epsilon-Greedy-Strategie
  3. Kontinuierliche Überlegenheit gegenüber der DSARA-Baseline-Methode bei mehreren Leistungskennzahlen

Einschränkungen

  1. Simulationsumgebungsbeschränkungen: Validierung nur in simulierter Umgebung, fehlende Validierung in echten Netzwerkbereitstellungen
  2. Parametersensitivität: Unzureichende Analyse der Sensitivität des Temperaturparameters τ und Prioritätsgewichte
  3. Skalierbarkeitsanalyse: Keine Bewertung der Leistung in größeren Netzwerken
  4. Dynamische Anpassungsfähigkeit: Begrenzte Anpassungsfähigkeit an dynamisch wechselnde Netzwerkbedingungen und Verkehrsmuster

Zukünftige Richtungen

  1. Föderierte 5G-Architektur: Erweiterung von DePSAC zur Unterstützung föderierter 5G-Architekturen
  2. Dynamische Lastbewertung: Robustheitsbewertung unter dynamischen Verkehrslasten
  3. Mobilitätsunterstützung: Bewertung von Mobilitätsszenarien mit echten Bereitstellungstrajektorien
  4. Validierung echter Bereitstellungen: Validierung der Methode in echten 5G-Netzen

Tiefgreifende Bewertung

Stärken

  1. Starke Problemorientierung: Klare Identifikation des Schlüsselproblems, dass bestehende Methoden Verzögerungsfaktoren vernachlässigen
  2. Vernünftige Methodische Innovation: Intuitive und effektive Gestaltung der verzögerungsbewussten Belohnungsfunktion
  3. Fundierte technische Verbesserungen: Ausreichende theoretische Grundlagen für die Adoption der Boltzmann-Exploration
  4. Vollständige Experimentgestaltung: Mehrdimensionale Bewertungskennzahlen mit umfassender Methodenvalidierung
  5. Überzeugende Ergebnisse: Verbesserungen bei allen Schlüsselkennzahlen

Mängel

  1. Unzureichende theoretische Analyse: Fehlende Konvergenz- und Optimalitätsgarantien
  2. Fehlende Parameteroptimierungsleitfäden: Keine Anleitung zur Auswahl von Temperaturparameter und Prioritätsgewichten
  3. Fehlende Komplexitätsanalyse: Keine Analyse des Rechenaufwands gegenüber der Baseline-Methode
  4. Unzureichende Robustheitsprüfung: Keine Tests unter anomalen Verkehrsmustern oder Netzwerkausfällen
  5. Unzureichende praktische Bereitstellungsüberlegungen: Mangelnde Diskussion von Herausforderungen bei echter Bereitstellung

Auswirkungen

  1. Akademischer Beitrag: Neue Perspektive für Multi-Objective-Optimierung in 5G-Netzwerk-Slicing
  2. Praktischer Wert: Methode hat starkes Anwendungspotenzial
  3. Reproduzierbarkeit: Ausreichende Implementierungsdetails für Reproduktion
  4. Verallgemeinerbarkeit: Verzögerungsbewusste Ideen können auf andere Netzwerkoptimierungsprobleme übertragen werden

Anwendungsszenarien

  1. 5G-Netzwerkbetreiber: Netzwerk-Slice-Management mit QoS- und Rentabilitätsausgleich
  2. Edge-Computing-Umgebungen: Ressourcenallokation und -bereitstellung für latenzempfindliche Dienste
  3. Multi-Tenant-Netze: Virtualisierte Netzwerkumgebungen mit Servicedifferenzierung
  4. Echtzeit-Anwendungsunterstützung: Latenzkrische Anwendungen wie Industrial IoT und autonomes Fahren

Literaturverzeichnis

Das Paper zitiert 12 relevante Arbeiten, die wichtige Arbeiten in den Schlüsselbereichen 5G-Netzwerk-Slicing, Deep Reinforcement Learning und Ressourcenallokation abdecken und eine ausreichende theoretische Grundlage und Vergleichsbenchmarks bieten.


Gesamtbewertung: Dieses Paper präsentiert eine innovative und praktische Lösung für das Verzögerungs-Gewinn-Ausgleichsproblem in der 5G-Netzwerk-Slice-Zulassungskontrolle. Die Methodengestaltung ist vernünftig, die experimentelle Validierung umfassend, und es hat guten akademischen Wert und Anwendungsperspektiven in diesem Bereich. Die Hauptmängel liegen in theoretischer Analyse und praktischen Bereitstellungsüberlegungen, wo noch Verbesserungsspielraum besteht.