2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.
5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.
academic

Prioritizzazione della Latenza con Profitto: Un Controllo di Ammissione Basato su DRL per i Network Slice 5G

Informazioni Fondamentali

  • ID Articolo: 2510.08769
  • Titolo: Prioritizzazione della Latenza con Profitto: Un Controllo di Ammissione Basato su DRL per i Network Slice 5G
  • Autori: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
  • Classificazione: cs.NI (Architettura di Reti e Internet), cs.LG (Apprendimento Automatico), cs.PF (Prestazioni)
  • Data di Pubblicazione: Sottomesso ad arXiv il 9 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.08769v1

Riassunto

Questo articolo propone DePSAC (Delay and Profit-aware Slice Admission Control), uno schema di controllo di ammissione per i network slice 5G. Lo schema utilizza un framework di apprendimento per rinforzo profondo per massimizzare il profitto del fornitore di servizi di rete, considerando esplicitamente la latenza del servizio, in particolare la prioritizzazione dei network slice URLLC sensibili alla latenza. Lo schema impiega una funzione di ricompensa consapevole della latenza e una strategia di esplorazione di Boltzmann, verificando su una rete core 5G simulata i miglioramenti rispetto al metodo baseline DSARA in termini di profitto, latenza, tasso di accettazione e consumo di risorse.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le reti 5G supportano servizi diversificati attraverso la tecnologia di network slicing, inclusa la banda larga mobile migliorata (eMBB), la comunicazione ultra-affidabile a bassa latenza (URLLC) e la comunicazione di tipo macchina su larga scala (mMTC). Questi servizi hanno requisiti QoS eterogenei, richiedendo strategie intelligenti di controllo di ammissione e allocazione di risorse per bilanciare i requisiti QoS rigorosi e la redditività dei fornitori di servizi di rete (NSP).

Importanza del Problema

  1. Sfida della Diversità dei Servizi: Diversi tipi di slice hanno requisiti differenti per latenza, affidabilità e larghezza di banda
  2. Necessità di Ottimizzazione delle Risorse: Le risorse fisiche limitate devono essere allocate efficientemente tra più reti virtuali
  3. Fattibilità Commerciale: Gli NSP devono garantire la redditività soddisfacendo i requisiti QoS

Limitazioni dei Metodi Esistenti

  1. Trascuratezza del Fattore Latenza: I framework DRL esistenti si concentrano principalmente sull'ottimizzazione del profitto, senza considerare esplicitamente la latenza del servizio
  2. Instabilità della Strategia di Esplorazione: La strategia di esplorazione epsilon-greedy causa convergenza instabile e apprendimento di politiche subottimali
  3. Rischio di Violazione QoS: I servizi sensibili alla latenza (come URLLC) potrebbero subire violazioni QoS

Motivazione della Ricerca

Sebbene il metodo baseline DSARA possa massimizzare efficacemente il profitto, non considera le differenze di latenza tra diversi tipi di slice, potendo causare violazioni QoS. Questo articolo mira a sviluppare uno schema di controllo di ammissione per i network slice che consideri simultaneamente latenza e profitto.

Contributi Principali

  1. Funzione di Ricompensa Consapevole della Latenza: Propone una formula di ricompensa consapevole della latenza e del profitto che bilancia i requisiti QoS e la redditività degli NSP
  2. Strategia di Esplorazione di Boltzmann: Integra l'esplorazione di Boltzmann nell'agente DRL, migliorando la stabilità dell'apprendimento ed evitando i problemi di ottimi locali del metodo epsilon-greedy
  3. Valutazione Sperimentale Completa: Implementa DePSAC su una rete core 5G simulata, valutandola con modelli realistici di arrivo delle richieste di network slice
  4. Verifica del Miglioramento delle Prestazioni: I risultati sperimentali verificano il miglioramento di DePSAC nel compromesso profitto-QoS, realizzando latenza di servizio più breve, tasso di accettazione più elevato e utilizzo di larghezza di banda inferiore

Dettagli del Metodo

Definizione del Compito

Input: Flusso di richieste di network slice (NSLR), contenente tipo di slice, requisiti di risorse, tempo di esecuzione Output: Decisioni di ammissione e strategia di allocazione delle risorse Obiettivo: Massimizzare il profitto degli NSP minimizzando contemporaneamente la latenza del servizio, in particolare per i network slice URLLC

Architettura del Modello

Architettura del Sistema

Adotta l'architettura del sistema del framework DeepSARA, contenente quattro moduli principali:

  1. Modulo di Controllo di Ammissione (ACM): Utilizza un agente DRL per assegnare pesi di priorità ai tipi di slice
  2. Modulo di Allocazione delle Risorse (RAM): Mappa i VNF ai nodi in base alla disponibilità e ai vincoli QoS
  3. Modulo di Monitoraggio: Raccoglie continuamente dati sullo stato delle risorse
  4. Modulo di Ciclo di Vita: Istanzia i network slice accettati e rilascia le risorse alla scadenza

Substrato di Rete Core 5G

  • Modellato come infrastruttura NFV (NFVI), contenente nodi core (alta capacità) e nodi edge (bassa latenza)
  • Rappresentato come grafo non orientato ponderato SN = {N,L}, con nodi N aventi capacità CPU e link L aventi larghezza di banda

Funzione di Ricompensa Consapevole della Latenza

L'innovazione principale di DePSAC è la funzione di ricompensa consapevole della latenza:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

Dove:

  • priorityi: Priorità determinata in base al tipo di slice (URLLC > eMBB > mMTC)
  • delayi: Intervallo di tempo dalla ricezione alla servizio della richiesta NSL i
  • To: Tempo di esecuzione dello slice
  • revenuei e costi: Ricavi e costi operativi

Strategia di Esplorazione di Boltzmann

In sostituzione di epsilon-greedy, adotta l'esplorazione di Boltzmann:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

Dove τ è il parametro di temperatura, che regola la diversità dell'esplorazione. Una τ elevata incoraggia l'esplorazione, una τ bassa promuove lo sfruttamento.

Punti di Innovazione Tecnica

  1. Meccanismo di Penalità per Latenza: Introducendo un termine di penalità per latenza nella funzione di ricompensa, incentiva l'agente a dare priorità ai network slice sensibili alla latenza
  2. Strategia di Esplorazione Fluida: L'esplorazione di Boltzmann seleziona le azioni basandosi su una distribuzione di probabilità dei valori Q, evitando comportamenti puramente casuali o avidi
  3. Ottimizzazione Multi-Obiettivo: Considera simultaneamente la massimizzazione del profitto e la minimizzazione della latenza, realizzando un miglior compromesso QoS-profitto

Configurazione Sperimentale

Dataset

  • Rete Substrato: Topologia Barabási-Albert a 64 nodi, catturando le caratteristiche scale-free dell'infrastruttura 5G reale
  • Richieste di Slice: NSLR generate dinamicamente, contenenti tre tipi di servizio (eMBB, URLLC, mMTC)
  • Modello di Arrivo: Modelli realistici di arrivo delle richieste di network slice

Metriche di Valutazione

  1. Profitto (Profit): Ricavo totale ottenuto dagli NSP dal servizio delle richieste di network slice meno i costi operativi
  2. Tasso di Accettazione (AR): Proporzione di NSLR ammesse con successo, AR = req_a / req_t
  3. Latenza (Delay): Tempo di servizio dopo l'arrivo della richiesta, Delay = T_finished - T_arrival
  4. Consumo di Risorse (C): Proporzione di risorse di elaborazione e larghezza di banda allocate ai network slice accettati

Metodi di Confronto

  • Baseline: Metodo DSARA, framework di controllo di ammissione e allocazione di risorse congiunto basato su DRL

Dettagli di Implementazione

  • Ambiente di Sviluppo: Python 3, progettazione orientata agli oggetti modulare
  • Piattaforma Hardware: Processore AMD Ryzen 5, 16GB RAM, Windows 11
  • Elaborazione Grafica: Libreria NetworkX per gestire le rappresentazioni grafiche della rete substrato e degli NSLR
  • Simulatore: Simulatore di eventi discreti integrato con agente DRL consapevole della latenza

Risultati Sperimentali

Risultati Principali

Prestazioni di Profitto

  • Profitto Complessivo: DePSAC mostra profitto leggermente inferiore a DSARA nelle fasi iniziali di addestramento a causa dell'esplorazione, ma supera costantemente il baseline con il progredire dell'addestramento
  • Profitto per Categoria: Miglioramenti in tutti i tipi di servizio (eMBB, URLLC, mMTC), con il miglioramento più significativo per URLLC

Prestazioni di Latenza

  • Latenza Complessiva: DePSAC realizza latenza media inferiore rispetto a DSARA
  • Latenza URLLC: Riduzione significativa della latenza rispetto a DSARA, verificando la prioritizzazione efficace dei network slice critici nel tempo
  • Altri Tipi di Servizio: Riduzione moderata ma continua della latenza per mMTC, convergenza della latenza eMBB a valori inferiori al baseline dopo il periodo di esplorazione

Prestazioni del Tasso di Accettazione

  • Tasso di Accettazione Complessivo: DePSAC alla fine supera DSARA, rilasciando le risorse più rapidamente dal servizio delle richieste, consentendo l'accettazione di più richieste
  • Tasso di Accettazione URLLC: Miglioramento significativo, riflettendo l'apprendimento dell'agente della prioritizzazione delle richieste sensibili alla latenza
  • Tasso di Accettazione eMBB: Aumento moderato
  • Tasso di Accettazione mMTC: Leggera diminuzione ma entro intervalli accettabili

Prestazioni del Consumo di Risorse

  • Consumo Complessivo: DePSAC mostra una leggera riduzione del consumo di risorse negli stadi successivi dell'addestramento
  • Efficienza della Larghezza di Banda: Riduzione dell'utilizzo totale della larghezza di banda dovuta alla prioritizzazione dei network slice URLLC con requisiti di risorse inferiori
  • Utilizzo della CPU: Rimane coerente o mostra leggeri miglioramenti

Esperimenti di Ablazione

L'articolo verifica l'efficacia della funzione di ricompensa consapevole della latenza e dell'esplorazione di Boltzmann attraverso il confronto con DSARA, ma non fornisce un'analisi dettagliata dell'ablazione a livello di componenti.

Scoperte Sperimentali

  1. Equilibrio Latenza-Profitto: La penalità di latenza non compromette la redditività; l'agente apprende a bilanciare efficacemente e persino a migliorare la massimizzazione dei ricavi degli NSP
  2. Differenziazione dei Servizi: Realizza con successo la prioritizzazione dei servizi sensibili alla latenza mantenendo le prestazioni di altri tipi di servizio
  3. Efficienza delle Risorse: Realizza embedding più compatto e efficiente in termini di latenza attraverso decisioni intelligenti di ammissione
  4. Stabilità di Convergenza: L'esplorazione di Boltzmann promuove convergenza più fluida e stabile

Lavori Correlati

Principali Direzioni di Ricerca

  1. Metodi di Slicing Basati sulla Teoria delle Code: Han et al. propongono metodi di slicing multi-servizio guidati dall'utilità
  2. Analisi Predittiva dei Big Data: Raza et al. utilizzano la previsione del traffico per migliorare il profitto del fornitore
  3. Ottimizzazione del Posizionamento VNF: Zhang et al. introducono metodi euristici di posizionamento VNF
  4. Metodi di Apprendimento per Rinforzo: William et al. propongono i modelli SARA e DSARA

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo considera esplicitamente per la prima volta sia la latenza che il profitto nel framework DRL, adottando una strategia di esplorazione più stabile.

Conclusioni e Discussione

Conclusioni Principali

  1. DePSAC, attraverso la progettazione della ricompensa consapevole della latenza, consente all'agente DRL di bilanciare efficacemente gli obiettivi di redditività e QoS
  2. L'esplorazione di Boltzmann realizza convergenza più fluida e stabile rispetto alla strategia epsilon-greedy
  3. Supera costantemente il metodo baseline DSARA su molteplici metriche di prestazione

Limitazioni

  1. Limitazioni dell'Ambiente di Simulazione: Verificato solo in ambiente simulato, mancanza di verifica in distribuzione di rete reale
  2. Sensibilità ai Parametri: Analisi insufficiente della sensibilità del parametro di temperatura τ e dei pesi di priorità
  3. Analisi di Scalabilità: Non valuta le prestazioni in reti di scala più grande
  4. Adattabilità Dinamica: Capacità limitata di adattamento a condizioni di rete e modelli di traffico dinamicamente mutevoli

Direzioni Future

  1. Architettura 5G Federata: Estendere DePSAC per supportare architetture 5G federate
  2. Valutazione del Carico Dinamico: Valutare la robustezza sotto carichi di traffico dinamici
  3. Supporto della Mobilità: Valutare scenari di mobilità utilizzando traiettorie di distribuzione reali
  4. Verifica di Distribuzione Reale: Verificare l'efficacia del metodo in reti 5G reali

Valutazione Approfondita

Punti di Forza

  1. Forte Specificità del Problema: Identifica chiaramente il problema chiave del trascuramento del fattore latenza nei metodi esistenti
  2. Progettazione del Metodo Ragionevole: La progettazione della funzione di ricompensa consapevole della latenza è intuitiva ed efficace
  3. Miglioramento Tecnico Fondato: L'adozione dell'esplorazione di Boltzmann ha fondamenti teorici sufficienti
  4. Progettazione Sperimentale Completa: Metriche di valutazione multidimensionali, verifica completa dell'efficacia del metodo
  5. Forte Convincenza dei Risultati: Mostra miglioramenti su tutti gli indicatori chiave

Insufficienze

  1. Analisi Teorica Insufficiente: Mancanza di garanzie teoriche sulla convergenza e l'ottimalità
  2. Mancanza di Guida per l'Ottimizzazione dei Parametri: Non fornisce guida sulla selezione del parametro di temperatura e dei pesi di priorità
  3. Mancanza di Analisi della Complessità Computazionale: Non analizza l'overhead computazionale rispetto al metodo baseline
  4. Verifica di Robustezza Insufficiente: Non testa le prestazioni sotto traffico anomalo o guasti di rete
  5. Considerazioni di Distribuzione Reale Insufficienti: Mancanza di discussione sulle sfide che potrebbero essere incontrate nella distribuzione reale

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per l'ottimizzazione multi-obiettivo del network slicing 5G
  2. Valore Pratico: Il metodo ha un forte potenziale di applicazione pratica
  3. Riproducibilità: Fornisce dettagli di implementazione sufficienti per facilitare la riproduzione
  4. Generalizzabilità: L'idea consapevole della latenza può essere generalizzata ad altri problemi di ottimizzazione di rete

Scenari Applicabili

  1. Operatori di Rete 5G: Gestione del network slicing che bilancia QoS e profitto
  2. Ambienti di Calcolo Edge: Distribuzione e allocazione di risorse per servizi sensibili alla latenza
  3. Reti Multi-Tenant: Ambienti di rete virtualizzata che richiedono differenziazione dei servizi
  4. Supporto di Applicazioni in Tempo Reale: Applicazioni critiche per la latenza come IoT industriale e guida autonoma

Bibliografia

L'articolo cita 12 riferimenti correlati, coprendo lavori importanti nei campi del network slicing 5G, apprendimento per rinforzo profondo e allocazione di risorse, fornendo una base teorica sufficiente e benchmark di confronto per la ricerca.


Valutazione Complessiva: Questo articolo affronta il problema del compromesso latenza-profitto nel controllo di ammissione del network slicing 5G, proponendo una soluzione innovativa e pratica. La progettazione del metodo è ragionevole, la verifica sperimentale è completa e ha un buon valore accademico e prospettive di applicazione nel campo. Le principali insufficienze risiedono nell'analisi teorica e nelle considerazioni di distribuzione reale, dove c'è ancora spazio per miglioramenti.