2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.

5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.

academic

Prioritizzazione della Latenza con Profitto: Un Controllo di Ammissione Basato su DRL per i Network Slice 5G

Informazioni Fondamentali

ID Articolo: 2510.08769
Titolo: Prioritizzazione della Latenza con Profitto: Un Controllo di Ammissione Basato su DRL per i Network Slice 5G
Autori: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
Classificazione: cs.NI (Architettura di Reti e Internet), cs.LG (Apprendimento Automatico), cs.PF (Prestazioni)
Data di Pubblicazione: Sottomesso ad arXiv il 9 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.08769v1

Riassunto

Questo articolo propone DePSAC (Delay and Profit-aware Slice Admission Control), uno schema di controllo di ammissione per i network slice 5G. Lo schema utilizza un framework di apprendimento per rinforzo profondo per massimizzare il profitto del fornitore di servizi di rete, considerando esplicitamente la latenza del servizio, in particolare la prioritizzazione dei network slice URLLC sensibili alla latenza. Lo schema impiega una funzione di ricompensa consapevole della latenza e una strategia di esplorazione di Boltzmann, verificando su una rete core 5G simulata i miglioramenti rispetto al metodo baseline DSARA in termini di profitto, latenza, tasso di accettazione e consumo di risorse.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le reti 5G supportano servizi diversificati attraverso la tecnologia di network slicing, inclusa la banda larga mobile migliorata (eMBB), la comunicazione ultra-affidabile a bassa latenza (URLLC) e la comunicazione di tipo macchina su larga scala (mMTC). Questi servizi hanno requisiti QoS eterogenei, richiedendo strategie intelligenti di controllo di ammissione e allocazione di risorse per bilanciare i requisiti QoS rigorosi e la redditività dei fornitori di servizi di rete (NSP).

Importanza del Problema

Sfida della Diversità dei Servizi: Diversi tipi di slice hanno requisiti differenti per latenza, affidabilità e larghezza di banda
Necessità di Ottimizzazione delle Risorse: Le risorse fisiche limitate devono essere allocate efficientemente tra più reti virtuali
Fattibilità Commerciale: Gli NSP devono garantire la redditività soddisfacendo i requisiti QoS

Limitazioni dei Metodi Esistenti

Trascuratezza del Fattore Latenza: I framework DRL esistenti si concentrano principalmente sull'ottimizzazione del profitto, senza considerare esplicitamente la latenza del servizio
Instabilità della Strategia di Esplorazione: La strategia di esplorazione epsilon-greedy causa convergenza instabile e apprendimento di politiche subottimali
Rischio di Violazione QoS: I servizi sensibili alla latenza (come URLLC) potrebbero subire violazioni QoS

Motivazione della Ricerca

Sebbene il metodo baseline DSARA possa massimizzare efficacemente il profitto, non considera le differenze di latenza tra diversi tipi di slice, potendo causare violazioni QoS. Questo articolo mira a sviluppare uno schema di controllo di ammissione per i network slice che consideri simultaneamente latenza e profitto.

Contributi Principali

Funzione di Ricompensa Consapevole della Latenza: Propone una formula di ricompensa consapevole della latenza e del profitto che bilancia i requisiti QoS e la redditività degli NSP
Strategia di Esplorazione di Boltzmann: Integra l'esplorazione di Boltzmann nell'agente DRL, migliorando la stabilità dell'apprendimento ed evitando i problemi di ottimi locali del metodo epsilon-greedy
Valutazione Sperimentale Completa: Implementa DePSAC su una rete core 5G simulata, valutandola con modelli realistici di arrivo delle richieste di network slice
Verifica del Miglioramento delle Prestazioni: I risultati sperimentali verificano il miglioramento di DePSAC nel compromesso profitto-QoS, realizzando latenza di servizio più breve, tasso di accettazione più elevato e utilizzo di larghezza di banda inferiore

Dettagli del Metodo

Definizione del Compito

Input: Flusso di richieste di network slice (NSLR), contenente tipo di slice, requisiti di risorse, tempo di esecuzione Output: Decisioni di ammissione e strategia di allocazione delle risorse Obiettivo: Massimizzare il profitto degli NSP minimizzando contemporaneamente la latenza del servizio, in particolare per i network slice URLLC

Architettura del Modello

Architettura del Sistema

Adotta l'architettura del sistema del framework DeepSARA, contenente quattro moduli principali:

Modulo di Controllo di Ammissione (ACM): Utilizza un agente DRL per assegnare pesi di priorità ai tipi di slice
Modulo di Allocazione delle Risorse (RAM): Mappa i VNF ai nodi in base alla disponibilità e ai vincoli QoS
Modulo di Monitoraggio: Raccoglie continuamente dati sullo stato delle risorse
Modulo di Ciclo di Vita: Istanzia i network slice accettati e rilascia le risorse alla scadenza

Substrato di Rete Core 5G

Modellato come infrastruttura NFV (NFVI), contenente nodi core (alta capacità) e nodi edge (bassa latenza)
Rappresentato come grafo non orientato ponderato SN = {N,L}, con nodi N aventi capacità CPU e link L aventi larghezza di banda

Funzione di Ricompensa Consapevole della Latenza

L'innovazione principale di DePSAC è la funzione di ricompensa consapevole della latenza:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

Dove:

priorityi: Priorità determinata in base al tipo di slice (URLLC > eMBB > mMTC)
delayi: Intervallo di tempo dalla ricezione alla servizio della richiesta NSL i
To: Tempo di esecuzione dello slice
revenuei e costi: Ricavi e costi operativi

Strategia di Esplorazione di Boltzmann

In sostituzione di epsilon-greedy, adotta l'esplorazione di Boltzmann:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

Dove τ è il parametro di temperatura, che regola la diversità dell'esplorazione. Una τ elevata incoraggia l'esplorazione, una τ bassa promuove lo sfruttamento.

Punti di Innovazione Tecnica

Meccanismo di Penalità per Latenza: Introducendo un termine di penalità per latenza nella funzione di ricompensa, incentiva l'agente a dare priorità ai network slice sensibili alla latenza
Strategia di Esplorazione Fluida: L'esplorazione di Boltzmann seleziona le azioni basandosi su una distribuzione di probabilità dei valori Q, evitando comportamenti puramente casuali o avidi
Ottimizzazione Multi-Obiettivo: Considera simultaneamente la massimizzazione del profitto e la minimizzazione della latenza, realizzando un miglior compromesso QoS-profitto

Configurazione Sperimentale

Dataset

Rete Substrato: Topologia Barabási-Albert a 64 nodi, catturando le caratteristiche scale-free dell'infrastruttura 5G reale
Richieste di Slice: NSLR generate dinamicamente, contenenti tre tipi di servizio (eMBB, URLLC, mMTC)
Modello di Arrivo: Modelli realistici di arrivo delle richieste di network slice

Metriche di Valutazione

Profitto (Profit): Ricavo totale ottenuto dagli NSP dal servizio delle richieste di network slice meno i costi operativi
Tasso di Accettazione (AR): Proporzione di NSLR ammesse con successo, AR = req_a / req_t
Latenza (Delay): Tempo di servizio dopo l'arrivo della richiesta, Delay = T_finished - T_arrival
Consumo di Risorse (C): Proporzione di risorse di elaborazione e larghezza di banda allocate ai network slice accettati

Metodi di Confronto

Baseline: Metodo DSARA, framework di controllo di ammissione e allocazione di risorse congiunto basato su DRL

Dettagli di Implementazione

Ambiente di Sviluppo: Python 3, progettazione orientata agli oggetti modulare
Piattaforma Hardware: Processore AMD Ryzen 5, 16GB RAM, Windows 11
Elaborazione Grafica: Libreria NetworkX per gestire le rappresentazioni grafiche della rete substrato e degli NSLR
Simulatore: Simulatore di eventi discreti integrato con agente DRL consapevole della latenza

Risultati Sperimentali

Risultati Principali

Prestazioni di Profitto

Profitto Complessivo: DePSAC mostra profitto leggermente inferiore a DSARA nelle fasi iniziali di addestramento a causa dell'esplorazione, ma supera costantemente il baseline con il progredire dell'addestramento
Profitto per Categoria: Miglioramenti in tutti i tipi di servizio (eMBB, URLLC, mMTC), con il miglioramento più significativo per URLLC

Prestazioni di Latenza

Latenza Complessiva: DePSAC realizza latenza media inferiore rispetto a DSARA
Latenza URLLC: Riduzione significativa della latenza rispetto a DSARA, verificando la prioritizzazione efficace dei network slice critici nel tempo
Altri Tipi di Servizio: Riduzione moderata ma continua della latenza per mMTC, convergenza della latenza eMBB a valori inferiori al baseline dopo il periodo di esplorazione

Prestazioni del Tasso di Accettazione

Tasso di Accettazione Complessivo: DePSAC alla fine supera DSARA, rilasciando le risorse più rapidamente dal servizio delle richieste, consentendo l'accettazione di più richieste
Tasso di Accettazione URLLC: Miglioramento significativo, riflettendo l'apprendimento dell'agente della prioritizzazione delle richieste sensibili alla latenza
Tasso di Accettazione eMBB: Aumento moderato
Tasso di Accettazione mMTC: Leggera diminuzione ma entro intervalli accettabili

Prestazioni del Consumo di Risorse

Consumo Complessivo: DePSAC mostra una leggera riduzione del consumo di risorse negli stadi successivi dell'addestramento
Efficienza della Larghezza di Banda: Riduzione dell'utilizzo totale della larghezza di banda dovuta alla prioritizzazione dei network slice URLLC con requisiti di risorse inferiori
Utilizzo della CPU: Rimane coerente o mostra leggeri miglioramenti

Esperimenti di Ablazione

L'articolo verifica l'efficacia della funzione di ricompensa consapevole della latenza e dell'esplorazione di Boltzmann attraverso il confronto con DSARA, ma non fornisce un'analisi dettagliata dell'ablazione a livello di componenti.

Scoperte Sperimentali

Equilibrio Latenza-Profitto: La penalità di latenza non compromette la redditività; l'agente apprende a bilanciare efficacemente e persino a migliorare la massimizzazione dei ricavi degli NSP
Differenziazione dei Servizi: Realizza con successo la prioritizzazione dei servizi sensibili alla latenza mantenendo le prestazioni di altri tipi di servizio
Efficienza delle Risorse: Realizza embedding più compatto e efficiente in termini di latenza attraverso decisioni intelligenti di ammissione
Stabilità di Convergenza: L'esplorazione di Boltzmann promuove convergenza più fluida e stabile

Lavori Correlati

Principali Direzioni di Ricerca

Metodi di Slicing Basati sulla Teoria delle Code: Han et al. propongono metodi di slicing multi-servizio guidati dall'utilità
Analisi Predittiva dei Big Data: Raza et al. utilizzano la previsione del traffico per migliorare il profitto del fornitore
Ottimizzazione del Posizionamento VNF: Zhang et al. introducono metodi euristici di posizionamento VNF
Metodi di Apprendimento per Rinforzo: William et al. propongono i modelli SARA e DSARA

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo considera esplicitamente per la prima volta sia la latenza che il profitto nel framework DRL, adottando una strategia di esplorazione più stabile.

Conclusioni e Discussione

Conclusioni Principali

DePSAC, attraverso la progettazione della ricompensa consapevole della latenza, consente all'agente DRL di bilanciare efficacemente gli obiettivi di redditività e QoS
L'esplorazione di Boltzmann realizza convergenza più fluida e stabile rispetto alla strategia epsilon-greedy
Supera costantemente il metodo baseline DSARA su molteplici metriche di prestazione

Limitazioni

Limitazioni dell'Ambiente di Simulazione: Verificato solo in ambiente simulato, mancanza di verifica in distribuzione di rete reale
Sensibilità ai Parametri: Analisi insufficiente della sensibilità del parametro di temperatura τ e dei pesi di priorità
Analisi di Scalabilità: Non valuta le prestazioni in reti di scala più grande
Adattabilità Dinamica: Capacità limitata di adattamento a condizioni di rete e modelli di traffico dinamicamente mutevoli

Direzioni Future

Architettura 5G Federata: Estendere DePSAC per supportare architetture 5G federate
Valutazione del Carico Dinamico: Valutare la robustezza sotto carichi di traffico dinamici
Supporto della Mobilità: Valutare scenari di mobilità utilizzando traiettorie di distribuzione reali
Verifica di Distribuzione Reale: Verificare l'efficacia del metodo in reti 5G reali

Valutazione Approfondita

Punti di Forza

Forte Specificità del Problema: Identifica chiaramente il problema chiave del trascuramento del fattore latenza nei metodi esistenti
Progettazione del Metodo Ragionevole: La progettazione della funzione di ricompensa consapevole della latenza è intuitiva ed efficace
Miglioramento Tecnico Fondato: L'adozione dell'esplorazione di Boltzmann ha fondamenti teorici sufficienti
Progettazione Sperimentale Completa: Metriche di valutazione multidimensionali, verifica completa dell'efficacia del metodo
Forte Convincenza dei Risultati: Mostra miglioramenti su tutti gli indicatori chiave

Insufficienze

Analisi Teorica Insufficiente: Mancanza di garanzie teoriche sulla convergenza e l'ottimalità
Mancanza di Guida per l'Ottimizzazione dei Parametri: Non fornisce guida sulla selezione del parametro di temperatura e dei pesi di priorità
Mancanza di Analisi della Complessità Computazionale: Non analizza l'overhead computazionale rispetto al metodo baseline
Verifica di Robustezza Insufficiente: Non testa le prestazioni sotto traffico anomalo o guasti di rete
Considerazioni di Distribuzione Reale Insufficienti: Mancanza di discussione sulle sfide che potrebbero essere incontrate nella distribuzione reale

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'ottimizzazione multi-obiettivo del network slicing 5G
Valore Pratico: Il metodo ha un forte potenziale di applicazione pratica
Riproducibilità: Fornisce dettagli di implementazione sufficienti per facilitare la riproduzione
Generalizzabilità: L'idea consapevole della latenza può essere generalizzata ad altri problemi di ottimizzazione di rete

Scenari Applicabili

Operatori di Rete 5G: Gestione del network slicing che bilancia QoS e profitto
Ambienti di Calcolo Edge: Distribuzione e allocazione di risorse per servizi sensibili alla latenza
Reti Multi-Tenant: Ambienti di rete virtualizzata che richiedono differenziazione dei servizi
Supporto di Applicazioni in Tempo Reale: Applicazioni critiche per la latenza come IoT industriale e guida autonoma

Bibliografia

L'articolo cita 12 riferimenti correlati, coprendo lavori importanti nei campi del network slicing 5G, apprendimento per rinforzo profondo e allocazione di risorse, fornendo una base teorica sufficiente e benchmark di confronto per la ricerca.

Valutazione Complessiva: Questo articolo affronta il problema del compromesso latenza-profitto nel controllo di ammissione del network slicing 5G, proponendo una soluzione innovativa e pratica. La progettazione del metodo è ragionevole, la verifica sperimentale è completa e ha un buon valore accademico e prospettive di applicazione nel campo. Le principali insufficienze risiedono nell'analisi teorica e nelle considerazioni di distribuzione reale, dove c'è ancora spazio per miglioramenti.