2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.

5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.

academic

Priorizando la Latencia con Ganancia: Control de Admisión Basado en DRL para Segmentación de Redes 5G

Información Básica

ID del Artículo: 2510.08769
Título: Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices
Autores: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
Clasificación: cs.NI (Arquitectura de Redes e Internet), cs.LG (Aprendizaje Automático), cs.PF (Rendimiento)
Fecha de Publicación: Enviado a arXiv el 9 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.08769v1

Resumen

Este artículo propone DePSAC (Control de Admisión de Segmentos Consciente de Retardo y Ganancia) para abordar el problema del control de admisión en segmentación de redes 5G. El esquema utiliza un marco de aprendizaje por refuerzo profundo para maximizar la ganancia del proveedor de servicios de red mientras considera explícitamente la latencia del servicio, particularmente la priorización de segmentos URLLC sensibles al retardo. El esquema emplea una función de recompensa consciente del retardo y una estrategia de exploración de Boltzmann, verificando mejoras respecto al método de referencia DSARA en ganancia, retardo, tasa de aceptación y consumo de recursos en una red central 5G simulada.

Antecedentes de Investigación y Motivación

Definición del Problema

Las redes 5G soportan servicios diversificados a través de tecnología de segmentación de redes, incluyendo banda ancha móvil mejorada (eMBB), comunicación ultraconfiable de baja latencia (URLLC) y comunicación masiva de tipo máquina (mMTC). Estos servicios tienen requisitos heterogéneos de QoS, requiriendo estrategias inteligentes de control de admisión y asignación de recursos para equilibrar requisitos estrictos de QoS y rentabilidad del proveedor de servicios de red (NSP).

Importancia del Problema

Desafío de Diversidad de Servicios: Diferentes tipos de segmentos tienen requisitos distintos de latencia, confiabilidad y ancho de banda
Necesidad de Optimización de Recursos: Los recursos físicos limitados deben asignarse eficientemente entre múltiples redes virtuales
Viabilidad Comercial: Los NSP necesitan garantizar rentabilidad mientras satisfacen QoS

Limitaciones de Métodos Existentes

Ignorancia del Factor de Latencia: Los marcos DRL existentes se enfocaban principalmente en optimización de ganancias, sin considerar explícitamente la latencia del servicio
Inestabilidad de Estrategia de Exploración: La estrategia de exploración epsilon-greedy causa convergencia inestable y aprendizaje de políticas subóptimas
Riesgo de Violación de QoS: Los servicios sensibles a latencia (como URLLC) pueden experimentar violaciones de QoS

Motivación de la Investigación

Aunque el método de referencia DSARA puede maximizar efectivamente la ganancia, no considera las diferencias de latencia entre tipos de segmentos, lo que podría causar violaciones de QoS. Este artículo busca desarrollar un esquema de control de admisión de segmentos que considere simultáneamente latencia y ganancia.

Contribuciones Principales

Función de Recompensa Consciente de Latencia: Propone una fórmula de recompensa consciente de ganancia-latencia que equilibra requisitos de QoS y rentabilidad de NSP
Estrategia de Exploración de Boltzmann: Integra exploración de Boltzmann en el agente DRL, mejorando la estabilidad del aprendizaje y evitando problemas de óptimos locales del método epsilon-greedy
Evaluación Experimental Integral: Implementa DePSAC en una red central 5G simulada, evaluando con patrones realistas de llegada de solicitudes de segmentación de redes
Verificación de Mejora de Rendimiento: Los resultados experimentales verifican las mejoras de DePSAC en el equilibrio ganancia-QoS, logrando menor latencia de servicio, mayor tasa de aceptación y menor utilización de ancho de banda

Explicación Detallada del Método

Definición de la Tarea

Entrada: Flujo de solicitudes de segmentación de redes (NSLR), incluyendo tipo de segmento, requisitos de recursos, tiempo de ejecución Salida: Decisiones de admisión y política de asignación de recursos Objetivo: Maximizar ganancia de NSP mientras se minimiza latencia del servicio, particularmente para segmentos URLLC

Arquitectura del Modelo

Arquitectura del Sistema

Adopta la arquitectura del sistema del marco DeepSARA, incluyendo cuatro módulos principales:

Módulo de Control de Admisión (ACM): Utiliza agente DRL para asignar pesos de prioridad a tipos de segmentos
Módulo de Asignación de Recursos (RAM): Mapea VNF a nodos basándose en disponibilidad y restricciones de QoS
Módulo de Monitoreo: Recopila continuamente datos de estado de recursos
Módulo de Ciclo de Vida: Instancia segmentos aceptados y libera recursos al vencimiento

Sustrato de Red Central 5G

Modelado como infraestructura NFV (NFVI), incluyendo nodos centrales (alta capacidad) y nodos periféricos (baja latencia)
Representado como grafo no dirigido ponderado SN = {N,L}, donde nodos N tienen capacidad CPU y enlaces L tienen ancho de banda

Función de Recompensa Consciente de Latencia

La innovación central de DePSAC es la función de recompensa consciente de latencia:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

Donde:

priorityi: Prioridad determinada según tipo de segmento (URLLC > eMBB > mMTC)
delayi: Intervalo de tiempo desde llegada hasta servicio de solicitud NSL i
To: Tiempo de ejecución del segmento
revenuei y costi: Ingresos y costos operacionales

Estrategia de Exploración de Boltzmann

Reemplaza epsilon-greedy adoptando exploración de Boltzmann:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

Donde τ es el parámetro de temperatura, ajustando la diversidad de exploración. τ alto fomenta exploración, τ bajo promueve explotación.

Puntos de Innovación Técnica

Mecanismo de Penalización de Latencia: Introduce término de penalización de latencia en la función de recompensa, incentivando al agente a priorizar segmentos sensibles a latencia
Estrategia de Exploración Suave: La exploración de Boltzmann selecciona acciones basándose en distribución de probabilidad de valores Q, evitando comportamiento puramente aleatorio o codicioso
Optimización Multiobjetivo: Considera simultáneamente maximización de ganancia y minimización de latencia, logrando mejor equilibrio QoS-ganancia

Configuración Experimental

Conjunto de Datos

Red Sustrato: Topología Barabási-Albert de 64 nodos, capturando características de libre escala de infraestructura 5G real
Solicitudes de Segmento: NSLR generadas dinámicamente, incluyendo tres tipos de servicio (eMBB, URLLC, mMTC)
Patrón de Llegada: Patrón realista de llegada de solicitudes de segmentación de redes

Métricas de Evaluación

Ganancia (Profit): Ingresos totales menos costos operacionales obtenidos por NSP al servir solicitudes de segmentación de redes
Tasa de Aceptación (AR): Proporción de NSLR admitidas exitosamente, AR = req_a / req_t
Latencia (Delay): Tiempo de servicio después de llegada de solicitud, Delay = T_finished - T_arrival
Consumo de Recursos (C): Proporción de recursos de procesamiento y ancho de banda asignados a segmentos aceptados

Métodos de Comparación

Línea Base: Método DSARA, marco de control de admisión y asignación de recursos conjunta basado en DRL

Detalles de Implementación

Entorno de Desarrollo: Python 3, diseño orientado a objetos modular
Plataforma de Hardware: Procesador AMD Ryzen 5, 16GB RAM, Windows 11
Procesamiento de Grafos: Biblioteca NetworkX para gestionar representaciones gráficas de red sustrato y NSLR
Simulador: Simulador de eventos discretos integrado con agente DRL consciente de latencia

Resultados Experimentales

Resultados Principales

Rendimiento de Ganancia

Ganancia General: DePSAC es ligeramente inferior a DSARA en etapas iniciales de entrenamiento debido a exploración, pero supera consistentemente la línea base conforme avanza el entrenamiento
Ganancia por Categoría: Mejora en ganancia para todos los tipos de servicio (eMBB, URLLC, mMTC), con mejora más significativa en URLLC

Rendimiento de Latencia

Latencia General: DePSAC logra menor latencia promedio comparado con DSARA
Latencia URLLC: Reducción significativa de latencia respecto a DSARA, verificando manejo efectivo de priorización de segmentos críticos en tiempo
Otros Tipos de Servicio: Reducción moderada pero consistente de latencia en mMTC, latencia eMBB converge a valor inferior a línea base después de período de exploración

Rendimiento de Tasa de Aceptación

Tasa de Aceptación General: DePSAC finalmente supera DSARA, liberando recursos mediante servicio más rápido de solicitudes, permitiendo aceptación de más solicitudes
Tasa de Aceptación URLLC: Mejora significativa, reflejando aprendizaje del agente de priorización de solicitudes sensibles a latencia
Tasa de Aceptación eMBB: Aumento moderado
Tasa de Aceptación mMTC: Ligera disminución pero dentro de rango aceptable

Rendimiento de Consumo de Recursos

Consumo General: DePSAC demuestra ligera reducción de consumo de recursos en etapas posteriores de entrenamiento
Eficiencia de Ancho de Banda: Uso total de ancho de banda reducido debido a priorización de segmentos URLLC con requisitos de recursos más bajos
Utilización de CPU: Se mantiene consistente o con ligera mejora

Experimentos de Ablación

El artículo verifica la efectividad de la función de recompensa consciente de latencia y exploración de Boltzmann mediante comparación con DSARA, pero no proporciona análisis detallado de ablación a nivel de componentes.

Hallazgos Experimentales

Equilibrio Latencia-Ganancia: La penalización de latencia no daña rentabilidad; el agente aprende a equilibrar efectivamente e incluso mejorar maximización de ingresos NSP
Diferenciación de Servicios: Logra exitosamente priorización de servicios sensibles a latencia mientras mantiene rendimiento de otros tipos de servicio
Eficiencia de Recursos: Logra incrustación más compacta y eficiente en latencia mediante decisiones inteligentes de admisión
Estabilidad de Convergencia: La exploración de Boltzmann promueve convergencia más suave y estable

Trabajo Relacionado

Direcciones de Investigación Principales

Métodos de Segmentación Basados en Teoría de Colas: Han et al. proponen método de segmentación multiservicio impulsado por utilidad
Predicción con Análisis de Grandes Datos: Raza et al. utilizan predicción de tráfico para mejorar ganancia de proveedores
Optimización de Colocación de VNF: Zhang et al. introducen método heurístico de colocación de VNF
Métodos de Aprendizaje por Refuerzo: William et al. proponen modelos SARA y DSARA

Ventajas de Este Artículo

Comparado con trabajo existente, este artículo es el primero en considerar explícitamente simultáneamente latencia y ganancia en marco DRL, adoptando estrategia de exploración más estable.

Conclusiones y Discusión

Conclusiones Principales

DePSAC, mediante diseño de recompensa consciente de latencia, permite que agente DRL equilibre efectivamente objetivos de rentabilidad y QoS
La exploración de Boltzmann logra convergencia más suave y estable comparada con estrategia epsilon-greedy
Supera consistentemente método de referencia DSARA en múltiples métricas de rendimiento

Limitaciones

Limitaciones de Entorno de Simulación: Verificación solo en entorno simulado, falta validación en despliegue de red real
Sensibilidad de Parámetros: Análisis insuficiente de sensibilidad del parámetro de temperatura τ y pesos de prioridad
Análisis de Escalabilidad: No evalúa rendimiento en redes de mayor escala
Adaptabilidad Dinámica: Capacidad limitada de adaptación a condiciones de red dinámicas y patrones de tráfico

Direcciones Futuras

Arquitectura 5G Federada: Extender DePSAC para soportar arquitectura 5G federada
Evaluación de Carga Dinámica: Evaluar robustez bajo carga de tráfico dinámico
Soporte de Movilidad: Evaluar escenarios de movilidad usando trayectorias de despliegue real
Validación de Despliegue Real: Verificar efectividad del método en redes 5G reales

Evaluación Profunda

Fortalezas

Problema Altamente Específico: Identifica claramente problema clave de métodos existentes ignorando factor de latencia
Innovación Metodológica Razonable: Diseño de función de recompensa consciente de latencia es intuitivo y efectivo
Mejora Técnica Fundamentada: Adopción de exploración de Boltzmann tiene fundamento teórico suficiente
Diseño Experimental Completo: Métricas de evaluación multidimensionales, verificación integral de efectividad del método
Resultados Convincentes: Demuestra mejora en todos los indicadores clave

Insuficiencias

Análisis Teórico Incompleto: Falta garantías teóricas de convergencia y optimalidad
Falta Guía de Ajuste de Parámetros: No proporciona orientación para selección de parámetro de temperatura y pesos de prioridad
Análisis de Complejidad Computacional Ausente: No analiza costo computacional comparado con método de referencia
Verificación de Robustez Insuficiente: No prueba rendimiento bajo tráfico anómalo o fallos de red
Consideración de Despliegue Real Insuficiente: Falta discusión de desafíos que podrían encontrarse en despliegue real

Impacto

Contribución Académica: Proporciona nuevas perspectivas para optimización multiobjetivo en segmentación de redes 5G
Valor Práctico: El método tiene fuerte potencial de aplicación práctica
Reproducibilidad: Proporciona detalles de implementación suficientes para facilitar reproducción
Generalización: El pensamiento consciente de latencia puede generalizarse a otros problemas de optimización de redes

Escenarios Aplicables

Operadores de Redes 5G: Gestión de segmentación de redes que necesita equilibrar QoS y ganancia
Entornos de Computación Periférica: Despliegue y asignación de recursos de servicios sensibles a latencia
Redes Multiinquilino: Entornos de red virtualizada que requieren diferenciación de servicios
Soporte de Aplicaciones en Tiempo Real: Aplicaciones críticas en latencia como IoT industrial y conducción autónoma

Referencias

El artículo cita 12 referencias relacionadas, cubriendo trabajos importantes en segmentación de redes 5G, aprendizaje por refuerzo profundo, asignación de recursos y otros campos clave, proporcionando base teórica suficiente y puntos de referencia de comparación para la investigación.

Evaluación General: Este artículo aborda el problema del equilibrio latencia-ganancia en control de admisión de segmentación de redes 5G, proponiendo solución innovadora y práctica. El diseño del método es razonable, la verificación experimental es completa, y posee buen valor académico y perspectivas de aplicación en el campo. Las principales insuficiencias radican en análisis teórico y consideraciones de despliegue real, con espacio para mejora.