Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices
Chakraborty, Asrar, Sengupta et al.
5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.
academic
Priorizando la Latencia con Ganancia: Control de Admisión Basado en DRL para Segmentación de Redes 5G
Este artículo propone DePSAC (Control de Admisión de Segmentos Consciente de Retardo y Ganancia) para abordar el problema del control de admisión en segmentación de redes 5G. El esquema utiliza un marco de aprendizaje por refuerzo profundo para maximizar la ganancia del proveedor de servicios de red mientras considera explícitamente la latencia del servicio, particularmente la priorización de segmentos URLLC sensibles al retardo. El esquema emplea una función de recompensa consciente del retardo y una estrategia de exploración de Boltzmann, verificando mejoras respecto al método de referencia DSARA en ganancia, retardo, tasa de aceptación y consumo de recursos en una red central 5G simulada.
Las redes 5G soportan servicios diversificados a través de tecnología de segmentación de redes, incluyendo banda ancha móvil mejorada (eMBB), comunicación ultraconfiable de baja latencia (URLLC) y comunicación masiva de tipo máquina (mMTC). Estos servicios tienen requisitos heterogéneos de QoS, requiriendo estrategias inteligentes de control de admisión y asignación de recursos para equilibrar requisitos estrictos de QoS y rentabilidad del proveedor de servicios de red (NSP).
Ignorancia del Factor de Latencia: Los marcos DRL existentes se enfocaban principalmente en optimización de ganancias, sin considerar explícitamente la latencia del servicio
Inestabilidad de Estrategia de Exploración: La estrategia de exploración epsilon-greedy causa convergencia inestable y aprendizaje de políticas subóptimas
Riesgo de Violación de QoS: Los servicios sensibles a latencia (como URLLC) pueden experimentar violaciones de QoS
Aunque el método de referencia DSARA puede maximizar efectivamente la ganancia, no considera las diferencias de latencia entre tipos de segmentos, lo que podría causar violaciones de QoS. Este artículo busca desarrollar un esquema de control de admisión de segmentos que considere simultáneamente latencia y ganancia.
Función de Recompensa Consciente de Latencia: Propone una fórmula de recompensa consciente de ganancia-latencia que equilibra requisitos de QoS y rentabilidad de NSP
Estrategia de Exploración de Boltzmann: Integra exploración de Boltzmann en el agente DRL, mejorando la estabilidad del aprendizaje y evitando problemas de óptimos locales del método epsilon-greedy
Evaluación Experimental Integral: Implementa DePSAC en una red central 5G simulada, evaluando con patrones realistas de llegada de solicitudes de segmentación de redes
Verificación de Mejora de Rendimiento: Los resultados experimentales verifican las mejoras de DePSAC en el equilibrio ganancia-QoS, logrando menor latencia de servicio, mayor tasa de aceptación y menor utilización de ancho de banda
Entrada: Flujo de solicitudes de segmentación de redes (NSLR), incluyendo tipo de segmento, requisitos de recursos, tiempo de ejecución
Salida: Decisiones de admisión y política de asignación de recursos
Objetivo: Maximizar ganancia de NSP mientras se minimiza latencia del servicio, particularmente para segmentos URLLC
Mecanismo de Penalización de Latencia: Introduce término de penalización de latencia en la función de recompensa, incentivando al agente a priorizar segmentos sensibles a latencia
Estrategia de Exploración Suave: La exploración de Boltzmann selecciona acciones basándose en distribución de probabilidad de valores Q, evitando comportamiento puramente aleatorio o codicioso
Optimización Multiobjetivo: Considera simultáneamente maximización de ganancia y minimización de latencia, logrando mejor equilibrio QoS-ganancia
Ganancia General: DePSAC es ligeramente inferior a DSARA en etapas iniciales de entrenamiento debido a exploración, pero supera consistentemente la línea base conforme avanza el entrenamiento
Ganancia por Categoría: Mejora en ganancia para todos los tipos de servicio (eMBB, URLLC, mMTC), con mejora más significativa en URLLC
Latencia General: DePSAC logra menor latencia promedio comparado con DSARA
Latencia URLLC: Reducción significativa de latencia respecto a DSARA, verificando manejo efectivo de priorización de segmentos críticos en tiempo
Otros Tipos de Servicio: Reducción moderada pero consistente de latencia en mMTC, latencia eMBB converge a valor inferior a línea base después de período de exploración
Tasa de Aceptación General: DePSAC finalmente supera DSARA, liberando recursos mediante servicio más rápido de solicitudes, permitiendo aceptación de más solicitudes
Tasa de Aceptación URLLC: Mejora significativa, reflejando aprendizaje del agente de priorización de solicitudes sensibles a latencia
Tasa de Aceptación eMBB: Aumento moderado
Tasa de Aceptación mMTC: Ligera disminución pero dentro de rango aceptable
El artículo verifica la efectividad de la función de recompensa consciente de latencia y exploración de Boltzmann mediante comparación con DSARA, pero no proporciona análisis detallado de ablación a nivel de componentes.
Equilibrio Latencia-Ganancia: La penalización de latencia no daña rentabilidad; el agente aprende a equilibrar efectivamente e incluso mejorar maximización de ingresos NSP
Diferenciación de Servicios: Logra exitosamente priorización de servicios sensibles a latencia mientras mantiene rendimiento de otros tipos de servicio
Eficiencia de Recursos: Logra incrustación más compacta y eficiente en latencia mediante decisiones inteligentes de admisión
Estabilidad de Convergencia: La exploración de Boltzmann promueve convergencia más suave y estable
Comparado con trabajo existente, este artículo es el primero en considerar explícitamente simultáneamente latencia y ganancia en marco DRL, adoptando estrategia de exploración más estable.
El artículo cita 12 referencias relacionadas, cubriendo trabajos importantes en segmentación de redes 5G, aprendizaje por refuerzo profundo, asignación de recursos y otros campos clave, proporcionando base teórica suficiente y puntos de referencia de comparación para la investigación.
Evaluación General: Este artículo aborda el problema del equilibrio latencia-ganancia en control de admisión de segmentación de redes 5G, proponiendo solución innovadora y práctica. El diseño del método es razonable, la verificación experimental es completa, y posee buen valor académico y perspectivas de aplicación en el campo. Las principales insuficiencias radican en análisis teórico y consideraciones de despliegue real, con espacio para mejora.