2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.
5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.
academic

Priorizando la Latencia con Ganancia: Control de Admisión Basado en DRL para Segmentación de Redes 5G

Información Básica

  • ID del Artículo: 2510.08769
  • Título: Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices
  • Autores: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
  • Clasificación: cs.NI (Arquitectura de Redes e Internet), cs.LG (Aprendizaje Automático), cs.PF (Rendimiento)
  • Fecha de Publicación: Enviado a arXiv el 9 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.08769v1

Resumen

Este artículo propone DePSAC (Control de Admisión de Segmentos Consciente de Retardo y Ganancia) para abordar el problema del control de admisión en segmentación de redes 5G. El esquema utiliza un marco de aprendizaje por refuerzo profundo para maximizar la ganancia del proveedor de servicios de red mientras considera explícitamente la latencia del servicio, particularmente la priorización de segmentos URLLC sensibles al retardo. El esquema emplea una función de recompensa consciente del retardo y una estrategia de exploración de Boltzmann, verificando mejoras respecto al método de referencia DSARA en ganancia, retardo, tasa de aceptación y consumo de recursos en una red central 5G simulada.

Antecedentes de Investigación y Motivación

Definición del Problema

Las redes 5G soportan servicios diversificados a través de tecnología de segmentación de redes, incluyendo banda ancha móvil mejorada (eMBB), comunicación ultraconfiable de baja latencia (URLLC) y comunicación masiva de tipo máquina (mMTC). Estos servicios tienen requisitos heterogéneos de QoS, requiriendo estrategias inteligentes de control de admisión y asignación de recursos para equilibrar requisitos estrictos de QoS y rentabilidad del proveedor de servicios de red (NSP).

Importancia del Problema

  1. Desafío de Diversidad de Servicios: Diferentes tipos de segmentos tienen requisitos distintos de latencia, confiabilidad y ancho de banda
  2. Necesidad de Optimización de Recursos: Los recursos físicos limitados deben asignarse eficientemente entre múltiples redes virtuales
  3. Viabilidad Comercial: Los NSP necesitan garantizar rentabilidad mientras satisfacen QoS

Limitaciones de Métodos Existentes

  1. Ignorancia del Factor de Latencia: Los marcos DRL existentes se enfocaban principalmente en optimización de ganancias, sin considerar explícitamente la latencia del servicio
  2. Inestabilidad de Estrategia de Exploración: La estrategia de exploración epsilon-greedy causa convergencia inestable y aprendizaje de políticas subóptimas
  3. Riesgo de Violación de QoS: Los servicios sensibles a latencia (como URLLC) pueden experimentar violaciones de QoS

Motivación de la Investigación

Aunque el método de referencia DSARA puede maximizar efectivamente la ganancia, no considera las diferencias de latencia entre tipos de segmentos, lo que podría causar violaciones de QoS. Este artículo busca desarrollar un esquema de control de admisión de segmentos que considere simultáneamente latencia y ganancia.

Contribuciones Principales

  1. Función de Recompensa Consciente de Latencia: Propone una fórmula de recompensa consciente de ganancia-latencia que equilibra requisitos de QoS y rentabilidad de NSP
  2. Estrategia de Exploración de Boltzmann: Integra exploración de Boltzmann en el agente DRL, mejorando la estabilidad del aprendizaje y evitando problemas de óptimos locales del método epsilon-greedy
  3. Evaluación Experimental Integral: Implementa DePSAC en una red central 5G simulada, evaluando con patrones realistas de llegada de solicitudes de segmentación de redes
  4. Verificación de Mejora de Rendimiento: Los resultados experimentales verifican las mejoras de DePSAC en el equilibrio ganancia-QoS, logrando menor latencia de servicio, mayor tasa de aceptación y menor utilización de ancho de banda

Explicación Detallada del Método

Definición de la Tarea

Entrada: Flujo de solicitudes de segmentación de redes (NSLR), incluyendo tipo de segmento, requisitos de recursos, tiempo de ejecución Salida: Decisiones de admisión y política de asignación de recursos Objetivo: Maximizar ganancia de NSP mientras se minimiza latencia del servicio, particularmente para segmentos URLLC

Arquitectura del Modelo

Arquitectura del Sistema

Adopta la arquitectura del sistema del marco DeepSARA, incluyendo cuatro módulos principales:

  1. Módulo de Control de Admisión (ACM): Utiliza agente DRL para asignar pesos de prioridad a tipos de segmentos
  2. Módulo de Asignación de Recursos (RAM): Mapea VNF a nodos basándose en disponibilidad y restricciones de QoS
  3. Módulo de Monitoreo: Recopila continuamente datos de estado de recursos
  4. Módulo de Ciclo de Vida: Instancia segmentos aceptados y libera recursos al vencimiento

Sustrato de Red Central 5G

  • Modelado como infraestructura NFV (NFVI), incluyendo nodos centrales (alta capacidad) y nodos periféricos (baja latencia)
  • Representado como grafo no dirigido ponderado SN = {N,L}, donde nodos N tienen capacidad CPU y enlaces L tienen ancho de banda

Función de Recompensa Consciente de Latencia

La innovación central de DePSAC es la función de recompensa consciente de latencia:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

Donde:

  • priorityi: Prioridad determinada según tipo de segmento (URLLC > eMBB > mMTC)
  • delayi: Intervalo de tiempo desde llegada hasta servicio de solicitud NSL i
  • To: Tiempo de ejecución del segmento
  • revenuei y costi: Ingresos y costos operacionales

Estrategia de Exploración de Boltzmann

Reemplaza epsilon-greedy adoptando exploración de Boltzmann:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

Donde τ es el parámetro de temperatura, ajustando la diversidad de exploración. τ alto fomenta exploración, τ bajo promueve explotación.

Puntos de Innovación Técnica

  1. Mecanismo de Penalización de Latencia: Introduce término de penalización de latencia en la función de recompensa, incentivando al agente a priorizar segmentos sensibles a latencia
  2. Estrategia de Exploración Suave: La exploración de Boltzmann selecciona acciones basándose en distribución de probabilidad de valores Q, evitando comportamiento puramente aleatorio o codicioso
  3. Optimización Multiobjetivo: Considera simultáneamente maximización de ganancia y minimización de latencia, logrando mejor equilibrio QoS-ganancia

Configuración Experimental

Conjunto de Datos

  • Red Sustrato: Topología Barabási-Albert de 64 nodos, capturando características de libre escala de infraestructura 5G real
  • Solicitudes de Segmento: NSLR generadas dinámicamente, incluyendo tres tipos de servicio (eMBB, URLLC, mMTC)
  • Patrón de Llegada: Patrón realista de llegada de solicitudes de segmentación de redes

Métricas de Evaluación

  1. Ganancia (Profit): Ingresos totales menos costos operacionales obtenidos por NSP al servir solicitudes de segmentación de redes
  2. Tasa de Aceptación (AR): Proporción de NSLR admitidas exitosamente, AR = req_a / req_t
  3. Latencia (Delay): Tiempo de servicio después de llegada de solicitud, Delay = T_finished - T_arrival
  4. Consumo de Recursos (C): Proporción de recursos de procesamiento y ancho de banda asignados a segmentos aceptados

Métodos de Comparación

  • Línea Base: Método DSARA, marco de control de admisión y asignación de recursos conjunta basado en DRL

Detalles de Implementación

  • Entorno de Desarrollo: Python 3, diseño orientado a objetos modular
  • Plataforma de Hardware: Procesador AMD Ryzen 5, 16GB RAM, Windows 11
  • Procesamiento de Grafos: Biblioteca NetworkX para gestionar representaciones gráficas de red sustrato y NSLR
  • Simulador: Simulador de eventos discretos integrado con agente DRL consciente de latencia

Resultados Experimentales

Resultados Principales

Rendimiento de Ganancia

  • Ganancia General: DePSAC es ligeramente inferior a DSARA en etapas iniciales de entrenamiento debido a exploración, pero supera consistentemente la línea base conforme avanza el entrenamiento
  • Ganancia por Categoría: Mejora en ganancia para todos los tipos de servicio (eMBB, URLLC, mMTC), con mejora más significativa en URLLC

Rendimiento de Latencia

  • Latencia General: DePSAC logra menor latencia promedio comparado con DSARA
  • Latencia URLLC: Reducción significativa de latencia respecto a DSARA, verificando manejo efectivo de priorización de segmentos críticos en tiempo
  • Otros Tipos de Servicio: Reducción moderada pero consistente de latencia en mMTC, latencia eMBB converge a valor inferior a línea base después de período de exploración

Rendimiento de Tasa de Aceptación

  • Tasa de Aceptación General: DePSAC finalmente supera DSARA, liberando recursos mediante servicio más rápido de solicitudes, permitiendo aceptación de más solicitudes
  • Tasa de Aceptación URLLC: Mejora significativa, reflejando aprendizaje del agente de priorización de solicitudes sensibles a latencia
  • Tasa de Aceptación eMBB: Aumento moderado
  • Tasa de Aceptación mMTC: Ligera disminución pero dentro de rango aceptable

Rendimiento de Consumo de Recursos

  • Consumo General: DePSAC demuestra ligera reducción de consumo de recursos en etapas posteriores de entrenamiento
  • Eficiencia de Ancho de Banda: Uso total de ancho de banda reducido debido a priorización de segmentos URLLC con requisitos de recursos más bajos
  • Utilización de CPU: Se mantiene consistente o con ligera mejora

Experimentos de Ablación

El artículo verifica la efectividad de la función de recompensa consciente de latencia y exploración de Boltzmann mediante comparación con DSARA, pero no proporciona análisis detallado de ablación a nivel de componentes.

Hallazgos Experimentales

  1. Equilibrio Latencia-Ganancia: La penalización de latencia no daña rentabilidad; el agente aprende a equilibrar efectivamente e incluso mejorar maximización de ingresos NSP
  2. Diferenciación de Servicios: Logra exitosamente priorización de servicios sensibles a latencia mientras mantiene rendimiento de otros tipos de servicio
  3. Eficiencia de Recursos: Logra incrustación más compacta y eficiente en latencia mediante decisiones inteligentes de admisión
  4. Estabilidad de Convergencia: La exploración de Boltzmann promueve convergencia más suave y estable

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Métodos de Segmentación Basados en Teoría de Colas: Han et al. proponen método de segmentación multiservicio impulsado por utilidad
  2. Predicción con Análisis de Grandes Datos: Raza et al. utilizan predicción de tráfico para mejorar ganancia de proveedores
  3. Optimización de Colocación de VNF: Zhang et al. introducen método heurístico de colocación de VNF
  4. Métodos de Aprendizaje por Refuerzo: William et al. proponen modelos SARA y DSARA

Ventajas de Este Artículo

Comparado con trabajo existente, este artículo es el primero en considerar explícitamente simultáneamente latencia y ganancia en marco DRL, adoptando estrategia de exploración más estable.

Conclusiones y Discusión

Conclusiones Principales

  1. DePSAC, mediante diseño de recompensa consciente de latencia, permite que agente DRL equilibre efectivamente objetivos de rentabilidad y QoS
  2. La exploración de Boltzmann logra convergencia más suave y estable comparada con estrategia epsilon-greedy
  3. Supera consistentemente método de referencia DSARA en múltiples métricas de rendimiento

Limitaciones

  1. Limitaciones de Entorno de Simulación: Verificación solo en entorno simulado, falta validación en despliegue de red real
  2. Sensibilidad de Parámetros: Análisis insuficiente de sensibilidad del parámetro de temperatura τ y pesos de prioridad
  3. Análisis de Escalabilidad: No evalúa rendimiento en redes de mayor escala
  4. Adaptabilidad Dinámica: Capacidad limitada de adaptación a condiciones de red dinámicas y patrones de tráfico

Direcciones Futuras

  1. Arquitectura 5G Federada: Extender DePSAC para soportar arquitectura 5G federada
  2. Evaluación de Carga Dinámica: Evaluar robustez bajo carga de tráfico dinámico
  3. Soporte de Movilidad: Evaluar escenarios de movilidad usando trayectorias de despliegue real
  4. Validación de Despliegue Real: Verificar efectividad del método en redes 5G reales

Evaluación Profunda

Fortalezas

  1. Problema Altamente Específico: Identifica claramente problema clave de métodos existentes ignorando factor de latencia
  2. Innovación Metodológica Razonable: Diseño de función de recompensa consciente de latencia es intuitivo y efectivo
  3. Mejora Técnica Fundamentada: Adopción de exploración de Boltzmann tiene fundamento teórico suficiente
  4. Diseño Experimental Completo: Métricas de evaluación multidimensionales, verificación integral de efectividad del método
  5. Resultados Convincentes: Demuestra mejora en todos los indicadores clave

Insuficiencias

  1. Análisis Teórico Incompleto: Falta garantías teóricas de convergencia y optimalidad
  2. Falta Guía de Ajuste de Parámetros: No proporciona orientación para selección de parámetro de temperatura y pesos de prioridad
  3. Análisis de Complejidad Computacional Ausente: No analiza costo computacional comparado con método de referencia
  4. Verificación de Robustez Insuficiente: No prueba rendimiento bajo tráfico anómalo o fallos de red
  5. Consideración de Despliegue Real Insuficiente: Falta discusión de desafíos que podrían encontrarse en despliegue real

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para optimización multiobjetivo en segmentación de redes 5G
  2. Valor Práctico: El método tiene fuerte potencial de aplicación práctica
  3. Reproducibilidad: Proporciona detalles de implementación suficientes para facilitar reproducción
  4. Generalización: El pensamiento consciente de latencia puede generalizarse a otros problemas de optimización de redes

Escenarios Aplicables

  1. Operadores de Redes 5G: Gestión de segmentación de redes que necesita equilibrar QoS y ganancia
  2. Entornos de Computación Periférica: Despliegue y asignación de recursos de servicios sensibles a latencia
  3. Redes Multiinquilino: Entornos de red virtualizada que requieren diferenciación de servicios
  4. Soporte de Aplicaciones en Tiempo Real: Aplicaciones críticas en latencia como IoT industrial y conducción autónoma

Referencias

El artículo cita 12 referencias relacionadas, cubriendo trabajos importantes en segmentación de redes 5G, aprendizaje por refuerzo profundo, asignación de recursos y otros campos clave, proporcionando base teórica suficiente y puntos de referencia de comparación para la investigación.


Evaluación General: Este artículo aborda el problema del equilibrio latencia-ganancia en control de admisión de segmentación de redes 5G, proponiendo solución innovadora y práctica. El diseño del método es razonable, la verificación experimental es completa, y posee buen valor académico y perspectivas de aplicación en el campo. Las principales insuficiencias radican en análisis teórico y consideraciones de despliegue real, con espacio para mejora.