2025-11-20T20:04:15.567359

Adversarial-Resilient RF Fingerprinting: A CNN-GAN Framework for Rogue Transmitter Detection

Dhakal, Shekhar, Kandel

Radio Frequency Fingerprinting (RFF) has evolved as an effective solution for authenticating devices by leveraging the unique imperfections in hardware components involved in the signal generation process. In this work, we propose a Convolutional Neural Network (CNN) based framework for detecting rogue devices and identifying genuine ones using softmax probability thresholding. We emulate an attack scenario in which adversaries attempt to mimic the RF characteristics of genuine devices by training a Generative Adversarial Network (GAN) using In-phase and Quadrature (IQ) samples from genuine devices. The proposed approach is verified using IQ samples collected from ten different ADALM-PLUTO Software Defined Radios (SDRs), with seven devices considered genuine, two as rogue, and one used for validation to determine the threshold.

academic

Identificación de Huella RF Resistente a Adversarios: Un Marco CNN-GAN para la Detección de Transmisores Fraudulentos

Información Básica

ID del Artículo: 2510.09663
Título: Adversarial-Resilient RF Fingerprinting: A CNN-GAN Framework for Rogue Transmitter Detection
Autores: Raju Dhakal, Prashant Shekhar, Laxima Niure Kandel (Universidad Aeronáutica Embry-Riddle)
Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 7 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09663

Resumen

La identificación de huella de radiofrecuencia (RFF) se ha convertido en una solución efectiva para la autenticación de dispositivos al aprovechar los defectos únicos de los componentes de hardware en el proceso de generación de señales. Este artículo propone un marco basado en redes neuronales convolucionales (CNN) que utiliza umbrales de probabilidad softmax para detectar dispositivos maliciosos e identificar dispositivos legítimos. El estudio simula escenarios de ataque donde adversarios intentan imitar características de RF de dispositivos legítimos utilizando redes generativas adversarias (GAN) para entrenar muestras en fase y cuadratura (I/Q). El método se valida utilizando muestras I/Q recopiladas de 10 radios definidas por software (SDR) ADALM-PLUTO diferentes, donde 7 dispositivos se consideran legítimos, 2 son maliciosos y 1 se utiliza para validación con el fin de determinar umbrales.

Antecedentes de Investigación y Motivación

Definición del Problema

Con el rápido desarrollo de la tecnología de comunicaciones inalámbricas, el número de dispositivos en aplicaciones como IoT, redes de sensores y drones ha aumentado exponencialmente, generando graves amenazas de ciberseguridad, particularmente en autenticación de dispositivos y gestión de acceso a redes. Las técnicas criptográficas tradicionales a menudo generan sobrecarga computacional excesiva en entornos con recursos limitados.

Importancia de la Investigación

Necesidad de Autenticación Ligera: Entornos con recursos limitados como IoT, redes de sensores y redes UAV requieren métodos de autenticación ligeros
Unicidad de Huella de Hardware: Cada dispositivo inalámbrico posee un identificador único en sus señales de transmisión generado por defectos de componentes de hardware
Amenaza de Ataques Adversarios: Los atacantes pueden no utilizar directamente dispositivos maliciosos, sino intentar imitar características de dispositivos legítimos para obtener acceso a la red

Limitaciones de Métodos Existentes

Modelo de Ataque Único: La investigación existente considera solo dispositivos maliciosos reales o solo muestras generadas sintéticamente como dispositivos maliciosos
Falta de Robustez Adversaria: La mayoría de métodos no consideran escenarios donde atacantes utilizan GAN u otras técnicas para imitar características de RF de dispositivos legítimos
Limitaciones Experimentales: Muchos estudios se validan solo en entornos ideales, careciendo de consideración de escenarios adversarios reales

Contribuciones Principales

Marco Innovador: Según los autores, este es el primer trabajo que valida el rendimiento de detección de dispositivos fuera de distribución utilizando muestras I/Q de dispositivos reales y muestras sintéticas generadas por GAN
Modelo de Ataque Dual: Considera simultáneamente dispositivos maliciosos reales y escenarios de ataque donde se utilizan GAN para imitar características de dispositivos legítimos
Marco Conjunto CNN-GAN: Propone una solución completa que combina un clasificador CNN y un generador GAN
Método de Umbral Práctico: Desarrolla un método unificado para detección de conjunto abierto y clasificación de conjunto cerrado basado en umbrales de probabilidad softmax

Explicación Detallada del Método

Definición de Tareas

Entrada: Muestras de señales I/Q de dispositivos inalámbricos Salida:

Clasificación binaria: Distinguir dispositivos legítimos vs. maliciosos
Clasificación multiclase: Clasificar dispositivos detectados como legítimos en categorías específicas de dispositivos Restricciones: Necesidad de manejar dispositivos maliciosos no vistos y muestras de imitación generadas por GAN

Arquitectura del Modelo

Flujo General del Sistema

El sistema contiene dos fases principales:

Fase de Entrenamiento: Entrenamiento conjunto de CNN y GAN
Fase de Inferencia: Detección y clasificación basadas en umbrales

Diseño de Arquitectura CNN

Capa de Entrada: Muestras I/Q con forma (720, 2, 1)
Capas Convolucionales: 32 filtros, tamaño de núcleo (5,1), activación ReLU, regularización L2, normalización por lotes, agrupación máxima (2,1)
Capas Completamente Conectadas: 352 neuronas, activación ReLU, regularización L2, dropout 0.3
Capa de Salida: 7 neuronas correspondientes a 7 categorías de dispositivos legítimos

Diseño de Arquitectura GAN

Generador (G):

Entrada: Vector de ruido aleatorio
Tres capas completamente conectadas: 2048, 4096, 1440 neuronas
Las dos primeras capas utilizan normalización por lotes y activación ReLU
Salida reformada como muestras I/Q (720, 2)

Discriminador (D):

Entrada: Muestras I/Q (720, 2)
Dos capas convolucionales 1D: 64 y 128 filtros, tamaños de núcleo 7 y 5
Activación LeakyReLU (α=0.2), dropout 0.3
Capa completamente conectada: 128 neuronas, salida final de un único logit

Puntos de Innovación Técnica

Softmax con Escala de Temperatura

Utiliza un parámetro de temperatura T para controlar la confianza de la distribución de probabilidad:

p = softmax(z/T)

donde z es el vector de logits, y la temperatura óptima T=2.5

Regla de Decisión de Umbral

ŷ = {
  -1 si p_max < umbral (clasificado como malicioso)
  argmax_i p_i en caso contrario (clasificado como dispositivo legítimo i)
}

Pérdida de Coincidencia de Características

El generador se entrena utilizando pérdida de coincidencia de características, basada en la distancia entre los valores promedio de características del discriminador de muestras reales y generadas.

Configuración Experimental

Conjunto de Datos

Dispositivos: 11 SDR ADALM-PLUTO, donde 1 actúa como receptor
Señales: Señales de comunicación inalámbrica OFDM en tiempo real
Volumen de Datos: 19,920 fotogramas por dispositivo, 72 muestras I/Q de encabezado por fotograma
Preprocesamiento: Fusión de 10 fotogramas consecutivos en un único fotograma (720 muestras I/Q), procesamiento de normalización

División de Datos

Dispositivos Legítimos: Dispositivos 1-2 y 5-9 (7 dispositivos)
Dispositivos Maliciosos: Dispositivos 3 y 4 (2 dispositivos)
Dispositivo de Validación: Dispositivo 10 (solo para determinación de umbral)
Conjunto de Entrenamiento: 70% de datos de dispositivos legítimos (9,760 fotogramas)
Conjunto de Validación: 10% de datos de dispositivos legítimos + todos los datos del dispositivo de validación (3,386 muestras)
Conjunto de Prueba: 20% de datos de dispositivos legítimos + todos los datos de dispositivos maliciosos + 1000 muestras generadas por GAN (7,774 fotogramas)

Métricas de Evaluación

Puntuación F1: Métrica principal para detección de dispositivos maliciosos
Precisión de Clasificación: Precisión de identificación de dispositivos legítimos
Distancia de Fréchet (FD): Evaluación de la calidad de muestras generadas por GAN, FD=0.0545

Detalles de Implementación

Optimizador CNN: Adam, tasa de aprendizaje 0.00036, entrenamiento 10 épocas
Optimizador GAN: Adam, tasa de aprendizaje 0.001, entrenamiento 3000 épocas
Ajuste de Hiperparámetros: Búsqueda aleatoria KerasTuner, 20 ensayos
Umbral Óptimo: θ*=0.1987

Resultados Experimentales

Resultados Principales

Rendimiento de Clasificación Binaria:

Precisión de detección de dispositivos legítimos: 97.6%
Precisión de detección de dispositivos maliciosos: 96.7%
Puntuación F1 de dispositivos maliciosos: 0.9871

Rendimiento de Clasificación Multiclase:

Todos los dispositivos detectados como legítimos se clasifican correctamente en su categoría correspondiente
La mayoría de dispositivos logran precisión de clasificación superior al 97%
Los dispositivos 1 y 9 alcanzan rendimiento de clasificación casi perfecto

Validación de Calidad de Generación GAN

Comparación de Constelación I/Q: Las muestras generadas (rojo) y las muestras reales (azul) forman distribuciones de agrupamiento similares en el plano I/Q
Distancia de Fréchet: FD=0.0545, indicando que la distribución de muestras generadas es cercana a la de muestras reales
Validación Visual: Las muestras generadas imitan exitosamente las características de señal RF de dispositivos legítimos reales

Análisis de Umbral

El umbral θ*=0.1987 determinado mediante el conjunto de validación separa efectivamente dispositivos legítimos y maliciosos:

Las probabilidades softmax máximas de dispositivos legítimos se agrupan densamente en la región de alta probabilidad
La distribución de probabilidad de dispositivos maliciosos se encuentra en un rango más bajo y más amplio

Trabajo Relacionado

Investigación en Identificación de Huella RF

Métodos Tradicionales: Huang et al. utilizan gráficos de trayectoria de densidad y métodos de aprendizaje profundo, pero no consideran detección de dispositivos maliciosos
Investigación a Gran Escala: Tong et al. utilizan datos de más de 10,000 dispositivos, pero no pueden detectar dispositivos maliciosos
Redes Siamesas: Sun et al. y Birnbach et al. utilizan redes Siamesas para distinguir pares similares y disímiles

Marcos de Aprendizaje Adversario

Roy et al. proponen el marco RFAL utilizando GAN para generar muestras maliciosas sintéticas, pero no consideran datos de dispositivos maliciosos reales.

Brechas de Investigación

Los trabajos existentes consideran solo dispositivos maliciosos reales o solo muestras sintéticas, careciendo de consideración integral de ambos tipos de ataques.

Conclusiones y Discusión

Conclusiones Principales

Validación de Efectividad: El marco CNN-GAN detecta exitosamente dispositivos maliciosos reales y sintéticos con precisión superior al 96%
Robustez Adversaria: El sistema puede resistir ataques que utilizan GAN para imitar características de RF de dispositivos legítimos
Practicidad: El método basado en umbral softmax logra una solución unificada para detección de conjunto abierto y clasificación de conjunto cerrado

Limitaciones

Restricción de Escala de Dispositivos: Validación con solo 10 dispositivos; redes reales pueden involucrar cientos de dispositivos
Entorno Estático: Todos los datos provienen de dispositivos estáticos, sin considerar el impacto de nodos móviles en el rendimiento
Entorno Interior: Recopilación de datos solo en entorno de laboratorio interior

Direcciones Futuras

Expansión de Escala de Dispositivos: Validar la escalabilidad del método en redes de dispositivos más grandes
Escenarios Móviles: Incorporar nodos móviles en el proceso de recopilación de datos
Validación Multiambiental: Probar la robustez del método en diferentes entornos inalámbricos

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primer marco de identificación de huella RF que considera simultáneamente dispositivos maliciosos reales y sintéticos
Experimentación Completa: Recopilación de datos utilizando dispositivos SDR reales, con validación cuantitativa y cualitativa de calidad de generación GAN
Método Práctico: El método de escala de temperatura y umbral es simple, efectivo y fácil de desplegar en la práctica
Resultados Confiables: Múltiples métricas de validación, matriz de confusión clara que muestra el rendimiento

Deficiencias

Escala Experimental: La escala experimental de 10 dispositivos es relativamente pequeña, con escalabilidad pendiente de verificación
Entorno Único: Prueba solo en entorno estático interior, careciendo de validación en escenarios diversificados
Comparación Insuficiente: Falta de comparación directa de rendimiento con otros métodos avanzados
Análisis Teórico: Carece de análisis teórico profundo sobre por qué el método es efectivo

Impacto

Valor Académico: Proporciona nuevas perspectivas para defensa contra ataques adversarios en el campo de identificación de huella RF
Valor Práctico: Aplicable a autenticación de dispositivos en entornos con recursos limitados como IoT y UAV
Reproducibilidad: Descripción detallada del método, configuración experimental clara, con buena reproducibilidad

Escenarios Aplicables

Redes IoT: Autenticación ligera de dispositivos
Comunicación de Drones: Autenticación de seguridad de redes UAV
Redes de Sensores: Gestión de dispositivos sensores distribuidos
Industria 4.0: Acceso seguro de dispositivos inalámbricos industriales

Referencias

El artículo cita 13 referencias relacionadas, abarcando trabajos importantes en campos clave como identificación de huella RF, aprendizaje profundo, GAN y seguridad inalámbrica, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un trabajo innovador en el campo de la identificación de huella RF que considera sistemáticamente por primera vez el problema de autenticación de dispositivos bajo escenarios de ataque adversario. Aunque la escala experimental es relativamente limitada, el método es novedoso, los resultados son confiables y proporciona contribuciones valiosas para el desarrollo del campo.