Malicious WebShells pose a significant and evolving threat by compromising critical digital infrastructures and endangering public services in sectors such as healthcare and finance. While the research community has made significant progress in WebShell detection (i.e., distinguishing malicious samples from benign ones), we argue that it is time to transition from passive detection to in-depth analysis and proactive defense. One promising direction is the automation of WebShell family classification, which involves identifying the specific malware lineage in order to understand an adversary's tactics and enable a precise, rapid response. This crucial task, however, remains a largely unexplored area that currently relies on slow, manual expert analysis. To address this gap, we present the first systematic study to automate WebShell family classification. Our method begins with extracting dynamic function call traces to capture inherent behaviors that are resistant to common encryption and obfuscation. To enhance the scale and diversity of our dataset for a more stable evaluation, we augment these real-world traces with new variants synthesized by Large Language Models. These augmented traces are then abstracted into sequences, graphs, and trees, providing a foundation to benchmark a comprehensive suite of representation methods. Our evaluation spans classic sequence-based embeddings (CBOW, GloVe), transformers (BERT, SimCSE), and a range of structure-aware algorithms, including Graph Kernels, Graph Edit Distance, Graph2Vec, and various Graph Neural Networks. Through extensive experiments on four real-world, family-annotated datasets under both supervised and unsupervised settings, we establish a robust baseline and provide practical insights into the most effective combinations of data abstractions, representation models, and learning paradigms for this challenge.
- ID del artículo: 2512.05288
- Título: Más allá de la detección: Un estudio y punto de referencia integral sobre el aprendizaje de representaciones para la clasificación detallada de familias de Webshell
- Autor: Feijiang Han (Universidad de Pensilvania)
- Categorías: cs.CR (Criptografía y Seguridad), cs.AI, cs.LG
- Fecha de publicación: Enviado a arXiv el 4 de diciembre de 2025
- Enlace al artículo: https://arxiv.org/abs/2512.05288
Los WebShell maliciosos amenazan sectores de servicios públicos como salud y finanzas al infiltrarse en infraestructuras digitales críticas. Aunque la academia ha logrado avances significativos en la detección de WebShell (diferenciando muestras maliciosas de benignas), este estudio propone un cambio de enfoque de la detección pasiva al análisis profundo y la defensa activa. Esta investigación sistematiza por primera vez la tarea de clasificación automática de familias de WebShell, capturando características de comportamiento resistentes a la ofuscación mediante la extracción de trazas dinámicas de llamadas a funciones, utilizando modelos de lenguaje grandes para aumentar el tamaño y diversidad del conjunto de datos, y abstrayendo las trazas en tres estructuras: secuencias, grafos y árboles. El estudio evalúa exhaustivamente múltiples métodos de aprendizaje de representaciones, desde incrustaciones secuenciales clásicas (CBOW, GloVe), Transformers (BERT, SimCSE) hasta algoritmos estructuralmente conscientes (núcleos de grafos, distancia de edición de grafos, Graph2Vec, GNN), estableciendo líneas base de rendimiento en configuraciones supervisadas y no supervisadas en cuatro conjuntos de datos etiquetados reales.
El problema central que aborda este estudio es la clasificación automática de familias de WebShell, es decir, identificar variantes o linajes específicos de WebShell maliciosos. Esto va más allá de la detección binaria tradicional (malicioso vs benigno), requiriendo una subdivisión adicional de muestras maliciosas en familias de ataque específicas.
- Valor de inteligencia de amenazas: La clasificación familiar ayuda a equipos de seguridad a atribuir ataques y predecir acciones futuras de atacantes
- Mejora en velocidad de respuesta: Sistemas automatizados pueden reducir tiempos de respuesta de horas de análisis manual a segundos
- Defensa precisa: Activación de defensas personalizadas basadas en tácticas conocidas de familias específicas
- Impacto práctico: Los WebShell amenazan directamente datos sensibles en infraestructuras críticas como salud y finanzas
- Vacío de investigación: La clasificación de familias de WebShell es un área prácticamente inexplorada
- Dependencia humana: La práctica actual depende completamente de análisis manuales por expertos
- Limitaciones de detección: Investigaciones existentes se centran principalmente en detección binaria, proporcionando inteligencia accionable limitada
- Desafíos de características: La clasificación familiar requiere capturar patrones de comportamiento sutiles que diferencien familias, no características maliciosas genéricas
Hipótesis de viabilidad técnica:
- WebShell de la misma familia comparten características de comportamiento debido a la reutilización de código
- Las trazas dinámicas de llamadas a funciones capturan comportamiento malicioso incluso bajo ofuscación
- Hipótesis central: Al aprender patrones de comportamiento fundamentales, los modelos pueden clasificar y rastrear eficazmente familias de WebShell
- Primer marco de referencia sistemático: Diseño e implementación del primer benchmark a gran escala para clasificación de familias de WebShell, estableciendo procesos de evaluación estandarizados
- Aumento de datos impulsado por LLM: Propuesta de uso de modelos de lenguaje grandes para sintetizar trazas de llamadas a funciones consistentes en comportamiento, resolviendo problemas de escasez de datos y desequilibrio de clases, y simulando amenazas de día cero
- Evaluación multidimensional de aprendizaje de representaciones: Evaluación sistemática de tres abstracciones de datos (secuencias, grafos, árboles) y múltiples métodos de representación (desde incrustaciones clásicas hasta GNN), incluyendo 10+ modelos y múltiples variantes de implementación
- Líneas base empíricas sólidas: Establecimiento de las primeras líneas base de rendimiento para clasificación supervisada y no supervisada en cuatro conjuntos de datos reales (DS1-DS4, tamaños de 452 a 1617 muestras)
- Guías prácticas accionables: Provisión de jerarquías claras de rendimiento y mejores prácticas, incluyendo estrategias de selección de modelos y configuración de hiperparámetros
Marco de dos etapas:
- Etapa 1: Aprendizaje de representaciones
- Entrada: Trazas originales de llamadas a funciones (registros de ejecución dinámica)
- Codificador: x=g(traza)∈Rd
- Salida: Vector numérico de dimensión fija (incrustación)
- Etapa 2: Benchmark de clasificación
- Entrada: Conjunto de datos incrustados D={(x1,y1),…,(xn,yn)}
- Etiquetas: yi∈{1,…,K} (K familias)
- Objetivo: Aprender clasificador f:Rd→{1,…,K}
Principios de diseño: Separación de aprendizaje de representaciones y clasificación, permitiendo pruebas de referencia estandarizadas y justas para diferentes codificadores.
Proceso de recolección:
- Fuente: Archivos sospechosos marcados por sistemas de detección de malware de proveedores de servicios en la nube
- Ejecución: Captura de trazas dinámicas de llamadas a funciones en sandboxes de seguridad
- Etiquetado: Revisión manual por expertos de seguridad para filtrar falsos positivos y etiquetar familias
- Valores atípicos: Muestras no asignables a familias conocidas marcadas como Family ID = -1
Ventajas del análisis dinámico:
- Evita técnicas de evasión como ofuscación y cifrado
- Revela estructuras claras de comportamiento operativo
- Independencia del lenguaje (enfoque en lógica central vs sintaxis)
Estrategia 1: Aumento intra-familia
- Método: Prompts few-shot, proporcionando descripciones de comportamiento familiar y muestras típicas
- Objetivo: Generar nuevas muestras consistentes en comportamiento pero sintácticamente únicas
- Función: Resolver desequilibrio de clases, mejorar datos de familias escasas
Estrategia 2: Simulación de nuevas familias y día cero
- Método: Combinación de características de comportamiento de diferentes familias
- Objetivo: Simular innovación adversaria, generar nuevas familias o valores atípicos adversarios
- Función: Probar robustez de clasificadores
Control de calidad (verificación en dos fases):
- Filtrado automático: Verificación de legalidad de formato y validez de vocabulario
- Verificación manual: Visualización de proyecciones incrustadas, revisión manual y eliminación de muestras desviadas de clústeres centrales familiares
| Conjunto | Muestras | Complejidad | Familias | Atípicos |
|---|
| DS1 | 452 | Baja | 21 | 1 |
| DS2 | 553 | Media | 37 | 10 |
| DS3 | 1125 | Alta | 48 | 23 |
| DS4 | 1617 | Alta | 81 | 28 |
- Representación: S=(t1,t2,…,tn), donde ti es la función de la i-ésima llamada
- Características: Preserva orden temporal, estructura lineal
- Aplicabilidad: Modelos NLP (Word2Vec, BERT, etc.)
- Representación: Grafo de llamadas a funciones (FCG) G=(V,E)
- Nodos: Funciones únicas
- Aristas: (u,v)∈E indica que función u llama a v
- Pesos: Frecuencia de llamadas
- Características: Vista agregada estática, captura todas las relaciones de llamadas (incluyendo ciclos y llamadas indirectas)
- Representación: Árbol de llamadas a funciones (FCT) T=(V,E)
- Nodo raíz: Punto de entrada (como
main) - Aristas: Relaciones de llamada padre-hijo
- Características:
- Estructura acíclica
- Preserva rutas de ejecución y contexto
- Misma función como nodos diferentes en diferentes contextos
- Ventajas: Proporciona indicaciones de contexto de grano fino
Incrustaciones clásicas:
- CBOW & GloVe: Incrustaciones estáticas independientes del contexto
- Estrategias de agregación:
avg: Promedio de vectores de todas las llamadasconcat: Concatenación secuencial de vectoresTF-IDF weighted avg: Enfatiza funciones discriminativas
Modelos Transformer:
- BERT & SimCSE: Modelos profundos sensibles al contexto
- Estrategias de agregación:
avg: Promedio de estados ocultos de todos los tokensconcat: Concatenación de estados ocultos de diferentes capasCLS: Uso del estado oculto final del token CLS
Métodos clásicos:
- Núcleos de grafo/árbol: Miden similitud contando subestructuras compartidas
- Path Kernel: Secuencias de llamadas comunes
- Random Walk Kernel: Caminatas aleatorias generadas
- Subtree Kernel: Jerarquías de llamadas de pequeña escala idénticas
- Distancia de edición de grafo/árbol: Calcula costo mínimo de operaciones de transformación
Métodos de aprendizaje:
- Redes neuronales gráficas (GNN): Aprenden representaciones mediante paso de mensajes
- GCN: Red convolucional de grafos
- GAT: Red de atención de grafos (con mecanismo de atención)
- GIN: Red isomórfica de grafos
- Graph2Vec: Aprendizaje no supervisado de incrustaciones de grafos completos
No supervisados:
- Clustering K-Means
- Clustering Mean-Shift
Supervisados:
- Random Forest
- Support Vector Machine (SVM)
Cuatro conjuntos de datos etiquetados reales de complejidad progresiva (DS1-DS4), ver tabla anterior.
Clasificación supervisada:
- Accuracy (Precisión)
- Macro-averaged F1-score (asegura contribución igual de todas las familias)
Clustering no supervisado:
- Accuracy (mapeada mediante algoritmo húngaro)
- Normalized Mutual Information (NMI):
NMI(Y,C)=H(Y)+H(C)2×I(Y;C)
Modelos de representación:
- Dimensión de incrustación: 128 uniformemente
- Dimensión de entrada: Configurada dinámicamente según tamaño de vocabulario
- Hiperparámetros: Configuraciones por defecto recomendadas por cada modelo
Ejemplos de configuraciones clave:
- CBOW/GloVe: Tamaño de ventana 5/10, 100 épocas de entrenamiento
- BERT/SimCSE: 12 capas, 12 cabezas, proyección 768→128 dimensiones ocultas
- GNN: 3 capas, pooling promedio global, dropout 0.5, 200 épocas
- GAT: 4 cabezas de atención
Clasificadores:
- Búsqueda en cuadrícula + validación cruzada para optimización
- 10 ejecuciones independientes promediadas (diferentes semillas aleatorias)
Incluye 10+ métodos de representación y múltiples variantes de implementación (ver Tabla 4)
Rendimiento superior (Supervisado-SVM-F1):
- Graph2Vec (Grafo): 0.972
- Incrustación de árbol (Graph2Vec): 0.969
- Tree-GAT: 0.967
- Distancia de edición de grafo: 0.967
Rendimiento superior (No supervisado-KM-ACC):
- Tree-GAT: 0.879
- Núcleo de árbol (Subtree): 0.895
- Graph-GAT: 0.872
Comparación de rendimiento:
- Métodos estructurados (grafo/árbol) generalmente F1 > 0.9
- Métodos secuenciales (BERT, etc.) rendimiento más bajo y fluctuante
- Con aumento de complejidad del conjunto, métodos estructurados muestran degradación más suave
Brecha de rendimiento:
- GNN y distancia de edición de árbol: F1 > 0.9
- Modelos secuenciales como BERT: Rendimiento más bajo e inestable
- Brecha aumenta en conjuntos complejos
Análisis causal:
- Limitaciones de modelos secuenciales: Capturan dependencias lineales, tratan trazas como oraciones
- Naturaleza de firmas familiares: Reside en topología de flujo de control, no en adyacencia de llamadas
- Estrategias adversarias: Atacantes reutilizan funciones centrales pero las llaman desde diferentes ubicaciones, insertan llamadas "basura"
- Ventajas estructurales: Abstracciones de grafo/árbol capturan relaciones "quién llama a quién", más robustas a reordenamiento y ofuscación
Ventajas de rendimiento: Modelos de árbol superan consistentemente a modelos de grafo (ver Tabla 5)
Diferencias clave:
- FCG (Grafo): Vista agregada, combina todas las llamadas a función en nodos únicos, pierde contexto
- FCT (Árbol): Acíclico, preserva rutas de ejecución precisas, cada nodo representa llamada única en contexto específico
Significado práctico:
- Funciones polimórficas (como
eval()) tienen usos diferentes bajo diferentes llamadores - Estructura de árbol distingue
handler1() → eval() de handler2() → eval() - Indicaciones de contexto de grano fino proporcionan conjunto de características más fuerte
Mejores modelos: GAT y GCN muestran rendimiento más estable y fuerte
Fundamento teórico:
- Paradigma de paso de mensajes: Modela explícitamente topología de red
- Aprendizaje automático: Descubre patrones estructurales más discriminativos (vs subestructuras predefinidas de núcleos de grafo)
Ventajas de GAT:
- Mecanismo de atención: Aprende a asignar mayor peso a nodos/aristas clave
- Funciones clave:
system(), assert(), base64_decode() más distintivas que operaciones genéricas - Capacidad de enfoque: Atiende automáticamente a partes del grafo que definen firmas familiares
DS1 (Baja complejidad):
- Mejor supervisado: Tree-GAT (SVM-F1: 0.988)
- Mejor no supervisado: GCN/GAT (KM-ACC: 0.980)
DS2 (Media complejidad):
- Mejor supervisado: GIN (SVM-F1: 0.985)
- Mejor no supervisado: Tree-GAT (KM-ACC: 0.924)
DS3 (Alta complejidad):
- Mejor supervisado: Graph/Tree-GIN (SVM-F1: 0.977-0.978)
- Mejor no supervisado: Tree-GAT (KM-ACC: 0.943)
Tendencia: Con aumento de complejidad, métodos estructurados mantienen estabilidad, métodos secuenciales muestran degradación significativa.
Mejor global (Tabla 5):
- K-Means: Tree-GAT, Graph-GAT, Núcleo de árbol
- Mean-Shift: Tree-GAT, CBOW, GloVe
- Random Forest: Tree-GCN, Graph-GCN, Tree-GAT
- SVM: Tree-GAT, Graph-GIN, Tree-GIN
Estrategias para modelos secuenciales (Tabla 6):
- CBOW/GloVe + KM/MS/RF: Usar
avg - CBOW/GloVe + SVM: Usar
concat - BERT/SimCSE: Usar
concat para todos los clasificadores
Estrategias para modelos de grafo/árbol (Tabla 7):
- Núcleo de grafo: Subtree para no supervisado, Path para supervisado
- Núcleo de árbol: Subtree en todos los escenarios
- GNN: GCN/GAT para no supervisado, GAT para RF, GIN para SVM
Supervisado vs No supervisado:
- Escenarios supervisados: Rendimiento superior con etiquetas suficientes, adecuado para modelos de alta precisión
- Valor no supervisado:
- Imprescindible cuando etiquetas de amenazas emergentes son escasas o inexistentes
- Agrupamiento por similitud de comportamiento intrínseco, descubrimiento de familias desconocidas
- Clustering automático de nuevas muestras, marcaje potencial de amenazas de día cero
- Brecha de rendimiento: Ventajas de representaciones estructuradas más pronunciadas en escenarios no supervisados
- Primera opción: Tree-GAT más consistente en tareas supervisadas y no supervisadas
- Selección de GNN: GAT/GCN para clustering, GIN para SVM supervisado
- Métodos nucleares: Núcleo Subtree generalmente óptimo, Núcleo de árbol mejor en todos los escenarios
- Modelos secuenciales:
avg para contexto-independiente, concat/CLS para sensibles al contexto
Métodos tempranos:
- Coincidencia de firmas basada en reglas
- Limitaciones: Ineficaz contra ofuscación y nuevas amenazas
Era del aprendizaje automático:
- Extracción de características léxicas, estadísticas y semánticas de código fuente/código objeto
- Entrenamiento de clasificadores para detección binaria
Aplicaciones de LLM:
- Capacidad de pocos ejemplos demostrada recientemente
- Rendimiento competitivo sin ajuste específico de tarea
Vacíos de investigación:
- Investigación limitada en clasificación multiclase familiar
- Conjunto de datos MWF (Zhao et al. 2024) primer conjunto público con etiquetas familiares
Métodos inspirados en NLP:
- Word2Vec (CBOW/Skip-gram): Incrustaciones estáticas
- GloVe: Vectores globales
- BERT: Incrustaciones contextuales
- SimCSE: Aprendizaje por contraste
Métodos basados en grafos:
- Núcleos de grafos (núcleo WL): Conteo de subestructuras
- Graph2Vec: Incrustaciones de grafos no supervisadas
- GNN: Aprendizaje por paso de mensajes (GCN, GAT, GIN)
- Ventajas decisivas de representaciones estructuradas: Modelos de grafo y árbol superan significativamente a modelos secuenciales en captura de firmas de comportamiento familiar
- Ventajas contextuales de modelos de árbol: Preservación de contexto de ejecución jerárquico proporciona mejoras consistentes de rendimiento
- Superioridad arquitectónica de GNN: Especialmente GAT, más robustos y eficientes en configuraciones supervisadas y no supervisadas
- Establecimiento de benchmark: Primera línea base sistemática para clasificación de familias de WebShell
- Guías prácticas: Estrategias claras de selección y configuración de modelos
Limitaciones potenciales no discutidas explícitamente:
- Tamaño del conjunto de datos: Conjunto máximo de 1617 muestras, relativamente pequeño
- Definición de familias: Dependiente de etiquetado manual, posible subjetividad
- Datos sintéticos de LLM: Aunque verificados manualmente, realismo de datos sintéticos requiere validación a largo plazo
- Costo computacional: No se discute detalladamente el costo de GNN y estructuras de árbol
- Robustez adversaria: No se prueba resistencia contra ataques adversarios específicos
- Generalización multilingüe: Aunque se afirma independencia del lenguaje, alcance de pruebas reales no está claro
- Implementación en tiempo real: No se evalúan requisitos de latencia y rendimiento en producción
Direcciones sugeridas por el artículo:
- Expansión a conjuntos de datos más grandes
- Exploración de arquitecturas GNN más eficientes
- Combinación de análisis estático y dinámico
- Pruebas de implementación en entornos SOC reales
- Investigación de mecanismos de defensa adversaria
1. Valor de investigación
- Creatividad: Primer estudio sistemático de clasificación de familias de WebShell, llena vacío importante
- Significado práctico: Servicio directo a seguridad de infraestructuras críticas, alto valor social
- Oportunidad: Cambio de enfoque de detección a clasificación alineado con necesidades de desarrollo del campo
2. Innovación metodológica
- Evaluación multidimensional: Tres abstracciones de datos × 10+ modelos × múltiples variantes, cobertura exhaustiva
- Aumento de datos LLM: Uso innovador de LLM para resolver escasez de datos y simulación de día cero
- Diseño desacoplado: Separación de aprendizaje de representaciones y clasificación, asegura pruebas de referencia justas
3. Exhaustividad experimental
- Cuatro conjuntos de datos: Diseño de complejidad progresiva, evaluación completa
- Supervisado + No supervisado: Configuraciones duales cubren diferentes escenarios de aplicación
- Robustez estadística: 10 ejecuciones independientes, resultados confiables
- Configuraciones detalladas: Apéndice proporciona hiperparámetros completos, alta reproducibilidad
4. Persuasividad de resultados
- Conclusiones claras: Estructural > Secuencial, Árbol > Grafo, GNN mejor, jerarquía clara
- Explicación teórica: No solo resultados, sino análisis profundo de causas (importancia del contexto)
- Guías prácticas: Tres tablas resumen proporcionan mejores prácticas directamente aplicables
5. Calidad de escritura
- Lógica clara: Estructura completa de problema→método→experimento→conclusión
- Buena visualización: Gráficos ricos, mapas de calor muestran rendimiento intuitivamente
- Detalles completos: Apéndice proporciona detalles completos de implementación
1. Limitaciones del conjunto de datos
- Tamaño limitado: 1617 muestras máximas, posiblemente insuficiente para modelos profundos
- Número de familias: Algunas de 81 familias pueden tener muy pocas muestras, problema de desequilibrio
- Proporción de datos sintéticos: Porcentaje de datos generados por LLM no claro, realismo cuestionable
2. Limitaciones metodológicas
- Abstracción estática: Modelos de grafo/árbol pierden información temporal, posiblemente crítica para algunos comportamientos
- Dimensión fija de incrustación: 128 dimensiones uniformes pueden no ser óptimas para todos los modelos
- Optimización de hiperparámetros: Aunque hay búsqueda en cuadrícula, espacio de búsqueda y estrategias no son detalladas
3. Limitaciones experimentales
- Falta de pruebas entre conjuntos: No se evalúa capacidad de generalización entre diferentes conjuntos
- Sin pruebas adversarias: No se prueba resistencia contra ataques de ofuscación específicos
- Costo computacional no reportado: Tiempos de entrenamiento, latencia de inferencia, uso de memoria faltantes
- Análisis de errores insuficiente: No se analizan profundamente casos de fallo y matrices de confusión
4. Análisis teórico insuficiente
- Falta de garantías teóricas: ¿Por qué árbol es necesariamente mejor que grafo? Falta análisis formal
- Interpretabilidad de características: ¿Qué características aprenden las GNN? Falta análisis de visualización
- Límites de generalización: No se proporciona análisis teórico de error de generalización
5. Cuestiones de aplicabilidad
- Consideraciones de implementación: No se discuten requisitos de tiempo real y escalabilidad en producción
- Costo de etiquetado: Métodos supervisados requieren etiquetado masivo, difícil de obtener en práctica
- Mecanismos de actualización: ¿Cómo actualizar incrementalmente el modelo con nuevas familias?
Contribución académica:
- Benchmark creativo: Establece primer marco de evaluación estándar para nuevo campo, alta citación esperada
- Valor metodológico: Paradigma de abstracción de datos + comparación multimodelo aplicable a otras tareas de seguridad
- Contribución de conjunto de datos: Aunque código no es público, metodología puede impulsar construcción de futuros conjuntos
Valor práctico:
- Aplicación directa: Empresas de seguridad pueden adoptar directamente mejores prácticas como Tree-GAT
- Aceleración de respuesta: De análisis manual de horas a clasificación automática de segundos, valor enorme
- Detección de amenazas: Métodos no supervisados pueden descubrir familias de día cero, defensa proactiva
Reproducibilidad:
- Fortalezas: Apéndice detalla hiperparámetros, uso de bibliotecas de código abierto
- Debilidades: Conjunto de datos no público (solo trazas de llamadas), reproducción completa difícil
- Sugerencia: Autores deberían considerar publicar datos de trazas anonimizados y código
Escenarios más adecuados:
- SOC empresariales: Clasificación automática de amenazas, aceleración de flujos de respuesta
- Plataformas de inteligencia de amenazas: Etiquetas familiares mejoran calidad de inteligencia
- Sistemas sandbox: Integración de análisis dinámico e identificación familiar
- Investigación de seguridad: Seguimiento de evolución familiar, atribución de actividades de ataque
Escenarios no adecuados:
- Entornos con recursos limitados: Costo computacional de GNN puede ser prohibitivo
- Requisitos de análisis estático: Método depende de ejecución dinámica, no puede analizar muestras no ejecutadas
- Requisitos de tiempo real extremo: Ejecución en sandbox + inferencia de modelo puede tener latencia alta
Direcciones de expansión:
- Otro malware: Métodos aplicables a clasificación familiar de ransomware, troyanos, etc.
- Software benigno: Identificación de familias de software, detección de similitud
- Fusión multimodal: Combinación de características estáticas (estructura de código) y comportamiento dinámico
- Zhao et al. 2024 - Conjunto de datos MWF: Primer conjunto público de WebShell con etiquetas familiares
- Kipf & Welling 2016 - GCN: Fundamentos de redes convolucionales de grafos
- Veličković et al. 2018 - GAT: Redes de atención de grafos
- Devlin et al. 2018 - BERT: Modelos Transformer preentrenados
- Shervashidze et al. 2011 - Núcleo WL: Método clásico de similitud de grafos
Este artículo es un trabajo pionero en el campo de la clasificación de familias de WebShell, estableciendo el primer benchmark sistemático y proporcionando guías prácticas claras. Su valor central radica en:
- Dirección de investigación clara: Cambio de paradigma de detección pasiva a análisis proactivo
- Evaluación metodológica exhaustiva: Comparación multidimensional que muestra ventajas decisivas de representaciones estructuradas
- Guías prácticas accionables: Mejores prácticas como Tree-GAT directamente aplicables
Las principales limitaciones son el tamaño del conjunto de datos, profundidad del análisis teórico y validación de aplicabilidad. Sin embargo, estas no restan mérito al trabajo, que establece una base sólida para futuras investigaciones y se espera que impulse la evolución de las tecnologías de defensa contra WebShell desde "¿se puede detectar?" a "¿cómo responder con precisión?". Para profesionales y investigadores de seguridad, este es un artículo de referencia imprescindible.