2025-11-15T15:52:10.939408

DEHYDRATOR: Enhancing Provenance Graph Storage via Hierarchical Encoding and Sequence Generation

Ying, Zhu, Lv et al.

As the scope and impact of cyber threats have expanded, analysts utilize audit logs to hunt threats and investigate attacks. The provenance graphs constructed from kernel logs are increasingly considered as an ideal data source due to their powerful semantic expression and attack historic correlation ability. However, storing provenance graphs with traditional databases faces the challenge of high storage overhead, given the high frequency of kernel events and the persistence of attacks. To address this, we propose Dehydrator, an efficient provenance graph storage system. For the logs generated by auditing frameworks, Dehydrator uses field mapping encoding to filter field-level redundancy, hierarchical encoding to filter structure-level redundancy, and finally learns a deep neural network to support batch querying. We have conducted evaluations on seven datasets totaling over one billion log entries. Experimental results show that Dehydrator reduces the storage space by 84.55%. Dehydrator is 7.36 times more efficient than PostgreSQL, 7.16 times than Neo4j, and 16.17 times than Leonard (the work most closely related to Dehydrator, published at Usenix Security'23).

academic

DEHYDRATOR: Mejora del Almacenamiento de Grafos de Procedencia mediante Codificación Jerárquica y Generación de Secuencias

Información Básica

ID del Artículo: 2501.00446
Título: DEHYDRATOR: Enhancing Provenance Graph Storage via Hierarchical Encoding and Sequence Generation
Autores: Jie Ying, Tiantian Zhu*, Mingqi Lv, Tieming Chen (Universidad Tecnológica de Zhejiang)
Clasificación: cs.CR (Criptografía y Seguridad)
Revista de Publicación: IEEE Transactions on Information Forensics and Security
Enlace del Artículo: https://arxiv.org/abs/2501.00446

Resumen

Con la expansión del alcance e impacto de las amenazas cibernéticas, los analistas utilizan registros de auditoría para rastrear amenazas e investigar ataques. Los grafos de procedencia construidos a partir de registros del kernel se consideran cada vez más como fuentes de datos ideales debido a su potente capacidad de expresión semántica y su capacidad para asociar historiales de ataques. Sin embargo, debido a la alta frecuencia de eventos del kernel y la persistencia de los ataques, el almacenamiento de grafos de procedencia mediante bases de datos tradicionales enfrenta el desafío de altos gastos de almacenamiento. Para resolver este problema, este artículo propone DEHYDRATOR, un sistema eficiente de almacenamiento de grafos de procedencia. Para los registros generados por marcos de auditoría, DEHYDRATOR utiliza codificación de mapeo de campos para filtrar redundancia a nivel de campo, codificación jerárquica para filtrar redundancia a nivel estructural, y finalmente entrena redes neuronales profundas para soportar consultas por lotes. Evaluado en siete conjuntos de datos con un total de más de mil millones de entradas de registro, los resultados experimentales muestran que DEHYDRATOR reduce el espacio de almacenamiento en un 84,55%, siendo 7,36 veces más eficiente que PostgreSQL, 7,16 veces más eficiente que Neo4j y 16,17 veces más eficiente que Leonard.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Aumento de Amenazas Cibernéticas: Hasta mayo de 2024, se han registrado 9.478 incidentes de filtración de datos, con el evento MOAB de enero de 2024 filtrando 26 mil millones de registros
Importancia de los Grafos de Procedencia: Los grafos de procedencia como estructuras de grafos dirigidos, donde los nodos representan entidades del sistema (procesos, archivos, sockets) y los bordes representan eventos del sistema, poseen potente capacidad de expresión semántica y capacidad de asociación de historiales de ataques
Desafíos de Almacenamiento: Cuatro fenómenos causan dificultades de almacenamiento:
- Crecimiento Irreversible: Para mantener la integridad de los datos, solo se añaden datos sin eliminarlos
- Expansión Rápida: Cada máquina genera registros a nivel de GB diariamente
- Duración Prolongada: Las intrusiones se detectan en promedio después de 188 días
- Demandas de Consultas: Se requiere soportar consultas a gran escala para búsqueda de amenazas y análisis causal

Limitaciones de Métodos Existentes

Los sistemas existentes de almacenamiento eficiente de grafos de procedencia (ESSPGs) se dividen en dos categorías:

Métodos Basados en Poda (como LogGC, CPR, NodeMerge, DPR): Compresión con pérdida, que puede causar falsos negativos en componentes de nivel superior
Métodos Basados en Codificación (como SEAL, SLEUTH, ELISE, Leonard): O no pueden soportar consultas, o los componentes auxiliares ocupan gran cantidad de espacio de almacenamiento

Motivación de la Investigación

Los métodos existentes no pueden satisfacer simultáneamente tres requisitos críticos:

Contenido sin Pérdida: Retener todos los datos para evitar falsos negativos
Almacenamiento Eficiente: Minimizar gastos de almacenamiento
Soporte de Consultas: Manejar demandas de consultas a gran escala

Contribuciones Principales

Propuesta del Sistema DEHYDRATOR: Un sistema eficiente de almacenamiento de grafos de procedencia que supera las limitaciones de métodos existentes, utilizando codificación de mapeo de campos para filtrar redundancia a nivel de campo, codificación jerárquica para filtrar redundancia a nivel estructural, y redes neuronales profundas para soportar consultas por lotes
Construcción de Prototipo y Evaluación a Gran Escala: Evaluación en siete conjuntos de datos (total de más de mil millones de registros), reducción del espacio de almacenamiento del 84,55%, siendo 7,36 veces, 7,16 veces y 16,17 veces más eficiente que PostgreSQL, Neo4j y Leonard respectivamente
Evaluación Integral: Exploración del impacto de componentes, escenarios aplicables y límites de rendimiento, definición de la métrica de Relación de Almacenamiento-Latencia (LSR) para equilibrar gastos de almacenamiento y latencia

Detalles del Método

Definición de Tareas

Entrada: Registros del kernel brutos recopilados por marcos de auditoría Salida: Grafo de procedencia almacenado eficientemente, que soporta demandas de consultas de componentes de nivel superior Restricciones: Contenido sin pérdida, almacenamiento eficiente, soporte de consultas

Arquitectura del Sistema

DEHYDRATOR adopta un marco de tres etapas:

1. Etapa de Pretratamiento (Pretreatment)

Análisis de Registros: Utiliza expresiones regulares para extraer campos clave de registros brutos
Construcción del Grafo de Procedencia: Construye tabla de nodos NT (IdentiID, Name, Type) y tabla de bordes ET (SrcID, DstID, TimeStamp, Operation)
Codificación de Mapeo de Campos: Procesa tres tipos de redundancia a nivel de campo
- Valores únicos: Reemplazados con caracteres numéricos más cortos
- Valores repetidos: Reemplazados con índices
- Valores incrementales: Reemplazados con desplazamientos

2. Etapa de Almacenamiento (Storage)

Codificación Jerárquica:

Modela el grafo de procedencia como grafo dirigido jerárquico
Para cada nodo v, registra todos los nodos fuente e información de bordes entrantes
Construye tabla de mapeo fusionado MMT y tabla de bordes jerárquica EThi
Estructura de lista anidada: Operation: timeOffset: nodeOffset

Entrenamiento del Modelo:

Selecciona decodificador único de capa Transformer
Modela la tarea de almacenamiento como tarea de generación de secuencias
Utiliza codificación char2vec, generación autorregresiva
Construye tabla de corrección de errores ECT para manejar errores de predicción del modelo

3. Etapa de Consulta (Query)

Información de Nodos: Obtiene índices a través de tabla de mapeo MT, recupera información de nodos
Información de Bordes: Introduce índices al modelo DNN, genera secuencias, corrección ECT, decodificación jerárquica para obtener información legible

Puntos de Innovación Técnica

Diseño de Codificación Jerárquica:
- Basado en características de consultas inversas del análisis causal
- Comprime múltiples bordes paralelos en forma de codificación compacta
- Aumenta densidad de información, acelera entrenamiento del modelo
Selección del Modelo DNN:
- Decodificador Transformer de capa única reemplaza LSTM multicapa
- Mejor capacidad de paralelización y extracción de características
- Adecuado para identificación de patrones de bajo nivel repetitivos en tareas de almacenamiento
Mecanismo de Corrección de Errores:
- Tabla ECT registra posiciones y caracteres correctos
- Garantiza contenido sin pérdida mientras soporta compresión DNN

Configuración Experimental

Conjuntos de Datos

Siete conjuntos de datos, total de más de mil millones de registros:

G1-G4: Grupos CADETS, THEIA, TRACE de DARPA TC E3
G5-G6: Grupo TRACE de DARPA TC E4
G7: Subconjunto del conjunto de datos DEPIMACT
Número promedio de bordes: 17.754.566 (9,6 veces mayor que Leonard)

Métricas de Evaluación

Gastos de Almacenamiento: BPpre (preprocesamiento) y BPpost (postprocesamiento) en bytes
Latencia de Almacenamiento: Costo de tiempo Ts
Relación de Almacenamiento-Latencia: LSR = (BPpre - BPpost)/Ts

Métodos de Comparación

PostgreSQL: Base de datos relacional
Neo4j: Base de datos de grafos
Leonard: Sistema de almacenamiento basado en DNN (Usenix Security'23)

Detalles de Implementación

Entorno: Python 3.9, PyTorch 1.13.1, procesador AMD EPYC 7513, GPU RTX A6000
Hiperparámetros: Tamaño de lote 4096, optimizador Adam, tasa de aprendizaje 0,001, máximo de épocas de entrenamiento 5

Resultados Experimentales

Resultados Principales

Sistema	Gasto Promedio de Almacenamiento (MB)	Latencia Promedio (s)	Mejora Relativa a DEHYDRATOR
PostgreSQL	1.818	45	7,36×
Neo4j	1.770	21	7,16×
Leonard	3.991	30.233	16,17×
DEHYDRATOR	247	3.205	-

Rendimiento de Consultas

En pruebas de consultas BFS de diferentes profundidades:

Neo4j muestra mejor rendimiento (~4,92s)
DEHYDRATOR es el segundo (~32,02s)
PostgreSQL es el peor (~32,08s)

Experimentos de Ablación

Análisis de Contribución de Componentes:

Grafo original: 1.598,69 MB
Después de codificación de mapeo de campos: 405,2 MB (25,3%)
Después de codificación jerárquica: 75,98 MB (4,7%)
Después de entrenamiento del modelo: 192,42 MB (12%)

Impacto de Codificación Jerárquica:

Con codificación jerárquica: EThi 20,19M, tiempo de entrenamiento 660,69s, ECT 50,79M
Sin codificación jerárquica: EThi 268,31M, tiempo de entrenamiento 5.814,42s, ECT 1.064,25M
La codificación jerárquica reduce el tiempo de entrenamiento 8,8 veces, reduce el tamaño de ECT 20,95 veces

Análisis de Escenarios Aplicables

La derivación teórica prueba que: cuando el grado promedio davg ≥ 3, la codificación jerárquica es efectiva Verificación experimental: La codificación jerárquica es efectiva en conjuntos de datos con grados 3, 4 y 5

Trabajo Relacionado

Detección de Intrusiones

Métodos Heurísticos: HOLMES, SLEUTH, Poirot y otros construyen reglas de coincidencia basadas en MITRE ATT&CK
Detección de Anomalías: Streamspot, Unicorn, KAIROS y otros detectan intrusiones identificando desviaciones del comportamiento normal

Investigación de Ataques

Sistemas RapSheet, HERCULE, NODOZE realizan puntuación de amenazas y análisis causal
DEPIMPACT, ATLAS realizan análisis de dependencias e identificación de patrones de ataque

Compresión de Grafos

Métodos con Pérdida: Técnicas de poda como LogGC, CPR, NodeMerge, DPR
Métodos sin Pérdida: Técnicas de codificación como SEAL, ELISE, Leonard

Conclusiones y Discusión

Conclusiones Principales

DEHYDRATOR resuelve exitosamente los tres grandes desafíos del almacenamiento de grafos de procedencia: contenido sin pérdida, almacenamiento eficiente, soporte de consultas
La codificación jerárquica es la innovación clave, manejando efectivamente redundancia a nivel estructural
El Transformer de capa única es más adecuado que LSTM multicapa para tareas de almacenamiento
Supera significativamente métodos existentes en conjuntos de datos a gran escala

Limitaciones

Latencia de Almacenamiento Elevada: Promedio de 3.205 segundos, representando el 13,29% del período de tiempo del conjunto de datos
Eficiencia de Consultas: La generación autorregresiva causa latencia de consulta elevada para secuencias largas
Selección de Capacidad del Modelo: Falta de orientación teórica para determinar capacidad óptima del modelo η
Rango de Aplicabilidad: Principalmente aplicable a escenarios de almacenamiento en frío, no soporta propiedades ACID

Direcciones Futuras

Utilizar tecnologías de aceleración de IA para mejorar eficiencia de entrenamiento e inferencia
Análisis teórico para selección óptima de capacidad del modelo
Extensión a aplicaciones de bases de datos de grafos de propósito general
Optimización de algoritmos de consulta para reducir latencia

Evaluación Profunda

Fortalezas

Importancia del Problema: Resuelve puntos críticos reales en el campo de la ciberseguridad
Innovación del Método: La codificación jerárquica combina ingeniosamente características del dominio con ventajas de DNN
Suficiencia Experimental: Verificación con conjuntos de datos a gran escala, experimentos de ablación integral y análisis comparativo
Valor de Ingeniería: Mejora significativa de eficiencia de almacenamiento, fuerte practicidad

Insuficiencias

Problema de Latencia: La latencia de almacenamiento y consulta sigue siendo elevada, limitando aplicaciones en tiempo real
Análisis Teórico: Falta de orientación teórica para selección de capacidad del modelo
Rango de Aplicabilidad: Principalmente orientado a escenarios específicos de grafos de procedencia, generalización limitada
Comparación de Líneas Base: La implementación de Leonard puede contener comparación injusta

Impacto

Contribución Académica: Proporciona nueva ruta técnica para almacenamiento de grafos de procedencia
Valor Práctico: Significancia importante para infraestructura de seguridad cibernética
Reproducibilidad: Compromiso de código abierto y datos
Promoción: Método extensible a otros escenarios de almacenamiento de grafos

Escenarios Aplicables

Ciberseguridad: Sistemas EDR, búsqueda de amenazas, investigación de ataques
Almacenamiento en Frío: Archivo y análisis de datos históricos
Datos de Grafos a Gran Escala: Almacenamiento de estructuras de grafos de alto grado y alta redundancia
Consultas por Lotes: Escenarios de aplicación que requieren gran cantidad de consultas paralelas

Referencias

El artículo cita 93 referencias relacionadas, cubriendo múltiples campos incluyendo ciberseguridad, compresión de grafos y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.