2025-11-15T15:52:10.939408

DEHYDRATOR: Enhancing Provenance Graph Storage via Hierarchical Encoding and Sequence Generation

Ying, Zhu, Lv et al.
As the scope and impact of cyber threats have expanded, analysts utilize audit logs to hunt threats and investigate attacks. The provenance graphs constructed from kernel logs are increasingly considered as an ideal data source due to their powerful semantic expression and attack historic correlation ability. However, storing provenance graphs with traditional databases faces the challenge of high storage overhead, given the high frequency of kernel events and the persistence of attacks. To address this, we propose Dehydrator, an efficient provenance graph storage system. For the logs generated by auditing frameworks, Dehydrator uses field mapping encoding to filter field-level redundancy, hierarchical encoding to filter structure-level redundancy, and finally learns a deep neural network to support batch querying. We have conducted evaluations on seven datasets totaling over one billion log entries. Experimental results show that Dehydrator reduces the storage space by 84.55%. Dehydrator is 7.36 times more efficient than PostgreSQL, 7.16 times than Neo4j, and 16.17 times than Leonard (the work most closely related to Dehydrator, published at Usenix Security'23).
academic

DEHYDRATOR: Mejora del Almacenamiento de Grafos de Procedencia mediante Codificación Jerárquica y Generación de Secuencias

Información Básica

  • ID del Artículo: 2501.00446
  • Título: DEHYDRATOR: Enhancing Provenance Graph Storage via Hierarchical Encoding and Sequence Generation
  • Autores: Jie Ying, Tiantian Zhu*, Mingqi Lv, Tieming Chen (Universidad Tecnológica de Zhejiang)
  • Clasificación: cs.CR (Criptografía y Seguridad)
  • Revista de Publicación: IEEE Transactions on Information Forensics and Security
  • Enlace del Artículo: https://arxiv.org/abs/2501.00446

Resumen

Con la expansión del alcance e impacto de las amenazas cibernéticas, los analistas utilizan registros de auditoría para rastrear amenazas e investigar ataques. Los grafos de procedencia construidos a partir de registros del kernel se consideran cada vez más como fuentes de datos ideales debido a su potente capacidad de expresión semántica y su capacidad para asociar historiales de ataques. Sin embargo, debido a la alta frecuencia de eventos del kernel y la persistencia de los ataques, el almacenamiento de grafos de procedencia mediante bases de datos tradicionales enfrenta el desafío de altos gastos de almacenamiento. Para resolver este problema, este artículo propone DEHYDRATOR, un sistema eficiente de almacenamiento de grafos de procedencia. Para los registros generados por marcos de auditoría, DEHYDRATOR utiliza codificación de mapeo de campos para filtrar redundancia a nivel de campo, codificación jerárquica para filtrar redundancia a nivel estructural, y finalmente entrena redes neuronales profundas para soportar consultas por lotes. Evaluado en siete conjuntos de datos con un total de más de mil millones de entradas de registro, los resultados experimentales muestran que DEHYDRATOR reduce el espacio de almacenamiento en un 84,55%, siendo 7,36 veces más eficiente que PostgreSQL, 7,16 veces más eficiente que Neo4j y 16,17 veces más eficiente que Leonard.

Antecedentes y Motivación de la Investigación

Contexto del Problema

  1. Aumento de Amenazas Cibernéticas: Hasta mayo de 2024, se han registrado 9.478 incidentes de filtración de datos, con el evento MOAB de enero de 2024 filtrando 26 mil millones de registros
  2. Importancia de los Grafos de Procedencia: Los grafos de procedencia como estructuras de grafos dirigidos, donde los nodos representan entidades del sistema (procesos, archivos, sockets) y los bordes representan eventos del sistema, poseen potente capacidad de expresión semántica y capacidad de asociación de historiales de ataques
  3. Desafíos de Almacenamiento: Cuatro fenómenos causan dificultades de almacenamiento:
    • Crecimiento Irreversible: Para mantener la integridad de los datos, solo se añaden datos sin eliminarlos
    • Expansión Rápida: Cada máquina genera registros a nivel de GB diariamente
    • Duración Prolongada: Las intrusiones se detectan en promedio después de 188 días
    • Demandas de Consultas: Se requiere soportar consultas a gran escala para búsqueda de amenazas y análisis causal

Limitaciones de Métodos Existentes

Los sistemas existentes de almacenamiento eficiente de grafos de procedencia (ESSPGs) se dividen en dos categorías:

  1. Métodos Basados en Poda (como LogGC, CPR, NodeMerge, DPR): Compresión con pérdida, que puede causar falsos negativos en componentes de nivel superior
  2. Métodos Basados en Codificación (como SEAL, SLEUTH, ELISE, Leonard): O no pueden soportar consultas, o los componentes auxiliares ocupan gran cantidad de espacio de almacenamiento

Motivación de la Investigación

Los métodos existentes no pueden satisfacer simultáneamente tres requisitos críticos:

  • Contenido sin Pérdida: Retener todos los datos para evitar falsos negativos
  • Almacenamiento Eficiente: Minimizar gastos de almacenamiento
  • Soporte de Consultas: Manejar demandas de consultas a gran escala

Contribuciones Principales

  1. Propuesta del Sistema DEHYDRATOR: Un sistema eficiente de almacenamiento de grafos de procedencia que supera las limitaciones de métodos existentes, utilizando codificación de mapeo de campos para filtrar redundancia a nivel de campo, codificación jerárquica para filtrar redundancia a nivel estructural, y redes neuronales profundas para soportar consultas por lotes
  2. Construcción de Prototipo y Evaluación a Gran Escala: Evaluación en siete conjuntos de datos (total de más de mil millones de registros), reducción del espacio de almacenamiento del 84,55%, siendo 7,36 veces, 7,16 veces y 16,17 veces más eficiente que PostgreSQL, Neo4j y Leonard respectivamente
  3. Evaluación Integral: Exploración del impacto de componentes, escenarios aplicables y límites de rendimiento, definición de la métrica de Relación de Almacenamiento-Latencia (LSR) para equilibrar gastos de almacenamiento y latencia

Detalles del Método

Definición de Tareas

Entrada: Registros del kernel brutos recopilados por marcos de auditoría Salida: Grafo de procedencia almacenado eficientemente, que soporta demandas de consultas de componentes de nivel superior Restricciones: Contenido sin pérdida, almacenamiento eficiente, soporte de consultas

Arquitectura del Sistema

DEHYDRATOR adopta un marco de tres etapas:

1. Etapa de Pretratamiento (Pretreatment)

  • Análisis de Registros: Utiliza expresiones regulares para extraer campos clave de registros brutos
  • Construcción del Grafo de Procedencia: Construye tabla de nodos NT (IdentiID, Name, Type) y tabla de bordes ET (SrcID, DstID, TimeStamp, Operation)
  • Codificación de Mapeo de Campos: Procesa tres tipos de redundancia a nivel de campo
    • Valores únicos: Reemplazados con caracteres numéricos más cortos
    • Valores repetidos: Reemplazados con índices
    • Valores incrementales: Reemplazados con desplazamientos

2. Etapa de Almacenamiento (Storage)

Codificación Jerárquica:

  • Modela el grafo de procedencia como grafo dirigido jerárquico
  • Para cada nodo v, registra todos los nodos fuente e información de bordes entrantes
  • Construye tabla de mapeo fusionado MMT y tabla de bordes jerárquica EThi
  • Estructura de lista anidada: Operation: timeOffset: nodeOffset

Entrenamiento del Modelo:

  • Selecciona decodificador único de capa Transformer
  • Modela la tarea de almacenamiento como tarea de generación de secuencias
  • Utiliza codificación char2vec, generación autorregresiva
  • Construye tabla de corrección de errores ECT para manejar errores de predicción del modelo

3. Etapa de Consulta (Query)

  • Información de Nodos: Obtiene índices a través de tabla de mapeo MT, recupera información de nodos
  • Información de Bordes: Introduce índices al modelo DNN, genera secuencias, corrección ECT, decodificación jerárquica para obtener información legible

Puntos de Innovación Técnica

  1. Diseño de Codificación Jerárquica:
    • Basado en características de consultas inversas del análisis causal
    • Comprime múltiples bordes paralelos en forma de codificación compacta
    • Aumenta densidad de información, acelera entrenamiento del modelo
  2. Selección del Modelo DNN:
    • Decodificador Transformer de capa única reemplaza LSTM multicapa
    • Mejor capacidad de paralelización y extracción de características
    • Adecuado para identificación de patrones de bajo nivel repetitivos en tareas de almacenamiento
  3. Mecanismo de Corrección de Errores:
    • Tabla ECT registra posiciones y caracteres correctos
    • Garantiza contenido sin pérdida mientras soporta compresión DNN

Configuración Experimental

Conjuntos de Datos

Siete conjuntos de datos, total de más de mil millones de registros:

  • G1-G4: Grupos CADETS, THEIA, TRACE de DARPA TC E3
  • G5-G6: Grupo TRACE de DARPA TC E4
  • G7: Subconjunto del conjunto de datos DEPIMACT
  • Número promedio de bordes: 17.754.566 (9,6 veces mayor que Leonard)

Métricas de Evaluación

  • Gastos de Almacenamiento: BPpre (preprocesamiento) y BPpost (postprocesamiento) en bytes
  • Latencia de Almacenamiento: Costo de tiempo Ts
  • Relación de Almacenamiento-Latencia: LSR = (BPpre - BPpost)/Ts

Métodos de Comparación

  • PostgreSQL: Base de datos relacional
  • Neo4j: Base de datos de grafos
  • Leonard: Sistema de almacenamiento basado en DNN (Usenix Security'23)

Detalles de Implementación

  • Entorno: Python 3.9, PyTorch 1.13.1, procesador AMD EPYC 7513, GPU RTX A6000
  • Hiperparámetros: Tamaño de lote 4096, optimizador Adam, tasa de aprendizaje 0,001, máximo de épocas de entrenamiento 5

Resultados Experimentales

Resultados Principales

SistemaGasto Promedio de Almacenamiento (MB)Latencia Promedio (s)Mejora Relativa a DEHYDRATOR
PostgreSQL1.818457,36×
Neo4j1.770217,16×
Leonard3.99130.23316,17×
DEHYDRATOR2473.205-

Rendimiento de Consultas

En pruebas de consultas BFS de diferentes profundidades:

  • Neo4j muestra mejor rendimiento (~4,92s)
  • DEHYDRATOR es el segundo (~32,02s)
  • PostgreSQL es el peor (~32,08s)

Experimentos de Ablación

Análisis de Contribución de Componentes:

  • Grafo original: 1.598,69 MB
  • Después de codificación de mapeo de campos: 405,2 MB (25,3%)
  • Después de codificación jerárquica: 75,98 MB (4,7%)
  • Después de entrenamiento del modelo: 192,42 MB (12%)

Impacto de Codificación Jerárquica:

  • Con codificación jerárquica: EThi 20,19M, tiempo de entrenamiento 660,69s, ECT 50,79M
  • Sin codificación jerárquica: EThi 268,31M, tiempo de entrenamiento 5.814,42s, ECT 1.064,25M
  • La codificación jerárquica reduce el tiempo de entrenamiento 8,8 veces, reduce el tamaño de ECT 20,95 veces

Análisis de Escenarios Aplicables

La derivación teórica prueba que: cuando el grado promedio davg ≥ 3, la codificación jerárquica es efectiva Verificación experimental: La codificación jerárquica es efectiva en conjuntos de datos con grados 3, 4 y 5

Trabajo Relacionado

Detección de Intrusiones

  • Métodos Heurísticos: HOLMES, SLEUTH, Poirot y otros construyen reglas de coincidencia basadas en MITRE ATT&CK
  • Detección de Anomalías: Streamspot, Unicorn, KAIROS y otros detectan intrusiones identificando desviaciones del comportamiento normal

Investigación de Ataques

  • Sistemas RapSheet, HERCULE, NODOZE realizan puntuación de amenazas y análisis causal
  • DEPIMPACT, ATLAS realizan análisis de dependencias e identificación de patrones de ataque

Compresión de Grafos

  • Métodos con Pérdida: Técnicas de poda como LogGC, CPR, NodeMerge, DPR
  • Métodos sin Pérdida: Técnicas de codificación como SEAL, ELISE, Leonard

Conclusiones y Discusión

Conclusiones Principales

  1. DEHYDRATOR resuelve exitosamente los tres grandes desafíos del almacenamiento de grafos de procedencia: contenido sin pérdida, almacenamiento eficiente, soporte de consultas
  2. La codificación jerárquica es la innovación clave, manejando efectivamente redundancia a nivel estructural
  3. El Transformer de capa única es más adecuado que LSTM multicapa para tareas de almacenamiento
  4. Supera significativamente métodos existentes en conjuntos de datos a gran escala

Limitaciones

  1. Latencia de Almacenamiento Elevada: Promedio de 3.205 segundos, representando el 13,29% del período de tiempo del conjunto de datos
  2. Eficiencia de Consultas: La generación autorregresiva causa latencia de consulta elevada para secuencias largas
  3. Selección de Capacidad del Modelo: Falta de orientación teórica para determinar capacidad óptima del modelo η
  4. Rango de Aplicabilidad: Principalmente aplicable a escenarios de almacenamiento en frío, no soporta propiedades ACID

Direcciones Futuras

  1. Utilizar tecnologías de aceleración de IA para mejorar eficiencia de entrenamiento e inferencia
  2. Análisis teórico para selección óptima de capacidad del modelo
  3. Extensión a aplicaciones de bases de datos de grafos de propósito general
  4. Optimización de algoritmos de consulta para reducir latencia

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Resuelve puntos críticos reales en el campo de la ciberseguridad
  2. Innovación del Método: La codificación jerárquica combina ingeniosamente características del dominio con ventajas de DNN
  3. Suficiencia Experimental: Verificación con conjuntos de datos a gran escala, experimentos de ablación integral y análisis comparativo
  4. Valor de Ingeniería: Mejora significativa de eficiencia de almacenamiento, fuerte practicidad

Insuficiencias

  1. Problema de Latencia: La latencia de almacenamiento y consulta sigue siendo elevada, limitando aplicaciones en tiempo real
  2. Análisis Teórico: Falta de orientación teórica para selección de capacidad del modelo
  3. Rango de Aplicabilidad: Principalmente orientado a escenarios específicos de grafos de procedencia, generalización limitada
  4. Comparación de Líneas Base: La implementación de Leonard puede contener comparación injusta

Impacto

  1. Contribución Académica: Proporciona nueva ruta técnica para almacenamiento de grafos de procedencia
  2. Valor Práctico: Significancia importante para infraestructura de seguridad cibernética
  3. Reproducibilidad: Compromiso de código abierto y datos
  4. Promoción: Método extensible a otros escenarios de almacenamiento de grafos

Escenarios Aplicables

  1. Ciberseguridad: Sistemas EDR, búsqueda de amenazas, investigación de ataques
  2. Almacenamiento en Frío: Archivo y análisis de datos históricos
  3. Datos de Grafos a Gran Escala: Almacenamiento de estructuras de grafos de alto grado y alta redundancia
  4. Consultas por Lotes: Escenarios de aplicación que requieren gran cantidad de consultas paralelas

Referencias

El artículo cita 93 referencias relacionadas, cubriendo múltiples campos incluyendo ciberseguridad, compresión de grafos y aprendizaje profundo, proporcionando una base teórica sólida para la investigación.