2025-11-17T12:40:13.303016

Over-Threshold Multiparty Private Set Intersection for Collaborative Network Intrusion Detection

Arpaci, Boutaba, Kerschbaum

An important function of collaborative network intrusion detection is to analyze the network logs of the collaborators for joint IP addresses. However, sharing IP addresses in plain is sensitive and may be even subject to privacy legislation as it is personally identifiable information. In this paper, we present the privacy-preserving collection of IP addresses. We propose a single collector, over-threshold private set intersection protocol. In this protocol $N$ participants identify the IP addresses that appear in at least $t$ participant's sets without revealing any information about other IP addresses. Using a novel hashing scheme, we reduce the computational complexity of the previous state-of-the-art solution from $O(M(N \log{M}/t)^{2t})$ to $O(t^2M\binom{N}{t})$, where $M$ denotes the dataset size. This reduction makes it practically feasible to apply our protocol to real network logs. We test our protocol using joint networks logs of multiple institutions. Additionally, we present two deployment options: a collusion-safe deployment, which provides stronger security guarantees at the cost of increased communication overhead, and a non-interactive deployment, which assumes a non-colluding collector but offers significantly lower communication costs and applicable to many use cases of collaborative network intrusion detection similar to ours.

academic

Intersección de Conjunto Privado Multipartidista Sobre-Umbral para Detección Colaborativa de Intrusiones en Red

Información Básica

ID del Artículo: 2510.12045
Título: Over-Threshold Multiparty Private Set Intersection for Collaborative Network Intrusion Detection
Autores: Onur Eren Arpaci, Raouf Boutaba, Florian Kerschbaum (Universidad de Waterloo)
Clasificación: cs.CR (Criptografía y Seguridad), cs.NI (Arquitectura de Redes e Internet)
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12045

Resumen

Una función importante en la detección colaborativa de intrusiones en red es analizar los registros de red de los colaboradores para identificar direcciones IP comunes. Sin embargo, compartir direcciones IP en texto plano es sensible e incluso puede estar sujeto a leyes de privacidad, ya que constituye información de identificación personal. Este artículo propone un método de recopilación que preserva la privacidad de direcciones IP, presentando un protocolo de intersección de conjunto privado sobre-umbral con un único recopilador. En este protocolo, N participantes identifican direcciones IP que aparecen en los conjuntos de al menos t participantes sin revelar información alguna sobre otras direcciones IP. Mediante un esquema de hash novedoso, se reduce la complejidad computacional de la solución de última generación anterior de $O(M(N \log{M}/t)^{2t})$ a $O(t^2M\binom{N}{t})$ , donde M representa el tamaño del conjunto de datos. Esta reducción hace que sea práctico aplicar el protocolo a registros de red reales.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central en la detección colaborativa de intrusiones en red es cómo identificar ataques multi-institucionales mientras se protege la privacidad. La investigación demuestra que el 75% de los ataques institucionales se propagan a una segunda institución dentro de un día, y más del 40% se propagan dentro de una hora. Los atacantes típicamente utilizan un pequeño número de direcciones IP externas para atacar simultáneamente múltiples instituciones. Si una dirección IP externa se conecta a al menos t instituciones dentro de una ventana de tiempo específica, puede clasificarse como maliciosa con una recuperación del 95%.

Desafíos de Privacidad

Los métodos tradicionales requieren que las instituciones compartan registros de red en texto plano, lo que presenta riesgos graves de privacidad:

Cumplimiento Legal: Las direcciones IP se clasifican como información de identificación personal según GDPR, PIPEDA, CCPA y otras leyes
Sensibilidad de Datos: Los datos de red sin procesar son más sensibles que las alertas de seguridad, conteniendo abundante información sensible irrelevante
Escala de Datos: Los datos sin procesar son varios órdenes de magnitud más grandes que las alertas de seguridad, haciendo que las soluciones existentes sean computacionalmente inviables

Limitaciones de Métodos Existentes

Kissner and Song 26: Requiere O(N) rondas de comunicación, complejidad computacional O(N³M³)
Mahdavi et al. 34: Aunque mejora la complejidad de comunicación, el costo computacional sigue siendo excesivo, con complejidad O(M(N logM/t)²ᵗ)

Contribuciones Principales

Esquema de Hash Novedoso: Propone un algoritmo de hash innovador que reduce la complejidad computacional de O(M(N logM/t)²ᵗ) a O(t²M(N choose t)), logrando complejidad lineal en M
Mejora de Practicidad: Permite que el protocolo maneje registros de red a escala real, completando la detección en 170 segundos con 33 instituciones participantes y hasta 144,045 direcciones IP
Opciones de Implementación Dual:
- Implementación Resistente a Colusión: Proporciona garantías de seguridad más fuertes, pero con mayor sobrecarga de comunicación
- Implementación No-Interactiva: Asume recopilador no-colusivo, reduciendo significativamente los costos de comunicación
Prueba de Seguridad: Demuestra la seguridad del protocolo bajo el modelo de computación multipartidista semi-honesto
Validación Práctica: Evaluación utilizando registros de red reales del proyecto CANARIE IDS

Explicación Detallada del Método

Definición de Tarea

Intersección de Conjunto Privado Multipartidista Sobre-Umbral (OT-MP-PSI):

Entrada: N participantes, cada uno poseyendo un conjunto Sᵢ de como máximo M elementos
Salida: Identificar elementos que aparecen en al menos t conjuntos, sin revelar información sobre elementos por debajo del umbral
Restricción: Modelo de seguridad semi-honesto, los participantes siguen el protocolo pero pueden intentar aprender información adicional

Componentes Técnicos Principales

1. Compartición Secreta de Shamir

Utiliza un esquema de umbral (t,n), donde cualquier t partes pueden reconstruir el secreto V, y menos de t partes no pueden obtener información alguna:

P(x) = c_{t-1}x^{t-1} + c_{t-2}x^{t-2} + ... + c_1x + V

2. Función Pseudoaleatoria Olvidadiza (OPRF)

Los participantes aprenden H_K(x) sin conocer la clave K, y el titular de la clave no conoce la entrada x ni los valores de salida.

3. Compartición Secreta Pseudoaleatoria Olvidadiza (OPR-SS)

Combina las propiedades de seguridad de la compartición secreta y OPRF, permitiendo que los participantes obtengan acciones secretas únicas del titular de la clave.

Arquitectura del Protocolo

Implementación No-Interactiva

Creación de Acciones: Cada participante crea acciones secretas para cada elemento en su conjunto
Mapeo de Hash: Utiliza el nuevo esquema de hash para mapear acciones a cubetas de tamaño 1
Reconstrucción: El agregador intenta interpolación de Lagrange para todas las combinaciones de t participantes
Notificación de Resultados: El agregador notifica a los participantes los índices reconstruidos exitosamente

Implementación Resistente a Colusión

Utiliza el protocolo OPR-SS en lugar de compartir claves, calculando la función de hash mediante protocolo OPRF multi-clave, proporcionando garantías más fuertes contra colusión.

Puntos de Innovación Técnica

Esquema de Hash Novedoso

Idea Central: Utiliza cubetas de tamaño 1 para evitar colisiones de hash, en lugar de acomodarlas:

Manejo de Colisiones: Cuando múltiples elementos se mapean a la misma cubeta, utiliza ordenamiento pseudoaleatorio para seleccionar el más pequeño
Estrategia Multi-Tabla: Cada participante crea múltiples tablas, asegurando que los valores perdidos aparezcan en otras tablas
Control de Probabilidad de Fallo: Controla la probabilidad de fallo por debajo de 2⁻⁴⁰ mediante 20 tablas

Ventajas Clave:

El agregador solo necesita intentar combinaciones de participantes, no combinaciones de acciones
La complejidad se reduce de exponencial a lineal (respecto a M)
Evita los grandes factores constantes de los métodos tradicionales de cubetización

Técnicas de Optimización

Inversión de Ordenamiento: Las dos tablas consecutivas utilizan la misma función de ordenamiento, las tablas pares invierten el ordenamiento
Utilización de Cubetas Vacías: La segunda inserción utiliza cubetas vacías después de la primera inserción

Configuración Experimental

Conjunto de Datos

Datos Reales: Registros de conexión de red de 54 instituciones del proyecto CANARIE IDS
Rango Temporal: 1-8 de noviembre de 2023, aproximadamente 8 mil millones de entradas de registro diarias
Escala de Datos: Aproximadamente 700GB diarios (comprimido con gzip)
Método de Procesamiento: Procesamiento en lotes por hora, extrayendo conexiones de IP externa a IP interna

Métricas de Evaluación

Tiempo de Reconstrucción: Tiempo para que el agregador complete la reconstrucción
Tiempo de Generación de Acciones: Tiempo para que un participante individual cree acciones
Complejidad de Comunicación: Sobrecarga total de comunicación del protocolo
Corrección: Verificación de probabilidad de fallo

Métodos de Comparación

Mahdavi et al. 34: Solución OT-MP-PSI de última generación actual
Límites Teóricos: Comparación con límites de probabilidad de fallo calculados

Detalles de Implementación

Lenguaje de Programación: Julia, 430 líneas de código
Biblioteca Criptográfica: SHA.jl, Nettle.jl
Campo Finito: Número primo de Mersenne de 61 bits
Entorno de Hardware: 8×procesadores Intel Xeon E7-8870, 80 núcleos físicos, 1TB de memoria

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento

En comparación con Mahdavi et al. 34:

Mejora de Velocidad: Al menos dos órdenes de magnitud, hasta 23,066 veces más rápido
Escalabilidad: Con M=10⁵, este método requiere cientos de segundos, mientras que el método de comparación requiere días

Rendimiento en Datos Reales

Rendimiento en datos CANARIE:

Tiempo Promedio de Reconstrucción: 170 segundos
Tiempo Máximo de Reconstrucción: 438 segundos (40 instituciones, 220,011 direcciones IP)
Instituciones Participantes Promedio: 33
Tamaño Máximo Promedio de Conjunto: 144,045 direcciones IP

Análisis de Complejidad

Complejidad Computacional

Agregador: O(t²M(N choose t))
Participantes (No-Interactivo): O(tM)
Casos Especiales: N=t=2 es O(M), N=t es O(N²M)

Complejidad de Comunicación

Implementación No-Interactiva: O(tMN)
Implementación Resistente a Colusión: O(tkMN), 5 rondas de comunicación

Verificación de Corrección

Probabilidad Teórica de Fallo: 2⁻⁴⁰
Verificación Experimental: En 10⁷ pruebas, los fallos reales están muy por debajo del límite teórico
Optimización de Tablas: Optimizado de 28 tablas teóricas a 20 tablas prácticas

Trabajo Relacionado

Soluciones OT-MP-PSI

Kissner and Song 26: Primera solución, utilizando representación polinomial, complejidad O(N³M³)
Mahdavi et al. 34: Rondas constantes, complejidad O(M(N logM/t)²ᵗ)
Ma et al. 33: Aplicable a entradas pequeñas y dominios pequeños, complejidad O(N|S|)

Problemas Relacionados

Intersección de Conjunto Privado con Umbral (TPSI): Aprender la intersección si y solo si el tamaño de la intersección excede el umbral
Quorum-PSI: Caso especial de OT-MP-PSI, solo participantes específicos tienen salida

Técnicas de Hash

Hash de Cuco: Utilizado para evitar colisiones de hash, ampliamente aplicado en protocolos PSI
Hash de Cuco 2D: Diseñado específicamente para PSI de dos partes, logrando complejidad O(M)

Conclusiones y Discusión

Conclusiones Principales

Avance en Practicidad: Primera vez que OT-MP-PSI es prácticamente viable a escala de registros de red reales
Mejora de Eficiencia: Logra mejora de rendimiento de órdenes de magnitud mediante el nuevo esquema de hash
Implementación Flexible: Proporciona dos opciones de implementación adaptadas a diferentes requisitos de seguridad
Validación Práctica: Verifica la practicidad del protocolo en entornos de red multi-institucionales reales

Limitaciones

Modelo Semi-Honesto: Aunque extensible al modelo malicioso, sigue siendo vulnerable a ataques de sustitución de entrada
Fuga de Tamaño de Conjunto: El protocolo central no trata el tamaño del conjunto de participantes como información privada
Confianza en Agregador: La implementación no-interactiva requiere confiar en que el agregador no coluda con los participantes
Restricción de Umbral: Cuando t se acerca a N/2 y N es grande, la ventaja de complejidad puede no ser evidente

Direcciones Futuras

Seguridad Maliciosa: Extender el protocolo para resistir atacantes activos
Umbral Dinámico: Soportar computación multi-umbral sin costo adicional para clientes
Optimización a Gran Escala: Optimizar aún más el procesamiento de combinaciones de participantes
Privacidad Mejorada: Explorar técnicas de privacidad diferencial para proteger información de tamaño de conjunto

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: El nuevo esquema de hash es un avance importante en la tecnología existente, reduciendo la complejidad exponencial a lineal
Alto Valor Práctico: Resuelve el problema clave de privacidad en la detección colaborativa de intrusiones del mundo real
Experimentación Suficiente: Incluye tanto análisis teórico como validación con datos reales, con configuración experimental razonable
Implementación de Ingeniería Completa: Proporciona implementación de código abierto, mejorando la reproducibilidad
Seguridad Rigurosa: Proporciona prueba de seguridad formal y dos opciones de implementación

Deficiencias

Limitación del Modelo de Seguridad: El modelo semi-honesto puede no ser suficientemente fuerte en algunos escenarios prácticos
Selección de Parámetros: La selección de 20 tablas se basa en optimización empírica, con orientación teórica insuficiente
Límites de Escalabilidad: La aplicabilidad a escala extremadamente grande (como nivel de Internet global) no se ha explorado suficientemente
Comparación de Referencia Limitada: Principalmente comparado con un método de referencia, faltando comparación de rendimiento más completa

Impacto

Valor Académico: Proporciona una nueva ruta técnica para el campo de la computación multipartidista segura
Significado Práctico: Resuelve directamente necesidades reales en el campo de la seguridad de redes
Promoción Tecnológica: El esquema de hash puede ser aplicable a otros problemas de computación multipartidista
Potencial de Estandarización: Tiene potencial para convertirse en protocolo estándar para detección colaborativa de intrusiones

Escenarios Aplicables

Seguridad de Red Multi-Institucional: Protección colaborativa de instituciones similares como universidades y hospitales
Servicios de Seguridad en la Nube: Análisis de registros que preserva privacidad en centros de operaciones de seguridad
Intercambio de Inteligencia de Amenazas: Intercambio de indicadores de amenaza bajo restricciones de privacidad
Requisitos de Cumplimiento: Colaboración de datos que cumple con regulaciones de privacidad como GDPR

Referencias

Este artículo cita 53 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo criptografía, seguridad de redes y computación multipartidista, proporcionando una base teórica sólida y contexto técnico completo.

Evaluación General: Este es un artículo de alta calidad en criptografía aplicada que logra un buen equilibrio entre innovación teórica y aplicación práctica. El nuevo esquema de hash propuesto no solo representa un avance importante en teoría, sino que también demuestra valor significativo en aplicaciones prácticas. La validación experimental es suficiente, el análisis de seguridad es riguroso, y proporciona una contribución técnica importante al campo de la seguridad de redes colaborativa.