Text de-identification techniques are often used to mask personally identifiable information (PII) from documents. Their ability to conceal the identity of the individuals mentioned in a text is, however, hard to measure. Recent work has shown how the robustness of de-identification methods could be assessed by attempting the reverse process of _re-identification_, based on an automated adversary using its background knowledge to uncover the PIIs that have been masked. This paper presents two complementary strategies to build stronger re-identification attacks. We first show that (1) the _order_ in which the PII spans are re-identified matters, and that aggregating predictions across multiple orderings leads to improved results. We also find that (2) reasoning models can boost the re-identification performance, especially when the adversary is assumed to have access to extensive background knowledge.
- ID del Artículo: 2510.09184
- Título: Stronger Re-identification Attacks through Reasoning and Aggregation
- Autores: Lucas Georges Gabriel Charpentier (Universidad de Oslo), Pierre Lison (Centro Informático Noruego)
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.09184
Las técnicas de desidentificación de texto se utilizan comúnmente para enmascarar información de identificación personal (PII) en documentos. Sin embargo, la capacidad de estas técnicas para ocultar menciones de identidades personales en el texto es difícil de medir. Investigaciones recientes demuestran que es posible evaluar la robustez de los métodos de desidentificación mediante el intento de un proceso inverso de re-identificación, basado en adversarios automatizados que utilizan su conocimiento de fondo para revelar la PII enmascarada. Este artículo propone dos estrategias complementarias para construir ataques de re-identificación más fuertes: (1) el orden de re-identificación de los espacios de PII es importante, y agregar predicciones en múltiples ordenamientos mejora los resultados; (2) los modelos de razonamiento pueden mejorar el rendimiento de re-identificación, particularmente cuando se asume que el adversario posee un amplio conocimiento de fondo.
La desidentificación de texto es una técnica importante de protección de privacidad que tiene como objetivo eliminar o enmascarar información de identificación personal (PII) de documentos, incluyendo identificadores directos (como nombres, números de teléfono) e identificadores indirectos (como edad, sexo, ubicación, etc.). Esta técnica tiene aplicaciones valiosas en el procesamiento de documentos sensibles como sentencias judiciales y registros médicos.
Evaluar la efectividad de los métodos de desidentificación es un desafío crítico. Los métodos de evaluación tradicionales tienen dificultades para medir con precisión el grado de protección de privacidad después de la desidentificación. Mediante la construcción de ataques de re-identificación para probar la robustez de los métodos de desidentificación, similar a las pruebas de equipo rojo en ciberseguridad, es posible evaluar y mejorar mejor las técnicas de protección de privacidad.
Los métodos de ataque de re-identificación existentes presentan las siguientes deficiencias:
- Falta de investigación sistemática sobre la importancia del orden de re-identificación de PII
- Utilización insuficiente de las capacidades de los modelos de razonamiento modernos
- Ausencia de estrategias efectivas de agregación de predicciones
Este artículo tiene como objetivo fortalecer los ataques de re-identificación en dos dimensiones: explorar diferentes estrategias de ordenamiento de re-identificación y agregar múltiples resultados de predicción; aprovechar modelos de lenguaje grande con capacidades de razonamiento para mejorar la efectividad del ataque.
- Se proponen cuatro estrategias de ordenamiento de re-identificación de PII: de arriba hacia abajo, de abajo hacia arriba, orden aleatorio y orden basado en entropía, evaluando sistemáticamente su efectividad
- Se diseña un mecanismo de agregación de votación ponderada: agregando resultados de predicción de múltiples ordenamientos se mejora significativamente la precisión de re-identificación
- Se valida la ventaja de los modelos de razonamiento: demostrando que los LLM optimizados para razonamiento superan significativamente a los modelos ajustados por instrucciones en el rendimiento de re-identificación
- Se proporciona una evaluación experimental exhaustiva: realizando experimentos sistemáticos en el conjunto de datos TAB, considerando adversarios con diferentes niveles de conocimiento de fondo
Dado un documento desidentificado (donde la PII está enmascarada), la tarea de re-identificación tiene como objetivo inferir el contenido de la PII enmascarada utilizando conocimiento de fondo. La entrada es un documento desidentificado que contiene múltiples marcas MASK, y la salida es el valor específico de PII para cada posición enmascarada.
- Etapa de Recuperación:
- Recuperación dispersa: utilizar el modelo BMx para seleccionar los 100 documentos más relevantes de la base de conocimientos de fondo
- Recuperación densa: utilizar un recuperador de estilo ColBERT entrenado para encontrar los bloques de texto más relevantes para cada espacio de PII
- Etapa de Relleno:
- Introducir bloques de texto relevantes y contexto local en el LLM
- Utilizar dos versiones del modelo Qwen3-4B: versión ajustada por instrucciones y versión optimizada para razonamiento
- Inicialización basada en ModernBERT-base para codificadores de documentos y consultas
- Entrenamiento con datos biográficos de Wikipedia, donde las muestras positivas son bloques de texto que contienen la entidad objetivo, y las negativas no la contienen
- Datos de entrenamiento aproximadamente 160,000 pares de texto local con sus correspondientes muestras positivas y negativas
- De Arriba hacia Abajo (Top-down): re-identificar PII secuencialmente en el orden en que aparecen en el documento
- De Abajo hacia Arriba (Bottom-up): re-identificar en orden inverso comenzando desde la última PII
- Orden Aleatorio (Random): seleccionar aleatoriamente PII no identificadas para procesar
- Orden Basado en Entropía (Entropy-based): calcular el valor de entropía para cada espacio de PII, identificando de menor a mayor entropía
Fórmula de cálculo de entropía:
H(s)=−∑i=1kpilogpi
donde pi es la probabilidad asignada por el LLM al i-ésimo token del espacio s.
Se utiliza un mecanismo de votación ponderada para agregar resultados de predicción de múltiples ordenamientos:
As(c)=∑i=1m1(ci=c)pi
donde As(c) es la puntuación de agregación del valor candidato c para el espacio s, 1 es la función indicadora, y pi es la probabilidad del valor candidato en la i-ésima ejecución.
- Conjunto de Datos Principal: TAB (Text Anonymization Benchmark) conjunto de prueba, que contiene 127 casos del Tribunal Europeo de Derechos Humanos (ECHR)
- Conocimiento de Fondo: dos niveles
- Conocimiento general: resúmenes de tribunales, reportes legales y casos públicos, más artículos sintéticos generados por Mistral-12B
- Caso peor: incluye el conocimiento de fondo completo que contiene todas las sentencias judiciales originales
- Precisión de Coincidencia Exacta: proporción de espacios predichos que coinciden exactamente con los valores originales
- Recuperación a Nivel de Palabra: proporción de palabras en la predicción que aparecen en el espacio original, considerando coincidencias parciales
- Recuperación Dispersa: modelo BMx
- Recuperación Densa: arquitectura ColBERT basada en ModernBERT-base
- Modelo de Relleno: versión ajustada por instrucciones y versión optimizada para razonamiento de Qwen3-4B
- Ventana de Contexto: contexto local de 1000 caracteres, bloques recuperados de 1200 caracteres
- Cantidad de Recuperación: utilizar los 10 bloques de texto más relevantes para cada espacio de PII
Bajo condiciones de conocimiento de fondo general:
- Entre estrategias de ordenamiento único, el ordenamiento basado en entropía tiene el mejor rendimiento (12.1% de coincidencia exacta)
- La votación ponderada mejora significativamente el rendimiento, la estrategia ALL alcanza 14.5%
- El rendimiento de identificación de cuasi-identificadores es superior al de identificadores directos
Bajo condiciones de conocimiento de fondo en el caso peor:
- El rendimiento mejora significativamente, la estrategia de agregación ALL alcanza 48.7% de coincidencia exacta
- La tasa de identificación de identificadores directos supera el 77%
- Mejora significativa en comparación con el modelo ajustado por instrucciones
- En el caso peor, la estrategia de agregación ALL alcanza 57.2% de coincidencia exacta
- La estrategia de ordenamiento único basada en entropía muestra un rendimiento destacado (55.0%)
- Importancia Limitada del Ordenamiento: las diferencias de rendimiento entre diferentes estrategias de ordenamiento único son relativamente pequeñas
- Efecto Significativo de la Agregación: la agregación de múltiples ordenamientos siempre supera a las estrategias de ordenamiento único
- Ventaja del Modelo de Razonamiento: los modelos optimizados para razonamiento muestran mejoras sustanciales en comparación con los modelos ajustados por instrucciones
- Papel Crítico del Conocimiento de Fondo: el conocimiento de fondo enriquecido mejora significativamente la efectividad de re-identificación
- Cuasi-identificadores Más Fáciles de Identificar: el rendimiento de re-identificación de cuasi-identificadores generalmente supera al de identificadores directos
Los resultados de recuperación a nivel de palabra son consistentes con la tendencia de coincidencia exacta, pero con valores más altos, indicando que el modelo puede identificar parcialmente correctamente el contenido de PII.
- Métodos basados en reglas
- Técnicas estadísticas
- Modelos neuronales de etiquetado de secuencias
- Métodos de modelos de lenguaje grande
- Morris et al. utilizando marcos de información de Wikipedia como conocimiento de fondo
- Charpentier y Lison proponiendo métodos de re-identificación mejorados por recuperación
- Este artículo explora el papel del ordenamiento y el razonamiento sobre esta base
- Estrategias de Agregación Efectivas: agregar predicciones en múltiples ordenamientos mejora significativamente el rendimiento de re-identificación
- Ventaja Evidente del Modelo de Razonamiento: los LLM optimizados para razonamiento muestran mejor rendimiento en tareas de re-identificación
- Importancia Crítica del Conocimiento de Fondo: el conocimiento de fondo enriquecido es un factor clave para la re-identificación exitosa
- Potencial del Ordenamiento Basado en Entropía: aunque la mejora es limitada, la estrategia de ordenamiento basado en entropía muestra un rendimiento relativamente estable
- Limitación del Tamaño del Modelo: solo se probó una única arquitectura y tamaño de modelo
- Limitación del Idioma: solo se consideró conocimiento de fondo en inglés
- Configuración de Cero Ejemplos: no se exploró el potencial del aprendizaje con pocos ejemplos
- Limitación del Tipo de Datos: no se consideraron otros tipos de datos como tablas o grafos de conocimiento
- Explorar el efecto de diferentes arquitecturas y tamaños de modelos
- Integrar conocimiento de fondo multilingüe
- Investigar estrategias de cálculo de entropía dinámica
- Integrar fuentes de datos estructurados
- Importancia del Problema: la evaluación de protección de privacidad es una dirección de investigación importante actual
- Innovación Metodológica: exploración sistemática del papel del ordenamiento y estrategias de agregación
- Experimentación Exhaustiva: experimentos de ablación completos en conjuntos de datos reales
- Valor Práctico: proporciona herramientas valiosas de evaluación adversarial para mejorar métodos de desidentificación
- Escritura Clara: estructura clara del artículo y descripción precisa de detalles técnicos
- Análisis Teórico Insuficiente: falta análisis teórico profundo sobre por qué ciertos ordenamientos o estrategias de agregación son más efectivos
- Costo Computacional Alto: el tiempo de inferencia del modelo de razonamiento es 25 veces mayor que el del modelo de instrucciones, limitando la practicidad
- Conjunto de Datos Único: validación solo en datos del dominio legal, la generalización requiere verificación
- Consideración Adversarial Insuficiente: no se consideran estrategias adversariales que la defensa podría adoptar
- Contribución Académica: proporciona nuevos métodos e ideas para el campo de evaluación de protección de privacidad
- Valor Práctico: ayuda a desarrollar sistemas de desidentificación más robustos
- Reproducibilidad: proporciona detalles de implementación detallados e información del modelo
- Inspiración: proporciona múltiples direcciones valiosas para investigación posterior
- Evaluación de Protección de Privacidad: evaluar la robustez de métodos de desidentificación de texto
- Pruebas de Equipo Rojo: realizar pruebas de seguridad antes de desplegar sistemas de desidentificación
- Mejora de Métodos: guiar el desarrollo de técnicas de desidentificación más fuertes
- Verificación de Cumplimiento: ayudar a las organizaciones a evaluar la efectividad de sus medidas de protección de privacidad
El artículo cita trabajos importantes en los campos de protección de privacidad, desidentificación de texto y generación aumentada por recuperación, proporcionando una base teórica sólida para la investigación. Particularmente digno de atención es el trabajo anterior de Charpentier y Lison (2025), que este artículo extiende significativamente.
Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones valiosas en el importante campo de la evaluación de protección de privacidad. Aunque presenta algunas limitaciones, los métodos propuestos tienen un valor práctico importante y significado académico, sentando las bases para el desarrollo futuro de este campo.