2025-11-10T03:06:11.822945

An information theorist's tour of differential privacy

Sarwate, Calmon, Kosut et al.
Since being proposed in 2006, differential privacy has become a standard method for quantifying certain risks in publishing or sharing analyses of sensitive data. At its heart, differential privacy measures risk in terms of the differences between probability distributions, which is a central topic in information theory. A differentially private algorithm is a channel between the underlying data and the output of the analysis. Seen in this way, the guarantees made by differential privacy can be understood in terms of properties of this channel. In this article we examine a few of the key connections between information theory and the formulation/application of differential privacy, giving an ``operational significance'' for relevant information measures.
academic

Un recorrido del teórico de la información por la privacidad diferencial

Información Básica

  • ID del Artículo: 2510.10316
  • Título: An information theorist's tour of differential privacy
  • Autores: Anand D. Sarwate, Flavio P. Calmon, Oliver Kosut, Lalitha Sankar
  • Clasificación: cs.IT cs.CR math.IT math.ST stat.TH
  • Fecha de Publicación: 11 de octubre de 2024 (Envío a arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10316

Resumen

Desde su introducción en 2006, la privacidad diferencial se ha convertido en el método estándar para cuantificar ciertos riesgos en la publicación o el intercambio de análisis de datos sensibles. En el núcleo de la privacidad diferencial se encuentra la medición del riesgo a través de divergencias entre distribuciones de probabilidad, un tema central en la teoría de la información. Los algoritmos de privacidad diferencial constituyen un canal entre los datos subyacentes y la salida del análisis. Desde esta perspectiva, las garantías proporcionadas por la privacidad diferencial pueden entenderse a través de las propiedades de ese canal. Este artículo investiga varias conexiones clave entre la teoría de la información y la formulación/aplicación de la privacidad diferencial, proporcionando "significado operacional" para las medidas de información relevantes.

Antecedentes de Investigación y Motivación

Contexto del Problema

  1. Necesidad de Protección de Privacidad: Con la llegada de la era del big data, cómo publicar resultados útiles de análisis de datos mientras se protege la privacidad individual se ha convertido en un desafío clave
  2. Ausencia de Fundamentos Teóricos: Los métodos existentes de protección de privacidad carecen de fundamentos teóricos rigurosos y métodos operacionales para cuantificar riesgos
  3. Conexión Interdisciplinaria: Existe una conexión profunda entre la privacidad diferencial y la teoría de la información, pero carece de análisis teórico sistemático

Motivación de la Investigación

  1. Unificación Teórica: Comprender unificadamente varios conceptos y mecanismos de privacidad diferencial desde la perspectiva de la teoría de la información
  2. Significado Operacional: Proporcionar interpretaciones operacionales claras para las medidas de información en privacidad diferencial
  3. Orientación Práctica: Proporcionar orientación teórica para el diseño y optimización de mecanismos de privacidad diferencial

Contribuciones Principales

  1. Establecimiento de Marco Teórico: Exposición sistemática de las conexiones entre privacidad diferencial y teoría de la información, considerando algoritmos de privacidad diferencial como canales
  2. Perspectiva de Prueba de Hipótesis: Reinterpretación de la definición de privacidad diferencial desde la perspectiva de prueba de hipótesis, proporcionando comprensión operacional
  3. Aplicación de Teoría de Divergencias: Análisis profundo de la relación entre f-divergencias y privacidad diferencial, particularmente la divergencia hockey-stick
  4. Métodos de Contabilidad de Privacidad: Resumen de métodos de análisis combinatorio basados en distribución de pérdida de privacidad (PLD)
  5. Teoría de Optimización de Mecanismos: Proporciona marco de optimización de teoría de la información y algoritmos concretos para mecanismos de privacidad diferencial

Explicación Detallada de Métodos

Definición de Tareas

La tarea central de este artículo es comprender y analizar la privacidad diferencial desde la perspectiva de la teoría de la información, incluyendo específicamente:

  • Entrada: Conjunto de datos sensibles D = (x₁, x₂, ..., xₙ)
  • Salida: Salida aleatorizada que satisface garantías de privacidad diferencial
  • Restricciones: Para cualquier par de conjuntos de datos adyacentes (D, D'), satisface privacidad diferencial (ε, δ)

Marco Teórico

1. Perspectiva de Prueba de Hipótesis

La privacidad diferencial puede entenderse como un problema de prueba de hipótesis binaria:

  • H₀: Y ~ P_{Y|D}(y)
  • H₁: Y ~ P_{Y|D'}(y)

Donde la privacidad diferencial (ε, δ) es equivalente a que la curva de compensación de errores satisfaga:

P_FA + e^ε P_MD ≥ 1 - δ
e^ε P_FA + P_MD ≥ 1 - δ

2. Variable Aleatoria de Pérdida de Privacidad (PLRV)

Se define la variable aleatoria de pérdida de privacidad como:

L_{D,D'} = log(dP_{Y|D}/dP_{Y|D'}(Y))

El valor esperado de PLRV es la divergencia de Kullback-Leibler:

E[L] = D_KL(P_{Y|D} || P_{Y|D'})  (cuando Y ~ P_{Y|D})

3. Conexión de f-Divergencias

Unificación de varias medidas de privacidad a través de f-divergencias:

D_f(P || Q) = ∫_Y f(dP/dQ) dQ = E_Q[f(e^L)]

En particular, la divergencia hockey-stick E_γ proporciona directamente el parámetro δ:

δ(ε) = sup_{D~D'} E_{e^ε}(P_{Y|D} || P_{Y|D'})

Puntos de Innovación Técnica

1. Unificación desde la Perspectiva de Canales

Consideración de algoritmos de privacidad diferencial como canales de datos a salida, permitiendo la aplicación de herramientas de teoría de la información para análisis

2. Aplicación Profunda de Teoría de Divergencias

Uso sistemático de la teoría de f-divergencias, particularmente la divergencia hockey-stick, proporcionando interpretaciones intuitivas de parámetros de privacidad diferencial

3. Método PLD para Análisis Combinatorio

Análisis combinatorio basado en distribución de pérdida de privacidad, incluyendo:

  • Contabilidad basada en FFT
  • Métodos de cota de cola
  • Métodos de teorema del límite central

Configuración Experimental

Marco de Análisis Teórico

Este trabajo es principalmente teórico, verificando la teoría de las siguientes maneras:

1. Análisis de Mecanismos de Ruido

  • Ruido Gaussiano: Análisis de curvas de compensación de errores bajo diferentes varianzas σ
  • Ruido de Laplace: Análisis del efecto de protección de privacidad bajo diferentes parámetros λ
  • Mecanismo Escalonado: Mecanismo óptimo de privacidad diferencial ε bajo composición única

2. Configuración de Problemas de Optimización

Para funciones de consulta con sensibilidad s, consideración de dos clases de optimización:

Optimización de Composición Única:

minimize max_{|a|≤s} max_z log(p_Z(z)/p_Z(z-a))
subject to E[c(Z)] ≤ C

Optimización en Régimen de Gran Composición:

minimize max_{|a|≤s} D_KL(p(z) || p(z-a))
subject to E[c(Z)] ≤ C

Métricas de Evaluación

  • Parámetros de Privacidad: Estrechez de valores (ε, δ)
  • Pérdida de Utilidad: Costo esperado Ec(Z)
  • Rendimiento Combinatorio: Acumulación de pérdida de privacidad bajo múltiples consultas

Resultados Experimentales

Resultados Principales

1. Comparación de Mecanismos de Ruido

  • Mecanismo Gaussiano: Cercano a óptimo en régimen de pequeña sensibilidad
  • Mecanismo de Laplace: Opción tradicional, pero no óptima
  • Mecanismo Escalonado: Solución óptima bajo composición única, con densidad constante por tramos

2. Rendimiento de Mecanismos Optimizados

  • Mecanismo Cactus: Mecanismo óptimo en régimen de gran composición, con características de distribución "espinosa"
  • Mecanismo de Schrödinger: Mecanismo óptimo bajo pequeña sensibilidad, resuelto mediante ecuación similar a Schrödinger

3. Precisión de Contabilidad de Privacidad

  • Método FFT: Numéricamente exacto pero requiere distribuciones dominantes
  • Método de Punto de Silla: Analíticamente exacto y maneja composición adaptativa
  • Método CLT: Asintóticamente óptimo pero potencialmente demasiado conservador

Hallazgos Teóricos

1. Universalidad de Divergencias

Todas las medidas de privacidad significativas pueden expresarse como funciones de PLRV, demostrando la universalidad de PLRV

2. No-Gaussianidad del Ruido Óptimo

En la mayoría de los casos, el mecanismo de privacidad óptimo no es ruido gaussiano, sino una distribución con estructura compleja

3. Complejidad de la Composición

El análisis combinatorio exacto es #P-completo computacionalmente, requiriendo métodos aproximados

Trabajo Relacionado

Fundamentos de Privacidad Diferencial

  • Definición original de Dwork et al. (2006)
  • Varias variantes: Rényi DP, GDP, f-DP, etc.
  • Aplicaciones: Censo de EE.UU. 2020, despliegues industriales

Conexiones de Teoría de la Información

  • Teoría de comparación de experimentos de Blackwell
  • Teoría de f-divergencias (Csiszár, Ali-Silvey)
  • Prueba de hipótesis y medidas de información

Contabilidad de Privacidad

  • Teoremas de composición básicos
  • Límites de composición avanzados
  • Métodos numéricos y analíticos

Conclusiones y Discusión

Conclusiones Principales

  1. Unificación Teórica: La privacidad diferencial puede entenderse y analizarse completamente a través de herramientas de teoría de la información
  2. Interpretación Operacional: La perspectiva de prueba de hipótesis proporciona significado operacional intuitivo para la privacidad diferencial
  3. Orientación de Optimización: El marco de optimización de teoría de la información puede diseñar mecanismos de privacidad mejores

Limitaciones

  1. Complejidad Computacional: El análisis exacto de privacidad es computacionalmente difícil
  2. Selección de Parámetros: Cómo elegir (ε, δ) apropiados en la práctica sigue siendo un desafío
  3. Brecha de Practicidad: Existe una brecha entre mecanismos teóricamente óptimos y aplicaciones reales

Direcciones Futuras

  1. Privacidad en Modelos Grandes: Manejo de protección de privacidad en modelos de aprendizaje automático a gran escala
  2. Privacidad en Ajuste Fino: Protección de privacidad en ajuste fino de modelos preentrenados
  3. Datos Sintéticos: Generación de datos sintéticos con protección de privacidad
  4. Calibración de Parámetros: Selección de parámetros basada en riesgo de ataque

Evaluación Profunda

Fortalezas

  1. Profundidad Teórica: Proporciona comprensión profunda de teoría de la información de la privacidad diferencial
  2. Fortaleza Sistemática: Cobertura completa de todos los aspectos teóricos de la privacidad diferencial
  3. Valor Práctico: Proporciona métodos de optimización concretos para diseño de mecanismos
  4. Claridad de Expresión: Explicación de conceptos teóricos complejos de manera comprensible

Insuficiencias

  1. Verificación Experimental Limitada: Trabajo principalmente teórico, carece de verificación experimental a gran escala
  2. Orientación Práctica Insuficiente: La transformación de resultados teóricos a aplicaciones prácticas requiere más trabajo
  3. Complejidad Computacional: Algunos métodos teóricamente óptimos tienen complejidad computacional demasiado alta

Impacto

  1. Valor Académico: Proporciona fundamentos teóricos importantes para investigación en privacidad diferencial
  2. Significado Interdisciplinario: Promueve investigación cruzada entre teoría de la información y protección de privacidad
  3. Perspectiva Práctica: Proporciona orientación teórica para diseño de sistemas de protección de privacidad

Escenarios Aplicables

  1. Investigación Teórica: Análisis teórico y diseño de mecanismos de privacidad diferencial
  2. Optimización de Sistemas: Optimización de rendimiento de sistemas de protección de privacidad existentes
  3. Aplicación Docente: Como referencia importante para enseñanza de teoría de privacidad diferencial

Referencias

El artículo cita 77 referencias importantes, cubriendo:

  • Teoría fundamental de privacidad diferencial (Dwork et al.)
  • Resultados clásicos de teoría de la información (Csiszár, Rényi, etc.)
  • Métodos de contabilidad de privacidad (varios métodos numéricos y analíticos)
  • Aplicaciones de aprendizaje automático (DP-SGD, etc.)
  • Avances recientes (datos sintéticos, selección de parámetros, etc.)

Este artículo proporciona una perspectiva integral de teoría de la información sobre privacidad diferencial, siendo una contribución teórica importante en el campo. Al considerar algoritmos de privacidad diferencial como canales, los autores han aplicado exitosamente herramientas de teoría de la información para analizar y optimizar mecanismos de privacidad, proporcionando perspectivas valiosas tanto para investigación teórica como para aplicaciones prácticas.