An information theorist's tour of differential privacy
Sarwate, Calmon, Kosut et al.
Since being proposed in 2006, differential privacy has become a standard method for quantifying certain risks in publishing or sharing analyses of sensitive data. At its heart, differential privacy measures risk in terms of the differences between probability distributions, which is a central topic in information theory. A differentially private algorithm is a channel between the underlying data and the output of the analysis. Seen in this way, the guarantees made by differential privacy can be understood in terms of properties of this channel. In this article we examine a few of the key connections between information theory and the formulation/application of differential privacy, giving an ``operational significance'' for relevant information measures.
academic
La tournée d'un théoricien de l'information à travers la confidentialité différentielle
Depuis son introduction en 2006, la confidentialité différentielle est devenue la méthode standard pour quantifier certains risques dans la publication ou le partage d'analyses de données sensibles. Au cœur de la confidentialité différentielle se trouve la mesure du risque par la divergence entre distributions de probabilité, un sujet central de la théorie de l'information. Les algorithmes de confidentialité différentielle constituent un canal entre les données sous-jacentes et la sortie de l'analyse. De ce point de vue, les garanties fournies par la confidentialité différentielle peuvent être comprises par les propriétés de ce canal. Cet article examine plusieurs connexions clés entre la théorie de l'information et la formulation/application de la confidentialité différentielle, en fournissant une « signification opérationnelle » aux mesures d'information pertinentes.
Besoin de protection de la vie privée : Avec l'avènement de l'ère du mégadonnées, comment publier des résultats d'analyse de données utiles tout en protégeant la vie privée des individus est devenu un défi clé
Absence de fondements théoriques : Les méthodes existantes de protection de la vie privée manquent de fondements théoriques rigoureux et de méthodes opérationnelles pour quantifier les risques
Connexions interdisciplinaires : Il existe des liens profonds entre la confidentialité différentielle et la théorie de l'information, mais une analyse théorique systématique fait défaut
Unification théorique : Comprendre de manière unifiée les différents concepts et mécanismes de la confidentialité différentielle du point de vue de la théorie de l'information
Signification opérationnelle : Fournir des interprétations opérationnelles claires pour les mesures d'information en confidentialité différentielle
Orientation pratique : Fournir des orientations théoriques pour la conception et l'optimisation des mécanismes de confidentialité différentielle
Établissement d'un cadre théorique : Exposition systématique des connexions entre la confidentialité différentielle et la théorie de l'information, considérant les algorithmes de confidentialité différentielle comme des canaux
Perspective du test d'hypothèse : Réinterprétation de la définition de la confidentialité différentielle du point de vue du test d'hypothèse, fournissant une compréhension opérationnelle
Application de la théorie des divergences : Analyse approfondie de la relation entre les f-divergences et la confidentialité différentielle, en particulier la divergence de hockey-stick
Méthodes de comptabilité de la vie privée : Synthèse des méthodes d'analyse combinatoire basées sur la distribution des pertes de confidentialité (PLD)
Théorie d'optimisation des mécanismes : Fourniture d'un cadre théorique de l'information pour l'optimisation des mécanismes de confidentialité différentielle et d'algorithmes concrets
La tâche centrale de cet article est de comprendre et d'analyser la confidentialité différentielle du point de vue de la théorie de l'information, incluant spécifiquement :
Entrée : ensemble de données sensibles D = (x₁, x₂, ..., xₙ)
Sortie : sortie randomisée Y satisfaisant les garanties de confidentialité différentielle
Contraintes : pour toute paire d'ensembles de données adjacents (D, D'), satisfaire la confidentialité différentielle (ε, δ)
Considération des algorithmes de confidentialité différentielle comme des canaux allant des données à la sortie, permettant l'application d'outils de théorie de l'information pour l'analyse
Utilisation systématique de la théorie des f-divergences, en particulier la divergence de hockey-stick, fournissant une interprétation intuitive des paramètres de confidentialité différentielle
Unification théorique : La confidentialité différentielle peut être complètement comprise et analysée par les outils de théorie de l'information
Interprétation opérationnelle : La perspective du test d'hypothèse fournit une signification opérationnelle intuitive pour la confidentialité différentielle
Orientation d'optimisation : Le cadre d'optimisation théorique de l'information peut concevoir de meilleurs mécanismes de confidentialité
Théorie fondamentale de la confidentialité différentielle (Dwork et al.)
Résultats classiques de la théorie de l'information (Csiszár, Rényi, etc.)
Méthodes de comptabilité de la vie privée (diverses méthodes numériques et analytiques)
Applications en apprentissage automatique (DP-SGD, etc.)
Progrès récents (données synthétiques, sélection de paramètres, etc.)
Cet article fournit une perspective complète de la théorie de l'information sur la confidentialité différentielle et constitue une contribution théorique importante dans ce domaine. En considérant les algorithmes de confidentialité différentielle comme des canaux, les auteurs ont appliqué avec succès les outils de théorie de l'information pour analyser et optimiser les mécanismes de confidentialité, fournissant des perspectives précieuses tant pour la recherche théorique que pour les applications pratiques.