An information theorist's tour of differential privacy
Sarwate, Calmon, Kosut et al.
Since being proposed in 2006, differential privacy has become a standard method for quantifying certain risks in publishing or sharing analyses of sensitive data. At its heart, differential privacy measures risk in terms of the differences between probability distributions, which is a central topic in information theory. A differentially private algorithm is a channel between the underlying data and the output of the analysis. Seen in this way, the guarantees made by differential privacy can be understood in terms of properties of this channel. In this article we examine a few of the key connections between information theory and the formulation/application of differential privacy, giving an ``operational significance'' for relevant information measures.
academic
Тур информационного теоретика по дифференциальной приватности
С момента своего введения в 2006 году дифференциальная приватность стала стандартным методом количественной оценки определённых рисков при публикации или совместном использовании анализа конфиденциальных данных. В основе дифференциальной приватности лежит измерение риска через расхождение между вероятностными распределениями, что является центральной темой теории информации. Алгоритмы дифференциальной приватности представляют собой канал между исходными данными и выходом анализа. С этой точки зрения гарантии, обеспечиваемые дифференциальной приватностью, можно понять через свойства этого канала. В данной работе исследуются несколько ключевых связей между теорией информации и формулировкой/применением дифференциальной приватности, предоставляя «операционный смысл» соответствующим информационным мерам.
Потребность в защите приватности: С наступлением эпохи больших данных защита личной приватности при одновременной публикации полезных результатов анализа данных стала критической задачей
Отсутствие теоретической базы: Существующие методы защиты приватности лишены строгой теоретической основы и операционных методов количественной оценки риска
Междисциплинарные связи: Между дифференциальной приватностью и теорией информации существуют глубокие связи, но отсутствует систематический теоретический анализ
Установление теоретической базы: Систематическое изложение связей между дифференциальной приватностью и теорией информации, рассмотрение алгоритмов дифференциальной приватности как каналов
Перспектива проверки гипотез: Переинтерпретация определения дифференциальной приватности с позиции проверки гипотез, обеспечивающая операционное понимание
Применение теории расхождений: Глубокий анализ связи f-расхождений и дифференциальной приватности, особенно hockey-stick расхождения
Методы учёта приватности: Обобщение методов композиционного анализа на основе распределения потерь приватности (PLD)
Теория оптимизации механизмов: Предоставление информационно-теоретической базы для оптимизации механизмов дифференциальной приватности и конкретных алгоритмов
Систематическое использование теории f-расхождений, особенно hockey-stick расхождения, обеспечивающее интуитивное толкование параметров дифференциальной приватности
Основную теорию дифференциальной приватности (Dwork и др.)
Классические результаты теории информации (Csiszár, Rényi и др.)
Методы учёта приватности (различные численные и аналитические методы)
Приложения машинного обучения (DP-SGD и т.д.)
Последние достижения (синтетические данные, выбор параметров и т.д.)
Данная статья предоставляет всеобъемлющую информационно-теоретическую перспективу дифференциальной приватности и является важным теоретическим вкладом в эту область. Рассматривая алгоритмы дифференциальной приватности как каналы, авторы успешно применили инструменты теории информации для анализа и оптимизации механизмов приватности, предоставляя ценные идеи как для теоретических исследований, так и для практических приложений.