2025-11-10T03:06:11.822945

An information theorist's tour of differential privacy

Sarwate, Calmon, Kosut et al.
Since being proposed in 2006, differential privacy has become a standard method for quantifying certain risks in publishing or sharing analyses of sensitive data. At its heart, differential privacy measures risk in terms of the differences between probability distributions, which is a central topic in information theory. A differentially private algorithm is a channel between the underlying data and the output of the analysis. Seen in this way, the guarantees made by differential privacy can be understood in terms of properties of this channel. In this article we examine a few of the key connections between information theory and the formulation/application of differential privacy, giving an ``operational significance'' for relevant information measures.
academic

Тур информационного теоретика по дифференциальной приватности

Основная информация

  • ID статьи: 2510.10316
  • Название: An information theorist's tour of differential privacy
  • Авторы: Anand D. Sarwate, Flavio P. Calmon, Oliver Kosut, Lalitha Sankar
  • Классификация: cs.IT cs.CR math.IT math.ST stat.TH
  • Дата публикации: 11 октября 2024 г. (подано на arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10316

Аннотация

С момента своего введения в 2006 году дифференциальная приватность стала стандартным методом количественной оценки определённых рисков при публикации или совместном использовании анализа конфиденциальных данных. В основе дифференциальной приватности лежит измерение риска через расхождение между вероятностными распределениями, что является центральной темой теории информации. Алгоритмы дифференциальной приватности представляют собой канал между исходными данными и выходом анализа. С этой точки зрения гарантии, обеспечиваемые дифференциальной приватностью, можно понять через свойства этого канала. В данной работе исследуются несколько ключевых связей между теорией информации и формулировкой/применением дифференциальной приватности, предоставляя «операционный смысл» соответствующим информационным мерам.

Исследовательский контекст и мотивация

Проблемный фон

  1. Потребность в защите приватности: С наступлением эпохи больших данных защита личной приватности при одновременной публикации полезных результатов анализа данных стала критической задачей
  2. Отсутствие теоретической базы: Существующие методы защиты приватности лишены строгой теоретической основы и операционных методов количественной оценки риска
  3. Междисциплинарные связи: Между дифференциальной приватностью и теорией информации существуют глубокие связи, но отсутствует систематический теоретический анализ

Исследовательская мотивация

  1. Теоретическое единство: Единое понимание различных концепций и механизмов дифференциальной приватности с позиции теории информации
  2. Операционный смысл: Предоставление ясного операционного толкования информационных мер в дифференциальной приватности
  3. Практическое руководство: Теоретическое обоснование для проектирования и оптимизации механизмов дифференциальной приватности

Основные вклады

  1. Установление теоретической базы: Систематическое изложение связей между дифференциальной приватностью и теорией информации, рассмотрение алгоритмов дифференциальной приватности как каналов
  2. Перспектива проверки гипотез: Переинтерпретация определения дифференциальной приватности с позиции проверки гипотез, обеспечивающая операционное понимание
  3. Применение теории расхождений: Глубокий анализ связи f-расхождений и дифференциальной приватности, особенно hockey-stick расхождения
  4. Методы учёта приватности: Обобщение методов композиционного анализа на основе распределения потерь приватности (PLD)
  5. Теория оптимизации механизмов: Предоставление информационно-теоретической базы для оптимизации механизмов дифференциальной приватности и конкретных алгоритмов

Подробное описание методов

Определение задачи

Основная задача данной работы — понимание и анализ дифференциальной приватности с позиции теории информации, включая:

  • Входные данные: конфиденциальный набор данных D = (x₁, x₂, ..., xₙ)
  • Выходные данные: рандомизированный выход Y, удовлетворяющий гарантиям дифференциальной приватности
  • Ограничения: для любой пары соседних наборов данных (D, D') выполняется (ε, δ)-дифференциальная приватность

Теоретическая база

1. Перспектива проверки гипотез

Дифференциальная приватность может быть понята как задача двоичной проверки гипотез:

  • H₀: Y ~ P_{Y|D}(y)
  • H₁: Y ~ P_{Y|D'}(y)

где (ε, δ)-дифференциальная приватность эквивалентна кривой компромисса ошибок, удовлетворяющей:

P_FA + e^ε P_MD ≥ 1 - δ
e^ε P_FA + P_MD ≥ 1 - δ

2. Случайная переменная потерь приватности (PLRV)

Определение случайной переменной потерь приватности:

L_{D,D'} = log(dP_{Y|D}/dP_{Y|D'}(Y))

Математическое ожидание PLRV равно расхождению Кульбака-Лейблера:

E[L] = D_KL(P_{Y|D} || P_{Y|D'})  (когда Y ~ P_{Y|D})

3. Связь f-расхождений

Унификация различных мер приватности через f-расхождения:

D_f(P || Q) = ∫_Y f(dP/dQ) dQ = E_Q[f(e^L)]

В частности, hockey-stick расхождение E_γ напрямую даёт параметр δ:

δ(ε) = sup_{D~D'} E_{e^ε}(P_{Y|D} || P_{Y|D'})

Технические инновации

1. Унификация с позиции канала

Рассмотрение алгоритмов дифференциальной приватности как канала от данных к выходу, позволяющее применять инструменты теории информации для анализа

2. Глубокое применение теории расхождений

Систематическое использование теории f-расхождений, особенно hockey-stick расхождения, обеспечивающее интуитивное толкование параметров дифференциальной приватности

3. Метод PLD для композиционного анализа

Композиционный анализ на основе распределения потерь приватности, включающий:

  • Методы на основе БПФ
  • Методы граничных оценок
  • Методы центральной предельной теоремы

Экспериментальная установка

Теоретическая аналитическая база

Данная работа является в основном теоретической, с проверкой теории следующими способами:

1. Анализ механизмов добавления шума

  • Гауссов шум: анализ кривых компромисса ошибок при различных дисперсиях σ
  • Шум Лапласа: анализ эффекта защиты приватности при различных параметрах λ
  • Ступенчатый механизм: оптимальный механизм ε-дифференциальной приватности при однократной композиции

2. Постановка задач оптимизации

Для функций запросов с чувствительностью s рассматриваются два класса оптимизации:

Оптимизация при однократной композиции:

minimize max_{|a|≤s} max_z log(p_Z(z)/p_Z(z-a))
subject to E[c(Z)] ≤ C

Оптимизация в режиме большой композиции:

minimize max_{|a|≤s} D_KL(p(z) || p(z-a))
subject to E[c(Z)] ≤ C

Метрики оценки

  • Параметры приватности: плотность значений (ε, δ)
  • Потери полезности: ожидаемая стоимость Ec(Z)
  • Производительность композиции: накопление потерь приватности при множественных запросах

Результаты экспериментов

Основные результаты

1. Сравнение механизмов добавления шума

  • Гауссов механизм: близок к оптимальному в режиме малой чувствительности
  • Механизм Лапласа: традиционный выбор, но не оптимален
  • Ступенчатый механизм: оптимальное решение при однократной композиции с кусочно-постоянной плотностью

2. Производительность оптимизированных механизмов

  • Механизм Cactus: оптимальный механизм в режиме большой композиции с характеристиками распределения «с шипами»
  • Механизм Шрёдингера: оптимальный механизм при малой чувствительности, решаемый подобно уравнению Шрёдингера

3. Точность учёта приватности

  • Метод БПФ: численно точен, но требует доминирующей меры
  • Метод перевала: аналитически точен и обрабатывает адаптивную композицию
  • Метод ЦПТ: асимптотически оптимален, но может быть чрезмерно консервативен

Теоретические открытия

1. Универсальность расхождений

Все значимые меры приватности могут быть выражены через функции PLRV, что доказывает универсальность PLRV

2. Негауссовость оптимального шума

В большинстве случаев оптимальный механизм приватности не является гауссовым шумом, а имеет сложную структуру распределения

3. Сложность композиции

Точный композиционный анализ является #P-полной задачей в вычислительном отношении, требуя приближённых методов

Связанные работы

Основы дифференциальной приватности

  • Исходное определение Dwork и др. (2006)
  • Различные варианты: Rényi DP, GDP, f-DP и т.д.
  • Приложения: перепись населения США 2020 г., промышленные развёртывания

Связи с теорией информации

  • Теория сравнения экспериментов Блэквелла
  • Теория f-расхождений (Csiszár, Ali-Silvey)
  • Проверка гипотез и информационные меры

Учёт приватности

  • Базовые теоремы композиции
  • Продвинутые границы композиции
  • Численные и аналитические методы

Заключение и обсуждение

Основные выводы

  1. Теоретическое единство: Дифференциальная приватность может быть полностью понята и проанализирована с использованием инструментов теории информации
  2. Операционное толкование: Перспектива проверки гипотез обеспечивает интуитивное операционное значение дифференциальной приватности
  3. Руководство по оптимизации: Информационно-теоретическая база оптимизации может использоваться для проектирования улучшенных механизмов приватности

Ограничения

  1. Вычислительная сложность: Точный анализ приватности вычислительно сложен
  2. Выбор параметров: Выбор подходящих (ε, δ) на практике остаётся вызовом
  3. Разрыв практичности: Существует пробел между теоретически оптимальными механизмами и практическими приложениями

Будущие направления

  1. Приватность больших моделей: Защита приватности в крупномасштабных моделях машинного обучения
  2. Приватность при тонкой настройке: Защита приватности при тонкой настройке предварительно обученных моделей
  3. Синтетические данные: Генерация синтетических данных с защитой приватности
  4. Калибровка параметров: Выбор параметров на основе рисков атак

Глубокая оценка

Преимущества

  1. Теоретическая глубина: Обеспечивает глубокое информационно-теоретическое понимание дифференциальной приватности
  2. Систематичность: Полное охватывание различных теоретических аспектов дифференциальной приватности
  3. Практическая ценность: Предоставление конкретных методов оптимизации для проектирования механизмов
  4. Ясность изложения: Доступное объяснение сложных теоретических концепций

Недостатки

  1. Ограниченная экспериментальная проверка: В основном теоретическая работа, недостаточно крупномасштабной экспериментальной проверки
  2. Недостаточное практическое руководство: Преобразование теоретических результатов в практические приложения требует дополнительной работы
  3. Вычислительная сложность: Некоторые теоретически оптимальные методы имеют чрезмерно высокую вычислительную сложность

Влияние

  1. Академическая ценность: Предоставление важной теоретической базы для исследований дифференциальной приватности
  2. Междисциплинарное значение: Содействие кросс-дисциплинарным исследованиям между теорией информации и защитой приватности
  3. Практические перспективы: Предоставление теоретического руководства для проектирования систем защиты приватности

Применимые сценарии

  1. Теоретические исследования: Теоретический анализ и проектирование механизмов дифференциальной приватности
  2. Оптимизация систем: Оптимизация производительности существующих систем защиты приватности
  3. Применение в обучении: Важный справочный материал для преподавания теории дифференциальной приватности

Библиография

Статья цитирует 77 важных работ, охватывающих:

  • Основную теорию дифференциальной приватности (Dwork и др.)
  • Классические результаты теории информации (Csiszár, Rényi и др.)
  • Методы учёта приватности (различные численные и аналитические методы)
  • Приложения машинного обучения (DP-SGD и т.д.)
  • Последние достижения (синтетические данные, выбор параметров и т.д.)

Данная статья предоставляет всеобъемлющую информационно-теоретическую перспективу дифференциальной приватности и является важным теоретическим вкладом в эту область. Рассматривая алгоритмы дифференциальной приватности как каналы, авторы успешно применили инструменты теории информации для анализа и оптимизации механизмов приватности, предоставляя ценные идеи как для теоретических исследований, так и для практических приложений.