2025-11-18T11:19:13.666890

Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness

Abdelghafar, Aliakbarpour, Jermaine

Disclosing private information via publication of a machine learning model is often a concern. Intuitively, publishing a learned model should be less risky than publishing a dataset. But how much risk is there? In this paper, we present a principled disclosure metric called \emph{gradient uniqueness} that is derived from an upper bound on the amount of information disclosure from publishing a learned model. Gradient uniqueness provides an intuitive way to perform privacy auditing. The mathematical derivation of gradient uniqueness is general, and does not make any assumption on the model architecture, dataset type, or the strategy of an attacker. We examine a simple defense based on monitoring gradient uniqueness, and find that it achieves privacy comparable to classical methods such as DP-SGD, while being substantially better in terms of (utility) testing accuracy.

academic

Количественная оценка раскрытия информации при градиентном спуске с использованием уникальности градиента

Основная информация

ID статьи: 2510.10902
Название: Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness
Авторы: Mahmoud Abdelghafar (Rice University), Maryam Aliakbarpour (Rice University), Chris Jermaine (Rice University)
Классификация: cs.LG stat.ML
Дата публикации: 13 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.10902v1

Аннотация

Публикация моделей машинного обучения может привести к утечке приватной информации, что является серьёзной проблемой конфиденциальности. Интуитивно понятно, что публикация обученной модели должна быть менее рискованной, чем прямая публикация набора данных, но насколько велик этот риск? В данной работе предложен принципиальный метод измерения степени раскрытия информации — уникальность градиента (Gradient Uniqueness, GNQ), основанный на математическом выводе верхней границы раскрытия информации при публикации обученной модели. Уникальность градиента предоставляет интуитивный метод для аудита конфиденциальности, математический вывод которого универсален и не делает никаких предположений о архитектуре модели, типе набора данных или стратегии атакующего. Исследование показывает, что простые методы защиты, основанные на мониторинге GNQ, обеспечивают конфиденциальность, сравнимую с классическими методами, такими как DP-SGD, при этом демонстрируя лучшую точность на тестовом наборе.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование: как количественно оценить риск утечки конфиденциальности при публикации моделей машинного обучения. Конкретнее, когда модель обучается с использованием стохастического градиентного спуска (SGD) и публикуются финальные параметры модели, сколько информации о данных обучения может вывести атакующий?

Важность проблемы

Острая практическая необходимость: Обучение современных систем ИИ (таких как большие языковые модели) требует огромных затрат, организации неохотно существенно модифицировать алгоритм обучения ради защиты конфиденциальности
Ограничения существующих методов: Дифференциальная приватность (DP-SGD) хотя и обеспечивает теоретические гарантии, но серьёзно снижает производительность модели
Отсутствие средств количественной оценки: Существующие методы в основном основаны на экспериментах с атаками и лишены теоретически обоснованных показателей количественной оценки риска конфиденциальности

Ограничения существующих методов

Чрезмерная консервативность методов дифференциальной приватности: DP-SGD требует добавления шума и отсечения на каждом градиенте, что приводит к серьёзному снижению производительности модели
Методы аудита на основе атак: Зависят от конкретной стратегии атаки, лишены универсальности и теоретического обоснования
Предположения о наихудшем случае: Существующий теоретический анализ часто основан на наихудшем сценарии, что в практических приложениях чрезмерно пессимистично

Исследовательская мотивация

Основная идея данной работы: поскольку сам SGD обладает стохастичностью, можно ли использовать эту внутреннюю защиту конфиденциальности для количественной оценки риска без необходимости модификации алгоритма обучения? Такой подход лучше соответствует практическим требованиям приложений.

Основные вклады

Предложен показатель уникальности градиента (GNQ): Метод измерения риска конфиденциальности, основанный на выводе из теории информации, монотонно связанный с верхней границей утечки информации
Универсальность теории: Математический вывод не зависит от архитектуры модели, типа набора данных или стратегии атакующего, обладает широкой применимостью
Эмпирическая верификация: Доказано, что GNQ может эффективно предсказывать и объяснять показатели успеха различных атак
Простой и эффективный метод защиты: Удаление точек данных с высоким риском на основе ранжирования GNQ обеспечивает защиту конфиденциальности при сохранении полезности модели

Подробное описание методики

Определение задачи

Дан открытый набор данных $D = \{d_j\}_{j=1}^N$ , из которого без возвращения равномерно выбирается приватный набор обучения $D_t$ . Модель с параметрами $h_\theta$ обучается с использованием стохастического градиентного спуска. Атакующий наблюдает финальные параметры модели $\theta_{N_r}$ и стремится вывести, находится ли некоторая точка данных $d_j$ в наборе обучения $D_t$ .

Определение уникальности градиента

Определение 1 (Уникальность градиента): Для пакета обучения $i$ уникальность градиента точки данных $d_j$ относительно пакета $i$ определяется как:

$\text{GNQ}_{ij} = g_{ij}^T S^+ g_{ij}$

где:

$S = \sum_{k=1, k \neq j}^N g_{ik} g_{ik}^T \in \mathbb{R}^{N_p \times N_p}$
$S^+$ обозначает псевдообратную матрицу Мура-Пенроуза
$g_{ij} = \nabla_\theta[\ell[\theta_i, d_j]] \in \mathbb{R}^{N_p}$ — градиент функции потерь в точке данных $d_j$

Основной теоретический результат

Теорема (неформальная версия): Объём информации (в битах), который любой атакующий может извлечь, проверяя $\theta_{N_r}$ для определения $d_j \in D_t$ , ограничен функцией, монотонно возрастающей относительно $\sum_{i=1}^{N_r-1} \text{GNQ}_{ij}$ .

Геометрическая интуиция

Вычисление GNQ может быть геометрически представлено как:

Построение эллипсоида, суммирующего все градиенты
$\text{GNQ}_{ij}$ измеряет аномальность градиента точки данных $d_j$ относительно этого эллипсоида
Чем более "уникален" градиент (отклоняется от направления других градиентов), тем выше значение GNQ и больше риск конфиденциальности

Технические инновации

Основание в теории информации: Основано на теории взаимной информации, устанавливает математическую связь между GNQ и верхней границей утечки информации
Независимость от атак: Не зависит от конкретного метода атаки, обеспечивает универсальную оценку риска конфиденциальности
Геометрическая интерпретация: Через геометрический анализ пространства градиентов обеспечивает интуитивное понимание риска
Вычислительная эффективность: Предложены методы аппроксимации, такие как диагонализация, делающие метод применимым к крупномасштабным моделям

Экспериментальная установка

Наборы данных

MNIST: Распознавание рукописных цифр
CIFAR-10/100: Классификация естественных изображений
AT&T Database of Faces: Распознавание лиц
Tiny ImageNet: Крупномасштабная классификация изображений
IMDB: Анализ тональности

Архитектуры моделей

MLP: Многослойный перцептрон
CNN: Сверточная нейронная сеть
ResNet: Остаточная сеть (компьютерное зрение)
BERT: Классификатор на основе Transformer для текста

Метрики оценки

Защита конфиденциальности: AUC ROC атаки вывода членства (MIA)
Полезность модели: Точность на тестовом наборе
Атака реконструкции: Качество реконструкции при обратной инженерии модели

Методы сравнения

Baseline: Стандартное обучение без защиты конфиденциальности
DP-SGD: Дифференциально-приватный стохастический градиентный спуск ( $\epsilon \in \{2, 8, 512\}$ )
GNQ-based: Метод защиты на основе уникальности градиента

Результаты экспериментов

Основные результаты

Таблица 1 показывает сравнение метода фильтрации GNQ с DP-SGD:

Набор данных	Модель	Установка	AUC ROC	Точность на тесте
CIFAR10	ResNet	Baseline	0.7294	80.80%
		Удаление топ-10% GNQ	0.5122	71.33%
		DP-SGD (ε=2)	0.5008	41.83%
CIFAR100	ResNet	Baseline	0.8752	49.58%
		Удаление топ-20% GNQ	0.5137	34.92%
		DP-SGD (ε=2)	0.5015	6.83%

Ключевые находки:

Метод GNQ способен снизить показатель успеха атаки MIA до уровня случайного угадывания (AUC ≈ 0.5)
При одинаковом уровне защиты конфиденциальности точность модели метода GNQ значительно выше, чем у DP-SGD
Для CIFAR100 точность DP-SGD составляет всего 6.83%, тогда как метод GNQ достигает 34.92%

GNQ как предсказатель успеха атак

На рисунке 5 показана связь между GNQ и показателем успеха атаки MIA на различных наборах данных:

На всех моделях и наборах данных показатель успеха атаки возрастает с увеличением значения GNQ
Образцы с высокими значениями GNQ — это именно те образцы, на которых атаки более успешны
Подтверждает эффективность GNQ как показателя риска конфиденциальности

Эксперименты с атаками реконструкции

Эксперименты на базе данных лиц AT&T показывают:

После удаления образца с наивысшим баллом GNQ качество реконструкции при обратной инженерии модели значительно снижается
Точность верификации снижается только с 95.31% до 94.15%, но эффект защиты конфиденциальности явно выражен

Влияние параметров SGD на конфиденциальность

На рисунке 7 показана связь различных параметров обучения с GNQ и показателем успеха атаки:

Количество эпох: Большее количество эпох приводит к более высокому риску конфиденциальности
Размер набора данных: Меньшие наборы данных представляют более высокий риск
Размер модели: Более крупные модели обычно представляют более высокий риск
Размер пакета: Меньший размер пакета увеличивает риск
Скорость обучения: Более высокая скорость обучения может увеличить риск

Связанные работы

Аудит конфиденциальности на основе атак

MIA с теневыми моделями: Использование апостериорной вероятности модели как признака атаки
Белый ящик MIA: Использование внутренней информации, такой как градиенты и активации
MIA на основе потерь: Использование потерь модели на кандидатных точках как показателя членства
Атаки обратного восстановления градиента: Восстановление данных обучения путём оптимизации целевой функции

Аудит дифференциальной приватности

Существующие методы в основном проверяют, достигает ли реализация DP заявленного уровня приватности, тогда как GNQ количественно оценивает риск конфиденциальности произвольно обученной модели.

Машинное забывание

GNQ может направлять забывание с учётом риска во время обучения и служить встроенным показателем для аудита изменений риска.

Выводы и обсуждение

Основные выводы

GNQ обеспечивает теоретически обоснованный метод количественной оценки риска конфиденциальности, не зависящий от конкретной стратегии атаки
Простой метод защиты на основе GNQ превосходит DP-SGD в компромиссе между конфиденциальностью и полезностью
GNQ способен объяснять и предсказывать успешные модели различных атак на конфиденциальность

Ограничения

Теоретические предположения: Зависит от предположений о гауссовском распределении градиентов и линейной корреляции градиентов
Вычислительная сложность: Для крупномасштабных моделей требуются методы аппроксимации (такие как диагонализация)
Простота метода защиты: Рассматривается только одна стратегия защиты — удаление точек данных

Направления будущих исследований

Более тонкие стратегии защиты: Вместо полного удаления точек данных добавление небольшого количества шума к градиентам высокорисковых точек
Применение машинного забывания: GNQ может служить инструментом для развивающейся области машинного забывания
Оптимизация для крупномасштабных моделей: Разработка более эффективных методов вычисления GNQ

Глубокая оценка

Преимущества

Сильная теоретическая новизна: Впервые устанавливает количественную связь между геометрией градиентов и утечкой конфиденциальности с позиции теории информации
Высокая практическая ценность: Обеспечивает метод оценки конфиденциальности без необходимости модификации алгоритма обучения, соответствует практическим требованиям
Хорошая универсальность: Метод не зависит от конкретной архитектуры модели или стратегии атаки
Достаточная экспериментальная верификация: Эффективность метода проверена на множестве наборов данных и моделей

Недостатки

Сильные теоретические предположения: Предположение о гауссовском распределении градиентов может не выполняться на практике
Проблемы масштабируемости: Даже при использовании методов аппроксимации вычислительные затраты для сверхкрупномасштабных моделей остаются значительными
Единственность стратегии защиты: Исследуется только один метод защиты — удаление данных
Долгосрочные гарантии конфиденциальности: Отсутствует анализ устойчивости защиты конфиденциальности в динамических условиях

Влияние

Теоретический вклад: Предоставляет новый теоретический инструмент для защиты конфиденциальности в машинном обучении
Практическое руководство: Обеспечивает метод оценки риска конфиденциальности для реально развёрнутых систем ML
Исследовательское вдохновение: Открывает новое направление анализа конфиденциальности на основе динамики обучения

Применимые сценарии

Корпоративные системы ML: Требуется оценка риска конфиденциальности без существенной модификации процесса обучения
Публикация открытых моделей: Оценка и снижение риска утечки конфиденциальности перед публикацией модели
Соответствие нормативным требованиям: Обеспечение количественного инструмента для соответствия нормативным актам о конфиденциальности
Исследовательский инструмент: Предоставляет новый метод анализа для исследований в области защиты конфиденциальности в машинном обучении

Общая оценка: Это работа, имеющая важное теоретическое и практическое значение в области защиты конфиденциальности в машинном обучении. Предложенная в статье концепция уникальности градиента заполняет важный пробел в существующих методах, обеспечивая более практичный инструмент оценки риска конфиденциальности для реальных приложений. Несмотря на определённые ограничения в теоретических предположениях и вычислительной сложности, её инновационность и практическая применимость делают её важным вкладом в данную область.