Disclosing private information via publication of a machine learning model is often a concern. Intuitively, publishing a learned model should be less risky than publishing a dataset. But how much risk is there? In this paper, we present a principled disclosure metric called \emph{gradient uniqueness} that is derived from an upper bound on the amount of information disclosure from publishing a learned model. Gradient uniqueness provides an intuitive way to perform privacy auditing. The mathematical derivation of gradient uniqueness is general, and does not make any assumption on the model architecture, dataset type, or the strategy of an attacker. We examine a simple defense based on monitoring gradient uniqueness, and find that it achieves privacy comparable to classical methods such as DP-SGD, while being substantially better in terms of (utility) testing accuracy.
- ID статьи: 2510.10902
- Название: Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness
- Авторы: Mahmoud Abdelghafar (Rice University), Maryam Aliakbarpour (Rice University), Chris Jermaine (Rice University)
- Классификация: cs.LG stat.ML
- Дата публикации: 13 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.10902v1
Публикация моделей машинного обучения может привести к утечке приватной информации, что является серьёзной проблемой конфиденциальности. Интуитивно понятно, что публикация обученной модели должна быть менее рискованной, чем прямая публикация набора данных, но насколько велик этот риск? В данной работе предложен принципиальный метод измерения степени раскрытия информации — уникальность градиента (Gradient Uniqueness, GNQ), основанный на математическом выводе верхней границы раскрытия информации при публикации обученной модели. Уникальность градиента предоставляет интуитивный метод для аудита конфиденциальности, математический вывод которого универсален и не делает никаких предположений о архитектуре модели, типе набора данных или стратегии атакующего. Исследование показывает, что простые методы защиты, основанные на мониторинге GNQ, обеспечивают конфиденциальность, сравнимую с классическими методами, такими как DP-SGD, при этом демонстрируя лучшую точность на тестовом наборе.
Основная проблема, которую решает данное исследование: как количественно оценить риск утечки конфиденциальности при публикации моделей машинного обучения. Конкретнее, когда модель обучается с использованием стохастического градиентного спуска (SGD) и публикуются финальные параметры модели, сколько информации о данных обучения может вывести атакующий?
- Острая практическая необходимость: Обучение современных систем ИИ (таких как большие языковые модели) требует огромных затрат, организации неохотно существенно модифицировать алгоритм обучения ради защиты конфиденциальности
- Ограничения существующих методов: Дифференциальная приватность (DP-SGD) хотя и обеспечивает теоретические гарантии, но серьёзно снижает производительность модели
- Отсутствие средств количественной оценки: Существующие методы в основном основаны на экспериментах с атаками и лишены теоретически обоснованных показателей количественной оценки риска конфиденциальности
- Чрезмерная консервативность методов дифференциальной приватности: DP-SGD требует добавления шума и отсечения на каждом градиенте, что приводит к серьёзному снижению производительности модели
- Методы аудита на основе атак: Зависят от конкретной стратегии атаки, лишены универсальности и теоретического обоснования
- Предположения о наихудшем случае: Существующий теоретический анализ часто основан на наихудшем сценарии, что в практических приложениях чрезмерно пессимистично
Основная идея данной работы: поскольку сам SGD обладает стохастичностью, можно ли использовать эту внутреннюю защиту конфиденциальности для количественной оценки риска без необходимости модификации алгоритма обучения? Такой подход лучше соответствует практическим требованиям приложений.
- Предложен показатель уникальности градиента (GNQ): Метод измерения риска конфиденциальности, основанный на выводе из теории информации, монотонно связанный с верхней границей утечки информации
- Универсальность теории: Математический вывод не зависит от архитектуры модели, типа набора данных или стратегии атакующего, обладает широкой применимостью
- Эмпирическая верификация: Доказано, что GNQ может эффективно предсказывать и объяснять показатели успеха различных атак
- Простой и эффективный метод защиты: Удаление точек данных с высоким риском на основе ранжирования GNQ обеспечивает защиту конфиденциальности при сохранении полезности модели
Дан открытый набор данных D={dj}j=1N, из которого без возвращения равномерно выбирается приватный набор обучения Dt. Модель с параметрами hθ обучается с использованием стохастического градиентного спуска. Атакующий наблюдает финальные параметры модели θNr и стремится вывести, находится ли некоторая точка данных dj в наборе обучения Dt.
Определение 1 (Уникальность градиента): Для пакета обучения i уникальность градиента точки данных dj относительно пакета i определяется как:
GNQij=gijTS+gij
где:
- S=∑k=1,k=jNgikgikT∈RNp×Np
- S+ обозначает псевдообратную матрицу Мура-Пенроуза
- gij=∇θ[ℓ[θi,dj]]∈RNp — градиент функции потерь в точке данных dj
Теорема (неформальная версия): Объём информации (в битах), который любой атакующий может извлечь, проверяя θNr для определения dj∈Dt, ограничен функцией, монотонно возрастающей относительно ∑i=1Nr−1GNQij.
Вычисление GNQ может быть геометрически представлено как:
- Построение эллипсоида, суммирующего все градиенты
- GNQij измеряет аномальность градиента точки данных dj относительно этого эллипсоида
- Чем более "уникален" градиент (отклоняется от направления других градиентов), тем выше значение GNQ и больше риск конфиденциальности
- Основание в теории информации: Основано на теории взаимной информации, устанавливает математическую связь между GNQ и верхней границей утечки информации
- Независимость от атак: Не зависит от конкретного метода атаки, обеспечивает универсальную оценку риска конфиденциальности
- Геометрическая интерпретация: Через геометрический анализ пространства градиентов обеспечивает интуитивное понимание риска
- Вычислительная эффективность: Предложены методы аппроксимации, такие как диагонализация, делающие метод применимым к крупномасштабным моделям
- MNIST: Распознавание рукописных цифр
- CIFAR-10/100: Классификация естественных изображений
- AT&T Database of Faces: Распознавание лиц
- Tiny ImageNet: Крупномасштабная классификация изображений
- IMDB: Анализ тональности
- MLP: Многослойный перцептрон
- CNN: Сверточная нейронная сеть
- ResNet: Остаточная сеть (компьютерное зрение)
- BERT: Классификатор на основе Transformer для текста
- Защита конфиденциальности: AUC ROC атаки вывода членства (MIA)
- Полезность модели: Точность на тестовом наборе
- Атака реконструкции: Качество реконструкции при обратной инженерии модели
- Baseline: Стандартное обучение без защиты конфиденциальности
- DP-SGD: Дифференциально-приватный стохастический градиентный спуск (ϵ∈{2,8,512})
- GNQ-based: Метод защиты на основе уникальности градиента
Таблица 1 показывает сравнение метода фильтрации GNQ с DP-SGD:
| Набор данных | Модель | Установка | AUC ROC | Точность на тесте |
|---|
| CIFAR10 | ResNet | Baseline | 0.7294 | 80.80% |
| | Удаление топ-10% GNQ | 0.5122 | 71.33% |
| | DP-SGD (ε=2) | 0.5008 | 41.83% |
| CIFAR100 | ResNet | Baseline | 0.8752 | 49.58% |
| | Удаление топ-20% GNQ | 0.5137 | 34.92% |
| | DP-SGD (ε=2) | 0.5015 | 6.83% |
Ключевые находки:
- Метод GNQ способен снизить показатель успеха атаки MIA до уровня случайного угадывания (AUC ≈ 0.5)
- При одинаковом уровне защиты конфиденциальности точность модели метода GNQ значительно выше, чем у DP-SGD
- Для CIFAR100 точность DP-SGD составляет всего 6.83%, тогда как метод GNQ достигает 34.92%
На рисунке 5 показана связь между GNQ и показателем успеха атаки MIA на различных наборах данных:
- На всех моделях и наборах данных показатель успеха атаки возрастает с увеличением значения GNQ
- Образцы с высокими значениями GNQ — это именно те образцы, на которых атаки более успешны
- Подтверждает эффективность GNQ как показателя риска конфиденциальности
Эксперименты на базе данных лиц AT&T показывают:
- После удаления образца с наивысшим баллом GNQ качество реконструкции при обратной инженерии модели значительно снижается
- Точность верификации снижается только с 95.31% до 94.15%, но эффект защиты конфиденциальности явно выражен
На рисунке 7 показана связь различных параметров обучения с GNQ и показателем успеха атаки:
- Количество эпох: Большее количество эпох приводит к более высокому риску конфиденциальности
- Размер набора данных: Меньшие наборы данных представляют более высокий риск
- Размер модели: Более крупные модели обычно представляют более высокий риск
- Размер пакета: Меньший размер пакета увеличивает риск
- Скорость обучения: Более высокая скорость обучения может увеличить риск
- MIA с теневыми моделями: Использование апостериорной вероятности модели как признака атаки
- Белый ящик MIA: Использование внутренней информации, такой как градиенты и активации
- MIA на основе потерь: Использование потерь модели на кандидатных точках как показателя членства
- Атаки обратного восстановления градиента: Восстановление данных обучения путём оптимизации целевой функции
Существующие методы в основном проверяют, достигает ли реализация DP заявленного уровня приватности, тогда как GNQ количественно оценивает риск конфиденциальности произвольно обученной модели.
GNQ может направлять забывание с учётом риска во время обучения и служить встроенным показателем для аудита изменений риска.
- GNQ обеспечивает теоретически обоснованный метод количественной оценки риска конфиденциальности, не зависящий от конкретной стратегии атаки
- Простой метод защиты на основе GNQ превосходит DP-SGD в компромиссе между конфиденциальностью и полезностью
- GNQ способен объяснять и предсказывать успешные модели различных атак на конфиденциальность
- Теоретические предположения: Зависит от предположений о гауссовском распределении градиентов и линейной корреляции градиентов
- Вычислительная сложность: Для крупномасштабных моделей требуются методы аппроксимации (такие как диагонализация)
- Простота метода защиты: Рассматривается только одна стратегия защиты — удаление точек данных
- Более тонкие стратегии защиты: Вместо полного удаления точек данных добавление небольшого количества шума к градиентам высокорисковых точек
- Применение машинного забывания: GNQ может служить инструментом для развивающейся области машинного забывания
- Оптимизация для крупномасштабных моделей: Разработка более эффективных методов вычисления GNQ
- Сильная теоретическая новизна: Впервые устанавливает количественную связь между геометрией градиентов и утечкой конфиденциальности с позиции теории информации
- Высокая практическая ценность: Обеспечивает метод оценки конфиденциальности без необходимости модификации алгоритма обучения, соответствует практическим требованиям
- Хорошая универсальность: Метод не зависит от конкретной архитектуры модели или стратегии атаки
- Достаточная экспериментальная верификация: Эффективность метода проверена на множестве наборов данных и моделей
- Сильные теоретические предположения: Предположение о гауссовском распределении градиентов может не выполняться на практике
- Проблемы масштабируемости: Даже при использовании методов аппроксимации вычислительные затраты для сверхкрупномасштабных моделей остаются значительными
- Единственность стратегии защиты: Исследуется только один метод защиты — удаление данных
- Долгосрочные гарантии конфиденциальности: Отсутствует анализ устойчивости защиты конфиденциальности в динамических условиях
- Теоретический вклад: Предоставляет новый теоретический инструмент для защиты конфиденциальности в машинном обучении
- Практическое руководство: Обеспечивает метод оценки риска конфиденциальности для реально развёрнутых систем ML
- Исследовательское вдохновение: Открывает новое направление анализа конфиденциальности на основе динамики обучения
- Корпоративные системы ML: Требуется оценка риска конфиденциальности без существенной модификации процесса обучения
- Публикация открытых моделей: Оценка и снижение риска утечки конфиденциальности перед публикацией модели
- Соответствие нормативным требованиям: Обеспечение количественного инструмента для соответствия нормативным актам о конфиденциальности
- Исследовательский инструмент: Предоставляет новый метод анализа для исследований в области защиты конфиденциальности в машинном обучении
Общая оценка: Это работа, имеющая важное теоретическое и практическое значение в области защиты конфиденциальности в машинном обучении. Предложенная в статье концепция уникальности градиента заполняет важный пробел в существующих методах, обеспечивая более практичный инструмент оценки риска конфиденциальности для реальных приложений. Несмотря на определённые ограничения в теоретических предположениях и вычислительной сложности, её инновационность и практическая применимость делают её важным вкладом в данную область.