2025-11-11T12:07:09.802097

Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach

Huang, Zhang, Mumtaz

Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.

academic

Вывод о принадлежности к обучающим данным через метамоделирование гауссовского процесса: подход постфактум анализа

Основная информация

ID статьи: 2510.21846
Название: Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
Авторы: Yongchao Huang, Pengfei Zhang, Shahzad Mumtaz
Классификация: cs.LG cs.AI
Дата публикации: май 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.21846

Аннотация

Атаки вывода о принадлежности (MIAs) определяют, принадлежит ли точка данных к обучающему набору модели, представляя серьёзный риск конфиденциальности. Существующие методы обычно полагаются на теневые модели или требуют большого количества запросов доступа, что ограничивает их практическую применимость. В данной работе предлагается GP-MIA — эффективный и интерпретируемый метод, основанный на метамоделировании гауссовского процесса (GP). Используя постфактум метрики из одной обученной модели (такие как точность, энтропия, статистика набора данных и опциональные чувствительные признаки, такие как градиенты и измерения NTK), GP-MIA обучает классификатор GP для различения членов и не-членов, одновременно предоставляя калиброванные оценки неопределённости. Эксперименты на синтетических данных, реальных данных обнаружения мошенничества, CIFAR-10 и WikiText-2 демонстрируют, что GP-MIA достигает высокой точности и способности к обобщению, предоставляя практическую альтернативу существующим MIAs.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение проблемы атак вывода о принадлежности в моделях машинного обучения. Дана обученная модель fθ* и тестовая пара образцов (x,y), целью является разработка правила вывода M(fθ*, x, y) ∈ {0,1}, определяющего, принадлежит ли образец обучающему набору.

Значимость проблемы

Атаки вывода о принадлежности представляют серьёзную угрозу конфиденциальности, особенно в чувствительных областях, таких как здравоохранение, финансы или безопасность, где раскрытие информации о том, использовалась ли личная запись для обучения, может само по себе представлять утечку конфиденциальности. Глубокие нейронные сети уязвимы для таких атак, поскольку они демонстрируют систематические различия в поведении на обучающих и невидимых данных.

Ограничения существующих методов

Методы теневых моделей: требуют обучения нескольких вспомогательных моделей для имитации целевого поведения, высокие вычислительные затраты
Атаки на основе отношения правдоподобия (LiRA): требуют многократных запросов к модели и значительных вычислительных ресурсов для калибровки
Ограничения практической применимости: существующие методы обычно требуют значительных вычислительных ресурсов, тщательно подготовленных вспомогательных данных или многократных запросов к целевой модели

Исследовательская мотивация

В данной работе предлагается эффективный метод, требующий только постфактум доступа к одной обученной модели, избегающий переобучения или внутреннего доступа, при этом предоставляющий калиброванные оценки неопределённости для повышения эффективности и интерпретируемости.

Основные вклады

Предложение фреймворка GP-MIA: новый метод атаки вывода о принадлежности постфактум, основанный на метамоделировании гауссовского процесса
Разработка многоуровневой системы признаков: включая базовые признаки (метрики производительности, уверенность), признаки градиентов и признаки NTK в единой репрезентации
Реализация эффективного вывода: требует только одного прямого прохода (опциональный обратный проход), избегая обучения теневых моделей
Предоставление квантификации неопределённости: классификатор GP естественным образом предоставляет калиброванные вероятностные предсказания и оценки неопределённости
Проверка способности к кросс-доменному обобщению: валидация эффективности на четырёх различных областях: синтетические данные, обнаружение мошенничества, классификация изображений и моделирование языка

Подробное описание метода

Определение задачи

Дана обученная модель контролируемого обучения fθ*: Rd → Rm, задача вывода о принадлежности состоит в разработке функции M(fθ*, x, y) для определения, принадлежит ли тестовый образец (x,y) обучающему набору X = {(xi, yi)}ni=1.

Архитектура модели

Конструирование признаков

GP-MIA извлекает три класса диагностических признаков:

Базовые признаки ϕcommon(x):
- Метрики производительности: точность классификации или MSE регрессии
- Измерения уверенности: средняя энтропия вероятностей предсказания
- Статистика входных данных: среднее значение и дисперсия признаков
- Амплитуда возмущения: расстояние ℓ2 весов модели до и после тонкой настройки
Признаки градиентов ϕgrad(x):
```
ϕgrad(x) = [∥gθ(x)∥F, ∥Jx(x)∥F, ℓ(fθ*(x), y), ∥gℓ(x, y)∥2]
```
где gθ(x) = ∇θfθ*(x) — матрица Якобиана параметров, Jx(x) = ∂fθ*(x)/∂x — матрица Якобиана входа
Признаки NTK ϕntk(x):
```
ϕntk(x) = [τλ(x), ∥hλ(x)∥2, maxi|hλ(x)i|, smax(x), s̄(x)]
```
основаны на показателях рычага и статистике проекции нейронного касательного ядра kθ*(x, x') = gθ(x)gθ(x')⊤

Классификатор GP

Используется классификатор гауссовского процесса с ядром RBF + белый шум:

k(x,x') = σ² exp(-1/(2ℓ²) ∥x-x'∥²)

Для бинарной классификации GP объединяется с правдоподобием Бернулли:

p(y* = 1 | x*,D) = ∫ σ(f(x*)) p(f(x*) | x*,D) df(x*)

Технические инновации

Парадигма постфактум анализа: избегает затрат на обучение теневых моделей и повторные запросы
Слияние мультимодальных признаков: объединяет признаки производительности, статистики и чувствительности для предоставления богатых сигналов о принадлежности
Квантификация неопределённости: фреймворк GP естественным образом предоставляет калиброванные вероятностные предсказания
Модельная независимость: применим к различным моделям контролируемого обучения

Экспериментальная установка

Наборы данных

Синтетические данные классификации: сгенерированы с использованием scikit-learn, содержат 2000 сбалансированных образцов из двухкластерной гауссовской смеси
Обнаружение мошенничества с кредитными картами: открытый набор данных OpenML, 284 807 транзакций, только 492 положительных примера
CIFAR-10: классификация изображений, обучение модели CNN на 20 эпохах
WikiText-2: моделирование языка, использование компактной модели в стиле GPT-2 (3 слоя, 4 головы, 192-мерное встраивание)

Метрики оценки

AUROC: площадь под кривой рабочих характеристик приёмника
AUPR: площадь под кривой точность-полнота
TPR@1%FPR: истинно положительный коэффициент при 1% ложноположительного коэффициента
Матрица ошибок: точность и полнота

Методы сравнения

Основное сравнение с традиционными методами теневых моделей и методом LiRA с концептуальной точки зрения, с акцентом на демонстрацию преимуществ эффективности GP-MIA.

Детали реализации

Обучение GP с использованием вариационного вывода
Ядро RBF + белый шум
Нормализация признаков
Обучающий набор составляет 80%, тестовый набор — 20%

Результаты экспериментов

Основные результаты

Синтетические данные: GP способен адаптироваться к различным распределениям членов/не-членов, демонстрируя надлежащую неопределённость на граничных случаях
Обнаружение мошенничества:
- AUROC = 0,959
- AUPR = 0,961
- TPR@1%FPR = 0,60
- Средняя вероятность членства ≈ 0,81, не-членства ≈ 0,25
CIFAR-10:
- Обучающий набор данных членства: вероятность 0,93
- Новый набор данных CIFAR-10: вероятность 0,84
- Набор данных SVHN/увеличенный: вероятность ≈ 0,04
- Интерполированный набор данных: вероятность 0,37
WikiText-2:
- AUROC = 1,000
- AUPR = 1,000
- TPR@1%FPR = 1,000
- Нулевые ошибки классификации, идеальное разделение

Абляционные эксперименты

Адаптивность классификатора GP проверяется двумя синтетическими экспериментами:

Эксперимент с большим разделением: когда распределения членов и не-членов значительно отличаются, GP демонстрирует явную способность к классификации
Эксперимент с малым разделением: после добавления данных не-членов, более близких к распределению членов, GP лучше различает неоднозначные случаи

Анализ случаев

Визуализация t-SNE и PCA показывает разделимость членов и не-членов в пространстве признаков
Графики распределения вероятностей показывают бимодальные характеристики предсказаний GP
Квантификация неопределённости хорошо работает на граничных случаях

Экспериментальные находки

Базовые признаки уже предоставляют сильный дискриминативный сигнал
Признаки чувствительности дополнительно улучшают производительность на сложных моделях (например, языковых моделях)
Фреймворк GP остаётся устойчивым при различных распределительных сдвигах
Языковые модели демонстрируют наиболее явную утечку информации о принадлежности

Связанные работы

Основные направления исследований

Методы теневых моделей (Shokri и др.): обучение нескольких вспомогательных моделей для имитации целевого поведения
Атаки на основе отношения правдоподобия (Carlini и др.): сравнение правдоподобия членов/не-членов на основе фреймворка проверки гипотез
Улучшенные методы (Ye и др.): объединение распределений потерь и показателей уверенности

Преимущества данной работы

Устранение зависимости от теневых моделей
Избежание большого количества запросов доступа
Предоставление калиброванных оценок неопределённости
Высокая вычислительная эффективность, сильная практическая применимость

Заключение и обсуждение

Основные выводы

GP-MIA предоставляет гибкий и эффективный по данным фреймворк вывода о принадлежности, избегая затрат на теневые модели в постфактум режиме, одновременно захватывая информативные сигналы распределения.

Ограничения

Масштабируемость: сложность обучения GP составляет O(N³), что может представлять вызовы для больших наборов данных
Зависимость от признаков: производительность зависит от качества инженерии признаков
Доступ к модели: по-прежнему требует доступа к запросам целевой модели
Рассмотрение защиты: в статье недостаточно глубоко исследуются методы противодействующей защиты

Будущие направления

Исследование альтернативных выборов ядра
Разработка масштабируемых приближений для больших моделей
Интеграция в более широкие фреймворки защиты конфиденциальности
Исследование более богатого пространства признаков

Глубокая оценка

Преимущества

Инновационность метода: первое применение GP для вывода о принадлежности, предоставляющее новый технический путь
Достаточность экспериментов: валидация на четырёх различных областях, демонстрирующая хорошую способность к обобщению
Практическая ценность: избежание обучения теневых моделей, снижение стоимости атаки
Квантификация неопределённости: фреймворк GP естественным образом предоставляет вероятностные предсказания, повышая интерпретируемость
Ясность изложения: чёткое описание метода, разумный дизайн экспериментов

Недостатки

Недостаток теоретического анализа: отсутствует теоретическое объяснение того, почему GP особенно подходит для этой задачи
Ограниченное обсуждение защиты: недостаточное исследование способов защиты от таких атак
Проблемы масштабируемости: кубическая сложность GP может ограничить крупномасштабное применение
Выбор признаков: инженерия признаков по-прежнему требует ручного проектирования, ограниченная степень автоматизации
Сравнительные эксперименты: отсутствуют прямые численные сравнения с существующими методами SOTA

Влияние

Академический вклад: предоставляет новое техническое направление для атак вывода о принадлежности
Практическая ценность: метод простой и эффективный, легко реализуется и развёртывается
Воспроизводимость: подробное описание алгоритма, ясная постановка экспериментов
Вдохновляющий потенциал: подход метамоделирования GP может вдохновить другие исследования атак конфиденциальности

Применимые сценарии

Аудит конфиденциальности: оценка рисков конфиденциальности развёрнутых моделей
Диагностика моделей: обнаружение распределительных сдвигов и проблем обобщения
Исследование защиты: использование в качестве атакующего эталона для оценки методов защиты
Чёрный ящик: сценарии, требующие только доступа к выходу модели

Библиография

Shokri et al. (2017) — атаки вывода о принадлежности с теневыми моделями
Carlini et al. (2022) — атаки на основе отношения правдоподобия (LiRA)
Rasmussen & Williams (2006) — машинное обучение гауссовских процессов
Ye et al. (2022) — улучшенные атаки вывода о принадлежности
Hu et al. (2022) — обзор атак вывода о принадлежности

В данной статье предлагается инновационный метод атаки вывода о принадлежности, основанный на гауссовских процессах, который значительно повышает эффективность и практическую применимость при сохранении высокой точности. Несмотря на некоторые теоретические и экспериментальные недостатки, основная идея и результаты экспериментов предоставляют ценный вклад в исследование атак конфиденциальности.