Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
Huang, Zhang, Mumtaz
Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.
academic
Вывод о принадлежности к обучающим данным через метамоделирование гауссовского процесса: подход постфактум анализа
Атаки вывода о принадлежности (MIAs) определяют, принадлежит ли точка данных к обучающему набору модели, представляя серьёзный риск конфиденциальности. Существующие методы обычно полагаются на теневые модели или требуют большого количества запросов доступа, что ограничивает их практическую применимость. В данной работе предлагается GP-MIA — эффективный и интерпретируемый метод, основанный на метамоделировании гауссовского процесса (GP). Используя постфактум метрики из одной обученной модели (такие как точность, энтропия, статистика набора данных и опциональные чувствительные признаки, такие как градиенты и измерения NTK), GP-MIA обучает классификатор GP для различения членов и не-членов, одновременно предоставляя калиброванные оценки неопределённости. Эксперименты на синтетических данных, реальных данных обнаружения мошенничества, CIFAR-10 и WikiText-2 демонстрируют, что GP-MIA достигает высокой точности и способности к обобщению, предоставляя практическую альтернативу существующим MIAs.
Данное исследование направлено на решение проблемы атак вывода о принадлежности в моделях машинного обучения. Дана обученная модель fθ* и тестовая пара образцов (x,y), целью является разработка правила вывода M(fθ*, x, y) ∈ {0,1}, определяющего, принадлежит ли образец обучающему набору.
Атаки вывода о принадлежности представляют серьёзную угрозу конфиденциальности, особенно в чувствительных областях, таких как здравоохранение, финансы или безопасность, где раскрытие информации о том, использовалась ли личная запись для обучения, может само по себе представлять утечку конфиденциальности. Глубокие нейронные сети уязвимы для таких атак, поскольку они демонстрируют систематические различия в поведении на обучающих и невидимых данных.
Методы теневых моделей: требуют обучения нескольких вспомогательных моделей для имитации целевого поведения, высокие вычислительные затраты
Атаки на основе отношения правдоподобия (LiRA): требуют многократных запросов к модели и значительных вычислительных ресурсов для калибровки
Ограничения практической применимости: существующие методы обычно требуют значительных вычислительных ресурсов, тщательно подготовленных вспомогательных данных или многократных запросов к целевой модели
В данной работе предлагается эффективный метод, требующий только постфактум доступа к одной обученной модели, избегающий переобучения или внутреннего доступа, при этом предоставляющий калиброванные оценки неопределённости для повышения эффективности и интерпретируемости.
Предложение фреймворка GP-MIA: новый метод атаки вывода о принадлежности постфактум, основанный на метамоделировании гауссовского процесса
Разработка многоуровневой системы признаков: включая базовые признаки (метрики производительности, уверенность), признаки градиентов и признаки NTK в единой репрезентации
Реализация эффективного вывода: требует только одного прямого прохода (опциональный обратный проход), избегая обучения теневых моделей
Предоставление квантификации неопределённости: классификатор GP естественным образом предоставляет калиброванные вероятностные предсказания и оценки неопределённости
Проверка способности к кросс-доменному обобщению: валидация эффективности на четырёх различных областях: синтетические данные, обнаружение мошенничества, классификация изображений и моделирование языка
Дана обученная модель контролируемого обучения fθ*: Rd → Rm, задача вывода о принадлежности состоит в разработке функции M(fθ*, x, y) для определения, принадлежит ли тестовый образец (x,y) обучающему набору X = {(xi, yi)}ni=1.
Парадигма постфактум анализа: избегает затрат на обучение теневых моделей и повторные запросы
Слияние мультимодальных признаков: объединяет признаки производительности, статистики и чувствительности для предоставления богатых сигналов о принадлежности
Квантификация неопределённости: фреймворк GP естественным образом предоставляет калиброванные вероятностные предсказания
Модельная независимость: применим к различным моделям контролируемого обучения
Синтетические данные классификации: сгенерированы с использованием scikit-learn, содержат 2000 сбалансированных образцов из двухкластерной гауссовской смеси
Обнаружение мошенничества с кредитными картами: открытый набор данных OpenML, 284 807 транзакций, только 492 положительных примера
CIFAR-10: классификация изображений, обучение модели CNN на 20 эпохах
WikiText-2: моделирование языка, использование компактной модели в стиле GPT-2 (3 слоя, 4 головы, 192-мерное встраивание)
Основное сравнение с традиционными методами теневых моделей и методом LiRA с концептуальной точки зрения, с акцентом на демонстрацию преимуществ эффективности GP-MIA.
Синтетические данные: GP способен адаптироваться к различным распределениям членов/не-членов, демонстрируя надлежащую неопределённость на граничных случаях
Обнаружение мошенничества:
AUROC = 0,959
AUPR = 0,961
TPR@1%FPR = 0,60
Средняя вероятность членства ≈ 0,81, не-членства ≈ 0,25
GP-MIA предоставляет гибкий и эффективный по данным фреймворк вывода о принадлежности, избегая затрат на теневые модели в постфактум режиме, одновременно захватывая информативные сигналы распределения.
Shokri et al. (2017) — атаки вывода о принадлежности с теневыми моделями
Carlini et al. (2022) — атаки на основе отношения правдоподобия (LiRA)
Rasmussen & Williams (2006) — машинное обучение гауссовских процессов
Ye et al. (2022) — улучшенные атаки вывода о принадлежности
Hu et al. (2022) — обзор атак вывода о принадлежности
В данной статье предлагается инновационный метод атаки вывода о принадлежности, основанный на гауссовских процессах, который значительно повышает эффективность и практическую применимость при сохранении высокой точности. Несмотря на некоторые теоретические и экспериментальные недостатки, основная идея и результаты экспериментов предоставляют ценный вклад в исследование атак конфиденциальности.