2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.

Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.

academic

Идентификация данных обучения с высокой мощностью и доказуемыми статистическими гарантиями

Основная информация

ID статьи: 2510.09717
Название: High-Power Training Data Identification with Provable Statistical Guarantees
Авторы: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
Классификация: cs.LG cs.AI
Дата публикации/конференция: Препринт (октябрь 2025)
Ссылка на статью: https://arxiv.org/abs/2510.09717

Аннотация

Идентификация данных обучения в крупномасштабных моделях критически важна для судебных разбирательств по авторским правам, аудита конфиденциальности и обеспечения справедливой оценки. Традиционные методы рассматривают это как простую задачу бинарной классификации без статистических гарантий. Хотя недавние методы разработали механизмы контроля коэффициента ложных открытий (FDR), их гарантии зависят от сильных предположений, которые часто нарушаются. В данной работе предложен метод доказуемой идентификации данных обучения (PTDI), обеспечивающий строгий контроль FDR. Метод использует известный набор невидимых данных для вычисления p-значений для каждой точки данных, затем конструирует консервативную оценку доли тестовых данных для масштабирования этих p-значений. Наконец, окончательный набор данных обучения выбирается путём идентификации всех точек с масштабированными p-значениями ниже зависящего от данных порога. Весь процесс обеспечивает доказуемый строгий контроль FDR и значительно повышает статистическую мощность.

Исследовательский контекст и мотивация

Важность проблемы

С широким развёртыванием моделей машинного обучения идентификация данных обучения становится критически важной, что проявляется в:

Споры об авторских правах: Дело Strike 3 против Meta, включающее 2,396 фильмов, защищённых авторским правом, с потенциальным установленным законом возмещением убытков свыше 350 млн долларов
Конфиденциальность данных: Соответствие требованиям законов о конфиденциальности, таких как GDPR и CCPA
Загрязнение данных: Обеспечение справедливости эталонных оценок, предотвращение утечки данных обучения

Ограничения существующих методов

Традиционные методы: Рассматривают обнаружение данных обучения как простую задачу бинарной классификации без теоретических гарантий
Недавние методы: Например, метод knockoff-статистики, предложенный Hu и др. (2025), хотя и контролирует FDR, имеет следующие проблемы:
- Требует доступа к градиентам модели, недоступен в чёрном ящике
- Сложность конструирования эффективных knockoff-переменных, легко нарушаются предположения о симметричном распределении
- Может привести к неэффективному контролю FDR

Исследовательская мотивация

Данная работа направлена на разработку метода, независимого от распределения, обеспечивающего строгий контроль FDR как в белом, так и в чёрном ящике, с повышенной статистической мощностью.

Основные вклады

Предложение метода PTDI: Новый универсальный метод, обеспечивающий контроль FDR с конечной выборкой, независимый от распределения, может использоваться в сочетании с существующими методами обнаружения
Теоретические гарантии: Предоставляет строгое математическое доказательство (теорема 1), гарантирующее строгий контроль коэффициента ложных открытий методом PTDI
Обширная экспериментальная проверка: Проверка эффективности метода на различных моделях (LLM и VLM), задачах (предварительное обучение и тонкая настройка) и наборах данных
Практичность: Метод независим от модели, применим как в чёрном, так и в белом ящике, требует только невидимые данные в качестве калибровочного набора

Описание метода

Определение задачи

Дано целевая модель θ, калибровочный набор D_cal (размер n) и тестовый набор D_test = {X_{n+j}}^m_, цель состоит в выборе подмножества индексов S ⊆ {1,...,m} таким образом, чтобы коэффициент ложных открытий был контролирован на уровне, указанном пользователем α ∈ (0,1):

$\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha$

Основной алгоритм: PTDI

Шаг 1: Конструирование конформных p-значений

Для каждой тестовой точки вычисляется p-значение: $p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}$

где T(X;θ) — оценка обнаружения (например, недоумение), более низкие оценки указывают на большую вероятность принадлежности к обучающему набору.

Шаг 2: Оценка доли использованных данных

Использование вычитающей оценки π̂_sub для оценки доли данных обучения в тестовом наборе π_test: $\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}$

где R = (τ,+∞) — разреженная область принадлежности, конструируемая через квантильный порог η.

Шаг 3: Масштабирование p-значений

Вычисление масштабированных p-значений: $\tilde{p}_j = (1-\hat{\pi}_{test})p_j$

Шаг 4: Процедура Benjamini-Hochberg

Применение процедуры BH для выбора окончательного набора: $S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\}$ где $k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}$

Технические инновации

Конструирование консервативной оценки: Вычитающая оценка гарантирует E(1-π_test)/(1-π̂_sub) ≤ 1, сохраняя контроль FDR
Техника масштабирования p-значений: Преодоление консервативности стандартной процедуры BH путём масштабирования p-значений, значительно повышая статистическую мощность
Гарантии, независимые от распределения: Не зависит от конкретных предположений о распределении, имеет широкую применимость

Экспериментальная установка

Наборы данных

Предварительное обучение LLM: WikiMIA, ArxivTection
Тонкая настройка LLM: XSum, BBC Real Time
Модели видения-языка: VL-MIA/Flickr, VL-MIA/DALL-E

Модели

LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B и 6.9B)
VLM: LLaVA-1.5, MiniGPT-4

Оценочные баллы

LLM: Недоумение (Perplexity), коэффициент сжатия Zlib, MIN-K%, исправленная энтропия (M-Entropy)
VLM: MaxRényi-K%

Метрики оценки

FDR: Эмпирическая оценка коэффициента ложных открытий
Power: Статистическая мощность, доля правильно идентифицированных истинных членов

Результаты экспериментов

Основные результаты

Эффективность контроля FDR

Метод PTDI строго контролирует FDR ниже целевого уровня во всех экспериментальных установках:

На WikiMIA для Pythia-1.4B, целевой FDR=5%: PTDI достигает 4.94% против 13.11% для KTD
Все комбинации моделей и наборов данных показывают фактический FDR ниже целевого уровня

Повышение статистической мощности

Масштабирование p-значений значительно повышает статистическую мощность:

На WikiMIA для GPT-NeoX-20B, целевой FDR=0.5, оценка MIN-K%: мощность повышается с 0.44 до 0.75
При различных целевых уровнях FDR метод масштабирования постоянно превосходит ванильный метод

Абляционные исследования

Влияние размера калибровочного набора

Увеличение размера калибровочного набора (ρ = n/m от 0.1 до 1.0) снижает дисперсию FDP и мощности
Все значения ρ эффективно контролируют FDR

Робастность гиперпараметра η

В диапазоне η ∈ {0.01, 0.05, 0.1, 0.5} метод стабильно контролирует FDR
Стандартная установка η = 0.05

Робастность при изменении π_test

При различных долях использования данных (π_test = 0.3, 0.5, 0.7) сохраняется контроль FDR

Сравнение с методом KTD

PTDI строго контролирует FDR во всех тестовых установках
KTD теряет контроль на WikiMIA и XSum при некоторых значениях α
Когда контроль FDR эффективен, PTDI показывает лучшую мощность на GPT-2

Скорректированная оценка моментов

Предложена оценка моментов с коррекцией смещения π̂_mom, которая дополнительно повышает мощность при наличии данных с подтверждённым членством, сохраняя контроль FDR.

Связанные работы

Обнаружение данных обучения в крупномасштабных моделях

Исследования загрязнения данных: Предотвращение утечки эталонных данных в обучающий набор
Эвристические оценочные баллы: Методы недоумения, MIN-k% и др. лишены теоретических гарантий
Статистически строгие методы: Методы Dekoninck и др., Oren и др. применимы только к предположениям на уровне набора данных

Атаки вывода членства

Угол конфиденциальности: MIA направлена на определение использования конкретной точки данных при обучении
Методы бинарной классификации: Сосредоточены на средней точности классификации
Рамка проверки гипотез: Методы типа Attack-P приоритизируют TPR при низком FPR

Контроль FDR

Процедура Benjamini-Hochberg: Стандартный инструмент контроля FDR
Конформные p-значения: Метод Jin & Candès требует сильного предположения i.i.d
Knockoff-статистика: Метод Hu и др. требует высококачественного генерирования knockoff-переменных

Заключение и обсуждение

Основные выводы

Метод PTDI обеспечивает строгий контроль FDR с гарантиями конечной выборки, независимыми от распределения
Техника масштабирования p-значений значительно повышает статистическую мощность, сохраняя теоретическую строгость
Метод имеет широкую применимость и может использоваться в сочетании с существующими методами обнаружения

Ограничения

Требование калибровочного набора: Требуется калибровочный набор невидимых данных с распределением, аналогичным тестовому набору
Вызовы гетерогенных данных: Для высоко гетерогенных тестовых данных сложно конструировать репрезентативный калибровочный набор
Несоответствие распределений: Значительное несоответствие распределений между калибровочными и тестовыми данными может сделать гарантии FDR недействительными

Будущие направления

Разработка более робастных методов оценки доли использованных данных
Исследование контроля FDR при несоответствии распределений
Расширение на более сложные сценарии обнаружения

Глубокая оценка

Преимущества

Теоретическая строгость: Предоставляет полное математическое доказательство и гарантии конечной выборки
Высокая практичность: Метод прост в реализации, может использоваться в сочетании с существующими инструментами
Обширные эксперименты: Охватывает широкую оценку множества моделей, задач и наборов данных
Инновационность: Техника масштабирования p-значений умело решает проблему консервативности процедуры BH

Недостатки

Ограничения предположений: Зависит от предположения о возможности получения подходящего калибровочного набора
Вычислительные затраты: Требует вычисления оценочных баллов для большого количества кандидатных точек данных
Выбор параметров: Хотя робастен к η, оптимальный выбор всё ещё требует эмпирического руководства

Влияние

Научный вклад: Предоставляет первую строгую статистическую рамку для идентификации данных обучения
Практическая ценность: Имеет прямое применение в судебных разбирательствах по авторским правам и аудите конфиденциальности
Воспроизводимость: Описание алгоритма ясно, легко воспроизводится и расширяется

Применимые сценарии

Защита авторских прав: Идентификация защищённого авторским правом контента, используемого при обучении модели
Аудит конфиденциальности: Проверка использования персональных данных при обучении модели
Оценка эталонов: Обнаружение и удаление загрязнённых образцов в наборах данных оценки
Аудит моделей: Проверка соответствия модели в нормативной среде

Библиография

Статья ссылается на множество важных работ, включая:

Benjamini & Hochberg (1995): Классическая процедура BH для контроля FDR
Shi et al. (2024): Набор данных WikiMIA и метод обнаружения MIN-K%
Hu et al. (2025): Обнаружение данных обучения на основе knockoff-статистики
Jin & Candès (2023): Конформные p-значения в задачах выбора

Резюме: Это статья, имеющая важное теоретическое и практическое значение в области идентификации данных обучения. Метод PTDI не только предоставляет строгие статистические гарантии, но и демонстрирует превосходную производительность в практических приложениях. Данная работа предоставляет важный инструмент для решения текущих проблем прозрачности и подотчётности моделей искусственного интеллекта.