2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic

RADAR: Механистические пути обнаружения загрязнения данных при оценке LLM

Основная информация

  • ID статьи: 2510.08931
  • Название: RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
  • Авторы: Ashish Kattamuri (Proofpoint), Harshwardhan Fartale (Indian Institute of Science), Arpita Vats (LinkedIn), Rahul Raja (LinkedIn), Ishita Prasad (Meta FAIR)
  • Категория: cs.AI, cs.LG
  • Дата публикации: 10 октября 2025 г. (Препринт)
  • Ссылка на статью: https://arxiv.org/abs/2510.08931v1

Аннотация

Загрязнение данных представляет серьёзную проблему для надёжной оценки больших языковых моделей (LLM), поскольку модели могут достигать высокой производительности благодаря запоминанию обучающих данных, а не демонстрации истинных способностей к рассуждению. В данной работе предлагается RADAR (Recall vs. Reasoning Detection through Activation Representation) — новая структура, использующая механистическую интерпретируемость для обнаружения загрязнения путём различения ответов модели на основе воспоминания и рассуждения. RADAR извлекает 37 признаков, охватывающих траектории поверхностной уверенности и глубокие механистические свойства, включая специализацию внимания, динамику цепей и паттерны потока активации. Используя ансамблевый классификатор, обученный на этих признаках, RADAR достигает 93% точности на разнообразных наборах оценки, демонстрирует идеальную производительность на ясных случаях и 76,7% точности на сложных неоднозначных примерах.

Исследовательский контекст и мотивация

Определение проблемы

Загрязнение данных при оценке больших языковых моделей — это критическая проблема, обозначающая перекрытие между обучающими данными и данными оценки, что приводит к тому, что модели решают задачи посредством запоминания, а не рассуждения, искусственно завышая метрики оценки и скрывая истинные способности.

Значимость проблемы

  1. Надёжность оценки: Загрязнение данных серьёзно влияет на достоверность оценки модели, делая невозможным точное определение истинных способностей модели к рассуждению
  2. Научная ценность: Различение запоминания и рассуждения имеет важное значение для понимания когнитивных механизмов модели
  3. Практическое применение: При реальном развёртывании необходимо обеспечить, чтобы модели обладали истинными способностями к рассуждению, а не полагались исключительно на запоминание

Ограничения существующих методов

Традиционные методы обнаружения включают:

  • Сравнение данных оценки с обучающим корпусом
  • Проверку перекрытия n-грамм
  • Идентификацию дословного вывода

Эти методы имеют следующие ограничения:

  1. Требуют доступа к обучающим данным
  2. Не могут обрабатывать загрязнение в форме перефразирования
  3. Не могут выявить, решает ли модель задачу посредством воспоминания или рассуждения
  4. Сосредоточены только на поверхностном сходстве

Исследовательская мотивация

В данной работе предлагается анализировать проблему с точки зрения внутренней вычислительной динамики модели, используя методы механистической интерпретируемости для различения процессов воспоминания и рассуждения путём анализа внимания, скрытых состояний и потока активации.

Основные вклады

  1. Методологическое инновация: Предложена структура RADAR, впервые применяющая механистическую интерпретируемость к обнаружению загрязнения данных, различая воспоминание и рассуждение путём анализа внутренних вычислительных процессов
  2. Инженерия признаков: Разработаны 37 признаков, включая 17 поверхностных признаков и 20 механистических признаков, полностью характеризующих внутренние процессы обработки модели
  3. Прорыв в производительности: Достигнута 93% точность на разнообразных наборах оценки, демонстрирующая эффективность механистических признаков в различении воспоминания и рассуждения
  4. Практическая ценность: Предоставляет инструмент обнаружения загрязнения без необходимости доступа к обучающим данным с хорошей интерпретируемостью и практичностью
  5. Теоретические инсайты: Раскрывает различные механистические сигнатуры процессов воспоминания и рассуждения внутри модели, предоставляя новую перспективу для понимания когнитивных процессов модели

Подробное описание методологии

Определение задачи

Входные данные: Заданы подсказка (prompt) и соответствующий ответ модели Выходные данные: Бинарная метка классификации, определяющая, основан ли ответ модели на воспоминании (recall) или рассуждении (reasoning) Цель: Через анализ внутренних вычислительных процессов модели идентифицировать потенциальное загрязнение данных

Архитектура модели

Структура RADAR включает три основных компонента:

1. Механистический анализатор (Mechanistic Analyzer)

  • Взаимодействует с целевой LLM, настраивая вывод весов внимания и скрытых состояний
  • Анализирует паттерны внимания всех голов и слоёв
  • Вычисляет показатели энтропии и специализации
  • Проверяет динамику скрытых состояний, включая дисперсию, норму и эффективный ранг

2. Извлечение признаков (Feature Extraction)

Извлекаются 37 признаков, разделённые на две категории:

Поверхностные признаки (17):

  • Статистика уверенности: среднее значение, стандартное отклонение, максимум, минимум, диапазон
  • Свойства сходимости: слой сходимости, скорость сходимости, наклон уверенности
  • Меры энтропии: средняя энтропия, изменение энтропии, информационный прирост
  • Показатели стабильности: стабильность предсказания, согласованность слоёв

Механистические признаки (20):

  • Специализация внимания: количество специализированных голов, оценка специализации, энтропия внимания
  • Динамика цепей: глубина цепи, сложность, дисперсия потока активации
  • Чувствительность к вмешательству: робастность абляции, количество критических компонентов
  • Рабочая память: дисперсия скрытого состояния, траектория нормы
  • Причинные эффекты: логит-атрибуция, оценка посредничества

3. Система классификации (Classification System)

Использует ансамбль четырёх моделей контролируемого обучения:

  • Random Forest
  • Gradient Boosting
  • Support Vector Machine (SVM)
  • Logistic Regression

Стратегия ансамбля:

ŷ = 1[1/M ∑(j=1 to M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 to M) pⱼ

Вычисление уверенности:

conf = {
  p̄,     если ŷ = 1 (воспоминание)
  1-p̄,   если ŷ = 0 (рассуждение)
}

Технические инновации

  1. Применение механистической интерпретируемости: Впервые применяется анализ цепей трансформатора к обнаружению загрязнения, понимая поведение модели с точки зрения внутренних вычислений
  2. Многоуровневое проектирование признаков: Комбинирует признаки поверхностной траектории и глубокие механистические признаки для полной характеристики процесса обработки модели
  3. Независимость от обучающих данных: Не требует доступа к исходным обучающим данным, обнаружение загрязнения возможно только путём анализа внутренних состояний модели
  4. Повышенная интерпретируемость: Предоставляет конкретные объяснения признаков, объясняя, почему определённый ответ классифицируется как воспоминание или рассуждение

Экспериментальная установка

Наборы данных

Обучающий набор:

  • Всего образцов: 30 (15 воспоминаний, 15 рассуждений)
  • Базовое представление для обучения классификатора

Тестовый набор:

  • Всего образцов: 100
  • Ясные воспоминания: 20
  • Ясные рассуждения: 20
  • Сложные случаи: 30
  • Сложные рассуждения: 30

Примеры образцов:

КатегорияПример подсказкиМетка
Ясное воспоминание"The capital of France is"recall
Ясное рассуждение"If X is the capital of France, then X is"reasoning
Сложный случай"What is the sum of 10 and 15?"reasoning
Сложное рассуждение"If a store has 100 items and sells 30% of them, how many items remain?"reasoning

Метрики оценки

  • Общая точность: Точность классификации для всех образцов
  • Точность по категориям: Отдельная точность для задач воспоминания и рассуждения
  • Точность классификации: Точность для категорий различной сложности
  • Точность перекрёстной проверки: Результаты k-кратной перекрёстной проверки во время обучения

Методы сравнения

Статья в основном демонстрирует производительность структуры RADAR без прямого сравнения с другими конкретными методами обнаружения загрязнения, поскольку существующие методы в основном основаны на текстовом сходстве, тогда как RADAR использует совершенно новый угол механистического анализа.

Детали реализации

  • Целевая модель: microsoft/DialoGPT-medium
  • Конфигурация: output_attentions=True, output_hidden_states=True
  • Нормализация признаков: Использует StandardScaler для нормализации с нулевым средним и единичной дисперсией
  • Стратегия обучения: K-кратная перекрёстная проверка для обеспечения надёжной оценки производительности

Результаты экспериментов

Основные результаты

Общая производительность:

  • Общая точность: 93,0%
  • Точность задач воспоминания: 97,7%
  • Точность задач рассуждения: 89,3%
  • Точность перекрёстной проверки обучения: 96,7%

Производительность по категориям:

КатегорияТочность
Ясное воспоминание100% (20/20)
Ясное рассуждение100% (20/20)
Сложные случаи76,7% (23/30)
Сложные рассуждения100% (30/30)

Анализ признаков

Ключевые дискриминативные признаки:

  1. Специализированные головы внимания: Выше при задачах воспоминания
  2. Сложность цепи: Выше при задачах рассуждения
  3. Паттерны сходимости уверенности: Более быстрая сходимость при задачах воспоминания

Оценка обнаружения воспоминания (RDS):

  • Средняя RDS для задач воспоминания: 0,933
  • Средняя RDS для задач рассуждения: 0,375
  • Демонстрирует чёткую разделимость

Различия механистических сигнатур:

  • Процесс воспоминания: Сфокусированные паттерны внимания, быстрая сходимость уверенности, активация специализированных голов
  • Процесс рассуждения: Распределённое внимание, постепенное построение уверенности, более высокая дисперсия потока активации

Экспериментальные находки

  1. Эффективность механистических признаков: Механистические признаки эффективно различают процессы воспоминания и рассуждения, подтверждая ценность анализа внутренних вычислений
  2. Анализ сложных случаев: 76,7% точность указывает на наличие пространства для улучшения в неоднозначных граничных случаях, которые обычно включают несоответствие между поверхностной формой и внутренней обработкой
  3. Дополнительность признаков: Комбинация поверхностных и механистических признаков предоставляет более полную аналитическую перспективу
  4. Проверка интерпретируемости: Результаты анализа признаков согласуются с теоретическими ожиданиями когнитивной науки относительно памяти и рассуждения

Связанные работы

Обнаружение загрязнения данных

  • Традиционные методы: На основе перекрытия n-грамм, сравнения текстового сходства
  • Представительные работы: Методы извлечения обучающих данных Carlini et al. (2021)
  • Ограничения: Зависят от доступа к обучающим данным, не могут обрабатывать загрязнение путём перефразирования

Механистическая интерпретируемость

  • Цепи трансформатора: Математическая структура Elhage et al. (2021)
  • Анализ внимания: Методы визуализации цепей Olah et al. (2020)
  • Вклад данной работы: Впервые применяет механистический анализ к обнаружению загрязнения

Оценка LLM

  • Память vs рассуждение: Теоретический анализ обучения и памяти Feldman (2020)
  • Надёжность оценки: Методы обнаружения путешествия во времени Golchin and Surdeanu (2023)
  • Преимущество данной работы: Предоставляет метод оценки с точки зрения внутренних механизмов

Заключение и обсуждение

Основные выводы

  1. Техническая осуществимость: Механистическая интерпретируемость может эффективно обнаруживать загрязнение данных, 93% точность доказывает эффективность метода
  2. Теоретический вклад: Раскрывает различные вычислительные сигнатуры воспоминания и рассуждения внутри модели, предоставляя новую перспективу для понимания когнитивных механизмов LLM
  3. Практическая ценность: RADAR предоставляет инструмент обнаружения загрязнения без необходимости доступа к обучающим данным с хорошей интерпретируемостью
  4. Универсальность метода: Структура может быть расширена на различные архитектуры моделей, предоставляя новый инструмент для оценки LLM

Ограничения

  1. Ограничения масштаба: Текущие эксперименты в основном проводятся на DialoGPT-medium, применимость к крупномасштабным моделям требует дальнейшей проверки
  2. Размер набора данных: Обучающий набор содержит только 30 образцов, тестовый набор 100 образцов, размер относительно небольшой
  3. Прокси-признаки: Некоторые механистические признаки используют прокси-меры вместо прямых вычислений (например, причинные эффекты аппроксимируются энтропией внимания)
  4. Диапазон задач: Текущий фокус в основном на простом различении фактического воспоминания и логического рассуждения, применимость к сложным задачам требует дальнейшей проверки
  5. Вычислительные затраты: Требует извлечения внутренних состояний модели, что может увеличить вычислительные затраты

Направления будущих исследований

  1. Расширение на крупные модели: Исследование применения на моделях большего масштаба
  2. Неконтролируемое обнаружение: Разработка методов неконтролируемого обнаружения загрязнения
  3. Загрязнение различных типов: Расширение на обнаружение других типов загрязнения данных
  4. Обнаружение в реальном времени: Разработка эффективных систем обнаружения загрязнения в режиме онлайн

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые применяет механистическую интерпретируемость к обнаружению загрязнения, открывая новое направление исследований
  2. Научная методология: Проектирование признаков имеет теоретическую основу, ансамблевый классификатор повышает надёжность
  3. Хорошая интерпретируемость: Предоставляет конкретные объяснения признаков, повышая доверие к методу
  4. Высокая практическая ценность: Не требует доступа к обучающим данным, снижает барьеры применения
  5. Полные эксперименты: Включает тестовые случаи различной сложности, подтверждая надёжность метода

Недостатки

  1. Размер экспериментов: Относительно небольшой размер набора данных, возможен риск переобучения
  2. Сравнение с базовыми методами: Отсутствует прямое сравнение с существующими методами обнаружения загрязнения
  3. Инженерия признаков: Некоторые признаки используют прокси-меры, что может влиять на точность
  4. Способность к обобщению: Проверена только на одной модели, способность к обобщению требует подтверждения
  5. Теоретический анализ: Отсутствует глубокий теоретический анализ того, почему эти признаки эффективны

Влияние

  1. Академический вклад: Предоставляет новые идеи для исследований оценки LLM и механистической интерпретируемости
  2. Практическая ценность: Предоставляет промышленности практический инструмент обнаружения загрязнения
  3. Воспроизводимость: Предоставляет полную реализацию кода, облегчая воспроизведение и расширение
  4. Исследовательское вдохновение: Может вдохновить больше исследований о внутренних механизмах моделей

Применимые сценарии

  1. Оценка моделей: Обнаружение потенциального загрязнения данных в эталонных тестах LLM
  2. Исследовательский инструмент: Как инструмент исследования для анализа когнитивных механизмов модели
  3. Контроль качества: Обеспечение надёжности оценки во время разработки модели
  4. Образовательное применение: Помощь в понимании и обучении внутренним принципам работы LLM

Библиография

Основные цитируемые работы включают:

  • Golchin & Surdeanu (2023): Time travel in LLMs: Tracing data contamination
  • Carlini et al. (2021): Extracting training data from large language models
  • Elhage et al. (2021): A mathematical framework for transformer circuits
  • Olah et al. (2020): Zoom in: An introduction to circuits
  • Feldman (2020): Does learning require memorization?

Резюме: RADAR представляет важный прогресс в области обнаружения загрязнения LLM, предоставляя новый подход решения через механистическую интерпретируемость. Хотя в экспериментальном масштабе и теоретическом анализе есть пространство для улучшения, его инновационность и практическая ценность делают его значительным вкладом в эту область. Данная работа не только решает практическую проблему, но и предоставляет новые инструменты и перспективы для понимания внутренних механизмов LLM.