RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic
RADAR: Механистические пути обнаружения загрязнения данных при оценке LLM
Загрязнение данных представляет серьёзную проблему для надёжной оценки больших языковых моделей (LLM), поскольку модели могут достигать высокой производительности благодаря запоминанию обучающих данных, а не демонстрации истинных способностей к рассуждению. В данной работе предлагается RADAR (Recall vs. Reasoning Detection through Activation Representation) — новая структура, использующая механистическую интерпретируемость для обнаружения загрязнения путём различения ответов модели на основе воспоминания и рассуждения. RADAR извлекает 37 признаков, охватывающих траектории поверхностной уверенности и глубокие механистические свойства, включая специализацию внимания, динамику цепей и паттерны потока активации. Используя ансамблевый классификатор, обученный на этих признаках, RADAR достигает 93% точности на разнообразных наборах оценки, демонстрирует идеальную производительность на ясных случаях и 76,7% точности на сложных неоднозначных примерах.
Загрязнение данных при оценке больших языковых моделей — это критическая проблема, обозначающая перекрытие между обучающими данными и данными оценки, что приводит к тому, что модели решают задачи посредством запоминания, а не рассуждения, искусственно завышая метрики оценки и скрывая истинные способности.
Надёжность оценки: Загрязнение данных серьёзно влияет на достоверность оценки модели, делая невозможным точное определение истинных способностей модели к рассуждению
Научная ценность: Различение запоминания и рассуждения имеет важное значение для понимания когнитивных механизмов модели
Практическое применение: При реальном развёртывании необходимо обеспечить, чтобы модели обладали истинными способностями к рассуждению, а не полагались исключительно на запоминание
В данной работе предлагается анализировать проблему с точки зрения внутренней вычислительной динамики модели, используя методы механистической интерпретируемости для различения процессов воспоминания и рассуждения путём анализа внимания, скрытых состояний и потока активации.
Методологическое инновация: Предложена структура RADAR, впервые применяющая механистическую интерпретируемость к обнаружению загрязнения данных, различая воспоминание и рассуждение путём анализа внутренних вычислительных процессов
Инженерия признаков: Разработаны 37 признаков, включая 17 поверхностных признаков и 20 механистических признаков, полностью характеризующих внутренние процессы обработки модели
Прорыв в производительности: Достигнута 93% точность на разнообразных наборах оценки, демонстрирующая эффективность механистических признаков в различении воспоминания и рассуждения
Практическая ценность: Предоставляет инструмент обнаружения загрязнения без необходимости доступа к обучающим данным с хорошей интерпретируемостью и практичностью
Теоретические инсайты: Раскрывает различные механистические сигнатуры процессов воспоминания и рассуждения внутри модели, предоставляя новую перспективу для понимания когнитивных процессов модели
Входные данные: Заданы подсказка (prompt) и соответствующий ответ модели
Выходные данные: Бинарная метка классификации, определяющая, основан ли ответ модели на воспоминании (recall) или рассуждении (reasoning)
Цель: Через анализ внутренних вычислительных процессов модели идентифицировать потенциальное загрязнение данных
Применение механистической интерпретируемости: Впервые применяется анализ цепей трансформатора к обнаружению загрязнения, понимая поведение модели с точки зрения внутренних вычислений
Многоуровневое проектирование признаков: Комбинирует признаки поверхностной траектории и глубокие механистические признаки для полной характеристики процесса обработки модели
Независимость от обучающих данных: Не требует доступа к исходным обучающим данным, обнаружение загрязнения возможно только путём анализа внутренних состояний модели
Повышенная интерпретируемость: Предоставляет конкретные объяснения признаков, объясняя, почему определённый ответ классифицируется как воспоминание или рассуждение
Статья в основном демонстрирует производительность структуры RADAR без прямого сравнения с другими конкретными методами обнаружения загрязнения, поскольку существующие методы в основном основаны на текстовом сходстве, тогда как RADAR использует совершенно новый угол механистического анализа.
Эффективность механистических признаков: Механистические признаки эффективно различают процессы воспоминания и рассуждения, подтверждая ценность анализа внутренних вычислений
Анализ сложных случаев: 76,7% точность указывает на наличие пространства для улучшения в неоднозначных граничных случаях, которые обычно включают несоответствие между поверхностной формой и внутренней обработкой
Дополнительность признаков: Комбинация поверхностных и механистических признаков предоставляет более полную аналитическую перспективу
Проверка интерпретируемости: Результаты анализа признаков согласуются с теоретическими ожиданиями когнитивной науки относительно памяти и рассуждения
Техническая осуществимость: Механистическая интерпретируемость может эффективно обнаруживать загрязнение данных, 93% точность доказывает эффективность метода
Теоретический вклад: Раскрывает различные вычислительные сигнатуры воспоминания и рассуждения внутри модели, предоставляя новую перспективу для понимания когнитивных механизмов LLM
Практическая ценность: RADAR предоставляет инструмент обнаружения загрязнения без необходимости доступа к обучающим данным с хорошей интерпретируемостью
Универсальность метода: Структура может быть расширена на различные архитектуры моделей, предоставляя новый инструмент для оценки LLM
Ограничения масштаба: Текущие эксперименты в основном проводятся на DialoGPT-medium, применимость к крупномасштабным моделям требует дальнейшей проверки
Размер набора данных: Обучающий набор содержит только 30 образцов, тестовый набор 100 образцов, размер относительно небольшой
Прокси-признаки: Некоторые механистические признаки используют прокси-меры вместо прямых вычислений (например, причинные эффекты аппроксимируются энтропией внимания)
Диапазон задач: Текущий фокус в основном на простом различении фактического воспоминания и логического рассуждения, применимость к сложным задачам требует дальнейшей проверки
Вычислительные затраты: Требует извлечения внутренних состояний модели, что может увеличить вычислительные затраты
Golchin & Surdeanu (2023): Time travel in LLMs: Tracing data contamination
Carlini et al. (2021): Extracting training data from large language models
Elhage et al. (2021): A mathematical framework for transformer circuits
Olah et al. (2020): Zoom in: An introduction to circuits
Feldman (2020): Does learning require memorization?
Резюме: RADAR представляет важный прогресс в области обнаружения загрязнения LLM, предоставляя новый подход решения через механистическую интерпретируемость. Хотя в экспериментальном масштабе и теоретическом анализе есть пространство для улучшения, его инновационность и практическая ценность делают его значительным вкладом в эту область. Данная работа не только решает практическую проблему, но и предоставляет новые инструменты и перспективы для понимания внутренних механизмов LLM.