2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.

Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.

academic

RADAR: Caminos Mecanísticos para Detectar Contaminación de Datos en la Evaluación de LLM

Información Básica

ID del Artículo: 2510.08931
Título: RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Autores: Ashish Kattamuri (Proofpoint), Harshwardhan Fartale (Indian Institute of Science), Arpita Vats (LinkedIn), Rahul Raja (LinkedIn), Ishita Prasad (Meta FAIR)
Clasificación: cs.AI, cs.LG
Fecha de Publicación: 10 de octubre de 2025 (Preprint)
Enlace del Artículo: https://arxiv.org/abs/2510.08931v1

Resumen

La contaminación de datos representa un desafío significativo para la evaluación confiable de modelos de lenguaje grande (LLM), ya que los modelos pueden lograr alto rendimiento mediante la memorización de datos de entrenamiento en lugar de demostrar verdaderas capacidades de razonamiento. Este artículo propone RADAR (Recall vs. Reasoning Detection through Activation Representation), un nuevo marco que utiliza interpretabilidad mecanística para detectar contaminación, distinguiendo entre respuestas del modelo basadas en recuperación y basadas en razonamiento. RADAR extrae 37 características que abarcan trayectorias de confianza de nivel superficial y atributos mecanísticos profundos, incluyendo especialización de atención, dinámicas de circuitos y patrones de flujo de activación. Utilizando un clasificador conjunto entrenado con estas características, RADAR logra una precisión del 93% en conjuntos de evaluación diversificados, con rendimiento perfecto en casos claros y una precisión del 76.7% en ejemplos ambiguos desafiantes.

Contexto de Investigación y Motivación

Definición del Problema

La contaminación de datos en la evaluación de modelos de lenguaje grande es un problema crítico, refiriéndose a la superposición entre datos de entrenamiento y datos de evaluación, lo que causa que los modelos resuelvan tareas mediante memorización en lugar de razonamiento, inflando así las métricas de evaluación y enmascarando las capacidades reales.

Importancia del Problema

Confiabilidad de la Evaluación: La contaminación de datos afecta gravemente la credibilidad de la evaluación de modelos, imposibilitando una evaluación precisa de las verdaderas capacidades de razonamiento del modelo
Valor de la Investigación Científica: Distinguir entre memorización y razonamiento es fundamental para comprender los mecanismos cognitivos de los modelos
Aplicaciones Prácticas: En el despliegue real, es necesario garantizar que los modelos posean verdaderas capacidades de razonamiento en lugar de depender únicamente de la memorización

Limitaciones de Métodos Existentes

Los métodos de detección tradicionales incluyen principalmente:

Comparación de datos de evaluación con corpus de entrenamiento
Verificación de superposición de n-gramas
Identificación de salidas literales

Estos métodos presentan las siguientes limitaciones:

Requieren acceso a datos de entrenamiento
No pueden manejar contaminación en forma de paráfrasis
No pueden revelar si el modelo resuelve tareas mediante recuperación o razonamiento
Se enfoca únicamente en similitud de nivel superficial

Motivación de la Investigación

Este artículo propone analizar el problema desde la perspectiva de la dinámica computacional interna del modelo, utilizando técnicas de interpretabilidad mecanística para analizar atención, estados ocultos y flujos de activación a fin de distinguir entre procesos de recuperación y razonamiento.

Contribuciones Principales

Innovación Metodológica: Propone el marco RADAR, aplicando por primera vez interpretabilidad mecanística a la detección de contaminación de datos, distinguiendo entre recuperación y razonamiento mediante análisis de procesos computacionales internos
Ingeniería de Características: Diseña 37 características, incluyendo 17 características superficiales y 20 características mecanísticas, caracterizando exhaustivamente el proceso de procesamiento interno del modelo
Avance en Rendimiento: Logra una precisión del 93% en conjuntos de evaluación diversificados, demostrando la efectividad de características mecanísticas para distinguir entre recuperación y razonamiento
Valor Práctico: Proporciona una herramienta de detección de contaminación que no requiere acceso a datos de entrenamiento, con buena interpretabilidad y practicidad
Perspectivas Teóricas: Revela diferentes firmas mecanísticas de procesos de recuperación y razonamiento dentro del modelo, proporcionando nuevas perspectivas para comprender procesos cognitivos del modelo

Explicación Detallada del Método

Definición de la Tarea

Entrada: Dado un indicador (prompt) y la respuesta correspondiente del modelo Salida: Etiqueta de clasificación binaria, determinando si la respuesta del modelo se basa en recuperación (recall) o razonamiento (reasoning) Objetivo: Identificar contaminación de datos potencial mediante análisis del proceso computacional interno del modelo

Arquitectura del Modelo

El marco RADAR contiene tres componentes principales:

1. Analizador Mecanístico (Mechanistic Analyzer)

Interfaz con el LLM objetivo, configurando la salida de pesos de atención y estados ocultos
Analiza patrones de atención en todas las cabezas y capas
Calcula métricas de entropía y especialización
Examina dinámicas de estados ocultos, incluyendo varianza, norma y rango efectivo

2. Extracción de Características (Feature Extraction)

Extrae 37 características, divididas en dos categorías:

Características Superficiales (17):

Estadísticas de confianza: media, desviación estándar, máximo, mínimo, rango
Propiedades de convergencia: capa de convergencia, velocidad de convergencia, pendiente de confianza
Medidas de entropía: entropía promedio, cambio de entropía, ganancia de información
Indicadores de estabilidad: estabilidad de predicción, consistencia de capas

Características Mecanísticas (20):

Especialización de atención: número de cabezas especializadas, puntuación de especialización, entropía de atención
Dinámicas de circuitos: profundidad del circuito, complejidad, varianza del flujo de activación
Sensibilidad a intervenciones: robustez de ablación, número de componentes críticos
Memoria de trabajo: varianza de estados ocultos, trayectoria de normas
Efectos causales: atribución de logits, puntuación de mediación

3. Sistema de Clasificación (Classification System)

Utiliza un conjunto de cuatro modelos de aprendizaje supervisado:

Random Forest
Gradient Boosting
Support Vector Machine (SVM)
Logistic Regression

Estrategia de Conjunto:

ŷ = 1[1/M ∑(j=1 a M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 a M) pⱼ

Cálculo de Confianza:

conf = {
  p̄,     si ŷ = 1 (recuperación)
  1-p̄,   si ŷ = 0 (razonamiento)
}

Puntos de Innovación Técnica

Aplicación de Interpretabilidad Mecanística: Primera aplicación de análisis de circuitos de transformadores a detección de contaminación, comprendiendo el comportamiento del modelo desde la perspectiva de computación interna
Diseño de Características Multinivel: Combina características de trayectoria superficial y características mecanísticas profundas, caracterizando exhaustivamente el proceso de procesamiento del modelo
Independencia de Datos de Entrenamiento: No requiere acceso a datos de entrenamiento originales, detectando contaminación únicamente mediante análisis de estados internos del modelo
Mejora de Interpretabilidad: Proporciona explicaciones específicas de características, explicando por qué una respuesta se clasifica como recuperación o razonamiento

Configuración Experimental

Conjuntos de Datos

Conjunto de Entrenamiento:

Total de muestras: 30 (15 recuperación, 15 razonamiento)
Base para entrenar el clasificador

Conjunto de Prueba:

Total de muestras: 100
Recuperación clara: 20
Razonamiento claro: 20
Casos desafiantes: 30
Razonamiento complejo: 30

Ejemplos de Muestras:

Categoría	Indicador de Ejemplo	Etiqueta
Recuperación clara	"La capital de Francia es"	recuperación
Razonamiento claro	"Si X es la capital de Francia, entonces X es"	razonamiento
Casos desafiantes	"¿Cuál es la suma de 10 y 15?"	razonamiento
Razonamiento complejo	"Si una tienda tiene 100 artículos y vende el 30% de ellos, ¿cuántos artículos quedan?"	razonamiento

Métricas de Evaluación

Precisión General: Tasa de clasificación correcta en todas las muestras
Precisión por Categoría: Tasas de precisión separadas para tareas de recuperación y razonamiento
Precisión de Clasificación: Precisión en categorías de diferentes dificultades
Precisión de Validación Cruzada: Resultados de validación cruzada k-fold durante el entrenamiento

Métodos de Comparación

El artículo presenta principalmente el rendimiento del marco RADAR sin comparación directa con otros métodos específicos de detección de contaminación, ya que los métodos existentes se basan principalmente en similitud textual, mientras que RADAR adopta una perspectiva completamente nueva de análisis mecanístico.

Detalles de Implementación

Modelo Objetivo: microsoft/DialoGPT-medium
Configuración: output_attentions=True, output_hidden_states=True
Normalización de Características: Normalización de media cero y varianza unitaria usando StandardScaler
Estrategia de Entrenamiento: Validación cruzada k-fold para garantizar estimación robusta del rendimiento

Resultados Experimentales

Resultados Principales

Rendimiento General:

Precisión general: 93.0%
Precisión en tareas de recuperación: 97.7%
Precisión en tareas de razonamiento: 89.3%
Precisión de validación cruzada en entrenamiento: 96.7%

Rendimiento por Categoría:

Categoría	Precisión
Recuperación clara	100% (20/20)
Razonamiento claro	100% (20/20)
Casos desafiantes	76.7% (23/30)
Razonamiento complejo	100% (30/30)

Análisis de Características

Características Discriminativas Clave:

Cabezas de Atención Especializadas: Más altas en tareas de recuperación
Complejidad del Circuito: Más alta en tareas de razonamiento
Patrón de Convergencia de Confianza: Convergencia más rápida en tareas de recuperación

Puntuación de Detección de Recuperación (RDS):

RDS promedio en tareas de recuperación: 0.933
RDS promedio en tareas de razonamiento: 0.375
Muestra separabilidad clara

Diferencias en Firmas Mecanísticas:

Proceso de Recuperación: Patrones de atención enfocados, convergencia rápida de confianza, activación de cabezas especializadas
Proceso de Razonamiento: Atención distribuida, construcción progresiva de confianza, mayor varianza del flujo de activación

Hallazgos Experimentales

Efectividad de Características Mecanísticas: Las características mecanísticas pueden distinguir efectivamente entre procesos de recuperación y razonamiento, validando el valor del análisis de computación interna
Análisis de Casos Desafiantes: La precisión del 76.7% indica que aún hay espacio para mejora en casos de límites borrosos, que típicamente involucran desajustes entre forma superficial y procesamiento interno
Complementariedad de Características: La combinación de características superficiales y mecanísticas proporciona una perspectiva de análisis más completa
Validación de Interpretabilidad: Los resultados del análisis de características son consistentes con expectativas teóricas de la ciencia cognitiva sobre memorización y razonamiento

Trabajo Relacionado

Detección de Contaminación de Datos

Métodos Tradicionales: Basados en superposición de n-gramas, comparación de similitud textual
Trabajos Representativos: Método de extracción de datos de entrenamiento de Carlini et al. (2021)
Limitaciones: Dependen del acceso a datos de entrenamiento, no pueden manejar contaminación parafraseada

Interpretabilidad Mecanística

Circuitos de Transformadores: Marco matemático de Elhage et al. (2021)
Análisis de Atención: Método de visualización de circuitos de Olah et al. (2020)
Contribución del Artículo: Primera aplicación de análisis mecanístico a detección de contaminación

Evaluación de LLM

Memorización vs. Razonamiento: Análisis teórico de aprendizaje y memorización de Feldman (2020)
Confiabilidad de Evaluación: Método de detección de viajes en el tiempo de Golchin and Surdeanu (2023)
Ventaja del Artículo: Proporciona método de evaluación desde perspectiva de mecanismo interno

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: La interpretabilidad mecanística puede detectar efectivamente contaminación de datos, con una precisión del 93% demostrando la efectividad del método
Contribución Teórica: Revela diferentes firmas computacionales de recuperación y razonamiento dentro del modelo, proporcionando nuevas perspectivas para comprender mecanismos cognitivos de LLM
Valor Práctico: RADAR proporciona una herramienta de detección de contaminación sin necesidad de acceso a datos de entrenamiento, con buena interpretabilidad
Generalidad del Método: El marco es extensible a diferentes arquitecturas de modelos, proporcionando nuevas herramientas para evaluación de LLM

Limitaciones

Limitación de Escala: Los experimentos actuales se realizan principalmente en DialoGPT-medium, la aplicabilidad en modelos a gran escala requiere verificación
Tamaño del Conjunto de Datos: Conjunto de entrenamiento de solo 30 muestras, conjunto de prueba de 100 muestras, escala relativamente pequeña
Características Proxy: Algunas características mecanísticas utilizan medidas proxy en lugar de cálculos directos (como efectos causales aproximados mediante entropía de atención)
Rango de Tareas: Actualmente se enfoca principalmente en recuperación de hechos simples vs. razonamiento lógico, la aplicabilidad en tareas complejas requiere verificación adicional
Costo Computacional: Requiere extracción de estados internos del modelo, potencialmente aumentando el costo computacional

Direcciones Futuras

Extensión a Modelos Grandes: Explorar aplicación en modelos de mayor escala
Detección No Supervisada: Desarrollar métodos de detección de contaminación no supervisados
Múltiples Tipos de Contaminación: Extender a detección de otros tipos de contaminación de datos
Detección en Tiempo Real: Desarrollar sistemas eficientes de detección de contaminación en línea

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación de interpretabilidad mecanística a detección de contaminación, abriendo nuevas direcciones de investigación
Método Científico: El diseño de características tiene base teórica, el clasificador conjunto mejora la robustez
Buena Interpretabilidad: Proporciona explicaciones específicas de características, mejorando la credibilidad del método
Alto Valor Práctico: No requiere acceso a datos de entrenamiento, reduciendo barreras de aplicación
Experimentación Completa: Incluye casos de prueba de diferentes dificultades, validando la robustez del método

Insuficiencias

Escala Experimental: Tamaño de conjunto de datos relativamente pequeño, posible riesgo de sobreajuste
Comparación de Referencia: Falta comparación directa con métodos existentes de detección de contaminación
Ingeniería de Características: Algunas características utilizan medidas proxy, potencialmente afectando la precisión
Capacidad de Generalización: Solo validado en un modelo, la capacidad de generalización requiere verificación
Análisis Teórico: Falta análisis teórico profundo sobre por qué estas características son efectivas

Impacto

Contribución Académica: Proporciona nuevas perspectivas para investigación en evaluación de LLM e interpretabilidad mecanística
Valor Práctico: Proporciona herramienta práctica de detección de contaminación para la industria
Reproducibilidad: Proporciona implementación de código completa, facilitando reproducción y extensión
Inspiración de Investigación: Puede inspirar más investigación sobre mecanismos internos de modelos

Escenarios de Aplicación

Evaluación de Modelos: Detectar contaminación potencial de datos en pruebas de referencia de LLM
Herramienta de Investigación: Como herramienta de investigación para analizar mecanismos cognitivos del modelo
Control de Calidad: Garantizar confiabilidad de evaluación durante el desarrollo de modelos
Aplicaciones Educativas: Ayudar a comprender y enseñar los principios de funcionamiento interno de LLM

Referencias

Las referencias principales incluyen:

Golchin & Surdeanu (2023): Time travel in LLMs: Tracing data contamination
Carlini et al. (2021): Extracting training data from large language models
Elhage et al. (2021): A mathematical framework for transformer circuits
Olah et al. (2020): Zoom in: An introduction to circuits
Feldman (2020): Does learning require memorization?

Resumen: RADAR representa un avance importante en el campo de detección de contaminación de LLM, proporcionando nuevas perspectivas de solución mediante interpretabilidad mecanística. Aunque hay espacio para mejora en escala experimental y análisis teórico, su innovación y valor práctico lo convierten en una contribución importante en este campo. Este trabajo no solo resuelve problemas prácticos, sino que también proporciona nuevas herramientas y perspectivas para comprender mecanismos internos de LLM.