2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic

RADAR: Caminos Mecanísticos para Detectar Contaminación de Datos en la Evaluación de LLM

Información Básica

  • ID del Artículo: 2510.08931
  • Título: RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
  • Autores: Ashish Kattamuri (Proofpoint), Harshwardhan Fartale (Indian Institute of Science), Arpita Vats (LinkedIn), Rahul Raja (LinkedIn), Ishita Prasad (Meta FAIR)
  • Clasificación: cs.AI, cs.LG
  • Fecha de Publicación: 10 de octubre de 2025 (Preprint)
  • Enlace del Artículo: https://arxiv.org/abs/2510.08931v1

Resumen

La contaminación de datos representa un desafío significativo para la evaluación confiable de modelos de lenguaje grande (LLM), ya que los modelos pueden lograr alto rendimiento mediante la memorización de datos de entrenamiento en lugar de demostrar verdaderas capacidades de razonamiento. Este artículo propone RADAR (Recall vs. Reasoning Detection through Activation Representation), un nuevo marco que utiliza interpretabilidad mecanística para detectar contaminación, distinguiendo entre respuestas del modelo basadas en recuperación y basadas en razonamiento. RADAR extrae 37 características que abarcan trayectorias de confianza de nivel superficial y atributos mecanísticos profundos, incluyendo especialización de atención, dinámicas de circuitos y patrones de flujo de activación. Utilizando un clasificador conjunto entrenado con estas características, RADAR logra una precisión del 93% en conjuntos de evaluación diversificados, con rendimiento perfecto en casos claros y una precisión del 76.7% en ejemplos ambiguos desafiantes.

Contexto de Investigación y Motivación

Definición del Problema

La contaminación de datos en la evaluación de modelos de lenguaje grande es un problema crítico, refiriéndose a la superposición entre datos de entrenamiento y datos de evaluación, lo que causa que los modelos resuelvan tareas mediante memorización en lugar de razonamiento, inflando así las métricas de evaluación y enmascarando las capacidades reales.

Importancia del Problema

  1. Confiabilidad de la Evaluación: La contaminación de datos afecta gravemente la credibilidad de la evaluación de modelos, imposibilitando una evaluación precisa de las verdaderas capacidades de razonamiento del modelo
  2. Valor de la Investigación Científica: Distinguir entre memorización y razonamiento es fundamental para comprender los mecanismos cognitivos de los modelos
  3. Aplicaciones Prácticas: En el despliegue real, es necesario garantizar que los modelos posean verdaderas capacidades de razonamiento en lugar de depender únicamente de la memorización

Limitaciones de Métodos Existentes

Los métodos de detección tradicionales incluyen principalmente:

  • Comparación de datos de evaluación con corpus de entrenamiento
  • Verificación de superposición de n-gramas
  • Identificación de salidas literales

Estos métodos presentan las siguientes limitaciones:

  1. Requieren acceso a datos de entrenamiento
  2. No pueden manejar contaminación en forma de paráfrasis
  3. No pueden revelar si el modelo resuelve tareas mediante recuperación o razonamiento
  4. Se enfoca únicamente en similitud de nivel superficial

Motivación de la Investigación

Este artículo propone analizar el problema desde la perspectiva de la dinámica computacional interna del modelo, utilizando técnicas de interpretabilidad mecanística para analizar atención, estados ocultos y flujos de activación a fin de distinguir entre procesos de recuperación y razonamiento.

Contribuciones Principales

  1. Innovación Metodológica: Propone el marco RADAR, aplicando por primera vez interpretabilidad mecanística a la detección de contaminación de datos, distinguiendo entre recuperación y razonamiento mediante análisis de procesos computacionales internos
  2. Ingeniería de Características: Diseña 37 características, incluyendo 17 características superficiales y 20 características mecanísticas, caracterizando exhaustivamente el proceso de procesamiento interno del modelo
  3. Avance en Rendimiento: Logra una precisión del 93% en conjuntos de evaluación diversificados, demostrando la efectividad de características mecanísticas para distinguir entre recuperación y razonamiento
  4. Valor Práctico: Proporciona una herramienta de detección de contaminación que no requiere acceso a datos de entrenamiento, con buena interpretabilidad y practicidad
  5. Perspectivas Teóricas: Revela diferentes firmas mecanísticas de procesos de recuperación y razonamiento dentro del modelo, proporcionando nuevas perspectivas para comprender procesos cognitivos del modelo

Explicación Detallada del Método

Definición de la Tarea

Entrada: Dado un indicador (prompt) y la respuesta correspondiente del modelo Salida: Etiqueta de clasificación binaria, determinando si la respuesta del modelo se basa en recuperación (recall) o razonamiento (reasoning) Objetivo: Identificar contaminación de datos potencial mediante análisis del proceso computacional interno del modelo

Arquitectura del Modelo

El marco RADAR contiene tres componentes principales:

1. Analizador Mecanístico (Mechanistic Analyzer)

  • Interfaz con el LLM objetivo, configurando la salida de pesos de atención y estados ocultos
  • Analiza patrones de atención en todas las cabezas y capas
  • Calcula métricas de entropía y especialización
  • Examina dinámicas de estados ocultos, incluyendo varianza, norma y rango efectivo

2. Extracción de Características (Feature Extraction)

Extrae 37 características, divididas en dos categorías:

Características Superficiales (17):

  • Estadísticas de confianza: media, desviación estándar, máximo, mínimo, rango
  • Propiedades de convergencia: capa de convergencia, velocidad de convergencia, pendiente de confianza
  • Medidas de entropía: entropía promedio, cambio de entropía, ganancia de información
  • Indicadores de estabilidad: estabilidad de predicción, consistencia de capas

Características Mecanísticas (20):

  • Especialización de atención: número de cabezas especializadas, puntuación de especialización, entropía de atención
  • Dinámicas de circuitos: profundidad del circuito, complejidad, varianza del flujo de activación
  • Sensibilidad a intervenciones: robustez de ablación, número de componentes críticos
  • Memoria de trabajo: varianza de estados ocultos, trayectoria de normas
  • Efectos causales: atribución de logits, puntuación de mediación

3. Sistema de Clasificación (Classification System)

Utiliza un conjunto de cuatro modelos de aprendizaje supervisado:

  • Random Forest
  • Gradient Boosting
  • Support Vector Machine (SVM)
  • Logistic Regression

Estrategia de Conjunto:

ŷ = 1[1/M ∑(j=1 a M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 a M) pⱼ

Cálculo de Confianza:

conf = {
  p̄,     si ŷ = 1 (recuperación)
  1-p̄,   si ŷ = 0 (razonamiento)
}

Puntos de Innovación Técnica

  1. Aplicación de Interpretabilidad Mecanística: Primera aplicación de análisis de circuitos de transformadores a detección de contaminación, comprendiendo el comportamiento del modelo desde la perspectiva de computación interna
  2. Diseño de Características Multinivel: Combina características de trayectoria superficial y características mecanísticas profundas, caracterizando exhaustivamente el proceso de procesamiento del modelo
  3. Independencia de Datos de Entrenamiento: No requiere acceso a datos de entrenamiento originales, detectando contaminación únicamente mediante análisis de estados internos del modelo
  4. Mejora de Interpretabilidad: Proporciona explicaciones específicas de características, explicando por qué una respuesta se clasifica como recuperación o razonamiento

Configuración Experimental

Conjuntos de Datos

Conjunto de Entrenamiento:

  • Total de muestras: 30 (15 recuperación, 15 razonamiento)
  • Base para entrenar el clasificador

Conjunto de Prueba:

  • Total de muestras: 100
  • Recuperación clara: 20
  • Razonamiento claro: 20
  • Casos desafiantes: 30
  • Razonamiento complejo: 30

Ejemplos de Muestras:

CategoríaIndicador de EjemploEtiqueta
Recuperación clara"La capital de Francia es"recuperación
Razonamiento claro"Si X es la capital de Francia, entonces X es"razonamiento
Casos desafiantes"¿Cuál es la suma de 10 y 15?"razonamiento
Razonamiento complejo"Si una tienda tiene 100 artículos y vende el 30% de ellos, ¿cuántos artículos quedan?"razonamiento

Métricas de Evaluación

  • Precisión General: Tasa de clasificación correcta en todas las muestras
  • Precisión por Categoría: Tasas de precisión separadas para tareas de recuperación y razonamiento
  • Precisión de Clasificación: Precisión en categorías de diferentes dificultades
  • Precisión de Validación Cruzada: Resultados de validación cruzada k-fold durante el entrenamiento

Métodos de Comparación

El artículo presenta principalmente el rendimiento del marco RADAR sin comparación directa con otros métodos específicos de detección de contaminación, ya que los métodos existentes se basan principalmente en similitud textual, mientras que RADAR adopta una perspectiva completamente nueva de análisis mecanístico.

Detalles de Implementación

  • Modelo Objetivo: microsoft/DialoGPT-medium
  • Configuración: output_attentions=True, output_hidden_states=True
  • Normalización de Características: Normalización de media cero y varianza unitaria usando StandardScaler
  • Estrategia de Entrenamiento: Validación cruzada k-fold para garantizar estimación robusta del rendimiento

Resultados Experimentales

Resultados Principales

Rendimiento General:

  • Precisión general: 93.0%
  • Precisión en tareas de recuperación: 97.7%
  • Precisión en tareas de razonamiento: 89.3%
  • Precisión de validación cruzada en entrenamiento: 96.7%

Rendimiento por Categoría:

CategoríaPrecisión
Recuperación clara100% (20/20)
Razonamiento claro100% (20/20)
Casos desafiantes76.7% (23/30)
Razonamiento complejo100% (30/30)

Análisis de Características

Características Discriminativas Clave:

  1. Cabezas de Atención Especializadas: Más altas en tareas de recuperación
  2. Complejidad del Circuito: Más alta en tareas de razonamiento
  3. Patrón de Convergencia de Confianza: Convergencia más rápida en tareas de recuperación

Puntuación de Detección de Recuperación (RDS):

  • RDS promedio en tareas de recuperación: 0.933
  • RDS promedio en tareas de razonamiento: 0.375
  • Muestra separabilidad clara

Diferencias en Firmas Mecanísticas:

  • Proceso de Recuperación: Patrones de atención enfocados, convergencia rápida de confianza, activación de cabezas especializadas
  • Proceso de Razonamiento: Atención distribuida, construcción progresiva de confianza, mayor varianza del flujo de activación

Hallazgos Experimentales

  1. Efectividad de Características Mecanísticas: Las características mecanísticas pueden distinguir efectivamente entre procesos de recuperación y razonamiento, validando el valor del análisis de computación interna
  2. Análisis de Casos Desafiantes: La precisión del 76.7% indica que aún hay espacio para mejora en casos de límites borrosos, que típicamente involucran desajustes entre forma superficial y procesamiento interno
  3. Complementariedad de Características: La combinación de características superficiales y mecanísticas proporciona una perspectiva de análisis más completa
  4. Validación de Interpretabilidad: Los resultados del análisis de características son consistentes con expectativas teóricas de la ciencia cognitiva sobre memorización y razonamiento

Trabajo Relacionado

Detección de Contaminación de Datos

  • Métodos Tradicionales: Basados en superposición de n-gramas, comparación de similitud textual
  • Trabajos Representativos: Método de extracción de datos de entrenamiento de Carlini et al. (2021)
  • Limitaciones: Dependen del acceso a datos de entrenamiento, no pueden manejar contaminación parafraseada

Interpretabilidad Mecanística

  • Circuitos de Transformadores: Marco matemático de Elhage et al. (2021)
  • Análisis de Atención: Método de visualización de circuitos de Olah et al. (2020)
  • Contribución del Artículo: Primera aplicación de análisis mecanístico a detección de contaminación

Evaluación de LLM

  • Memorización vs. Razonamiento: Análisis teórico de aprendizaje y memorización de Feldman (2020)
  • Confiabilidad de Evaluación: Método de detección de viajes en el tiempo de Golchin and Surdeanu (2023)
  • Ventaja del Artículo: Proporciona método de evaluación desde perspectiva de mecanismo interno

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: La interpretabilidad mecanística puede detectar efectivamente contaminación de datos, con una precisión del 93% demostrando la efectividad del método
  2. Contribución Teórica: Revela diferentes firmas computacionales de recuperación y razonamiento dentro del modelo, proporcionando nuevas perspectivas para comprender mecanismos cognitivos de LLM
  3. Valor Práctico: RADAR proporciona una herramienta de detección de contaminación sin necesidad de acceso a datos de entrenamiento, con buena interpretabilidad
  4. Generalidad del Método: El marco es extensible a diferentes arquitecturas de modelos, proporcionando nuevas herramientas para evaluación de LLM

Limitaciones

  1. Limitación de Escala: Los experimentos actuales se realizan principalmente en DialoGPT-medium, la aplicabilidad en modelos a gran escala requiere verificación
  2. Tamaño del Conjunto de Datos: Conjunto de entrenamiento de solo 30 muestras, conjunto de prueba de 100 muestras, escala relativamente pequeña
  3. Características Proxy: Algunas características mecanísticas utilizan medidas proxy en lugar de cálculos directos (como efectos causales aproximados mediante entropía de atención)
  4. Rango de Tareas: Actualmente se enfoca principalmente en recuperación de hechos simples vs. razonamiento lógico, la aplicabilidad en tareas complejas requiere verificación adicional
  5. Costo Computacional: Requiere extracción de estados internos del modelo, potencialmente aumentando el costo computacional

Direcciones Futuras

  1. Extensión a Modelos Grandes: Explorar aplicación en modelos de mayor escala
  2. Detección No Supervisada: Desarrollar métodos de detección de contaminación no supervisados
  3. Múltiples Tipos de Contaminación: Extender a detección de otros tipos de contaminación de datos
  4. Detección en Tiempo Real: Desarrollar sistemas eficientes de detección de contaminación en línea

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación de interpretabilidad mecanística a detección de contaminación, abriendo nuevas direcciones de investigación
  2. Método Científico: El diseño de características tiene base teórica, el clasificador conjunto mejora la robustez
  3. Buena Interpretabilidad: Proporciona explicaciones específicas de características, mejorando la credibilidad del método
  4. Alto Valor Práctico: No requiere acceso a datos de entrenamiento, reduciendo barreras de aplicación
  5. Experimentación Completa: Incluye casos de prueba de diferentes dificultades, validando la robustez del método

Insuficiencias

  1. Escala Experimental: Tamaño de conjunto de datos relativamente pequeño, posible riesgo de sobreajuste
  2. Comparación de Referencia: Falta comparación directa con métodos existentes de detección de contaminación
  3. Ingeniería de Características: Algunas características utilizan medidas proxy, potencialmente afectando la precisión
  4. Capacidad de Generalización: Solo validado en un modelo, la capacidad de generalización requiere verificación
  5. Análisis Teórico: Falta análisis teórico profundo sobre por qué estas características son efectivas

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para investigación en evaluación de LLM e interpretabilidad mecanística
  2. Valor Práctico: Proporciona herramienta práctica de detección de contaminación para la industria
  3. Reproducibilidad: Proporciona implementación de código completa, facilitando reproducción y extensión
  4. Inspiración de Investigación: Puede inspirar más investigación sobre mecanismos internos de modelos

Escenarios de Aplicación

  1. Evaluación de Modelos: Detectar contaminación potencial de datos en pruebas de referencia de LLM
  2. Herramienta de Investigación: Como herramienta de investigación para analizar mecanismos cognitivos del modelo
  3. Control de Calidad: Garantizar confiabilidad de evaluación durante el desarrollo de modelos
  4. Aplicaciones Educativas: Ayudar a comprender y enseñar los principios de funcionamiento interno de LLM

Referencias

Las referencias principales incluyen:

  • Golchin & Surdeanu (2023): Time travel in LLMs: Tracing data contamination
  • Carlini et al. (2021): Extracting training data from large language models
  • Elhage et al. (2021): A mathematical framework for transformer circuits
  • Olah et al. (2020): Zoom in: An introduction to circuits
  • Feldman (2020): Does learning require memorization?

Resumen: RADAR representa un avance importante en el campo de detección de contaminación de LLM, proporcionando nuevas perspectivas de solución mediante interpretabilidad mecanística. Aunque hay espacio para mejora en escala experimental y análisis teórico, su innovación y valor práctico lo convierten en una contribución importante en este campo. Este trabajo no solo resuelve problemas prácticos, sino que también proporciona nuevas herramientas y perspectivas para comprender mecanismos internos de LLM.