RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic
RADAR: Caminos Mecanísticos para Detectar Contaminación de Datos en la Evaluación de LLM
La contaminación de datos representa un desafío significativo para la evaluación confiable de modelos de lenguaje grande (LLM), ya que los modelos pueden lograr alto rendimiento mediante la memorización de datos de entrenamiento en lugar de demostrar verdaderas capacidades de razonamiento. Este artículo propone RADAR (Recall vs. Reasoning Detection through Activation Representation), un nuevo marco que utiliza interpretabilidad mecanística para detectar contaminación, distinguiendo entre respuestas del modelo basadas en recuperación y basadas en razonamiento. RADAR extrae 37 características que abarcan trayectorias de confianza de nivel superficial y atributos mecanísticos profundos, incluyendo especialización de atención, dinámicas de circuitos y patrones de flujo de activación. Utilizando un clasificador conjunto entrenado con estas características, RADAR logra una precisión del 93% en conjuntos de evaluación diversificados, con rendimiento perfecto en casos claros y una precisión del 76.7% en ejemplos ambiguos desafiantes.
La contaminación de datos en la evaluación de modelos de lenguaje grande es un problema crítico, refiriéndose a la superposición entre datos de entrenamiento y datos de evaluación, lo que causa que los modelos resuelvan tareas mediante memorización en lugar de razonamiento, inflando así las métricas de evaluación y enmascarando las capacidades reales.
Confiabilidad de la Evaluación: La contaminación de datos afecta gravemente la credibilidad de la evaluación de modelos, imposibilitando una evaluación precisa de las verdaderas capacidades de razonamiento del modelo
Valor de la Investigación Científica: Distinguir entre memorización y razonamiento es fundamental para comprender los mecanismos cognitivos de los modelos
Aplicaciones Prácticas: En el despliegue real, es necesario garantizar que los modelos posean verdaderas capacidades de razonamiento en lugar de depender únicamente de la memorización
Este artículo propone analizar el problema desde la perspectiva de la dinámica computacional interna del modelo, utilizando técnicas de interpretabilidad mecanística para analizar atención, estados ocultos y flujos de activación a fin de distinguir entre procesos de recuperación y razonamiento.
Innovación Metodológica: Propone el marco RADAR, aplicando por primera vez interpretabilidad mecanística a la detección de contaminación de datos, distinguiendo entre recuperación y razonamiento mediante análisis de procesos computacionales internos
Ingeniería de Características: Diseña 37 características, incluyendo 17 características superficiales y 20 características mecanísticas, caracterizando exhaustivamente el proceso de procesamiento interno del modelo
Avance en Rendimiento: Logra una precisión del 93% en conjuntos de evaluación diversificados, demostrando la efectividad de características mecanísticas para distinguir entre recuperación y razonamiento
Valor Práctico: Proporciona una herramienta de detección de contaminación que no requiere acceso a datos de entrenamiento, con buena interpretabilidad y practicidad
Perspectivas Teóricas: Revela diferentes firmas mecanísticas de procesos de recuperación y razonamiento dentro del modelo, proporcionando nuevas perspectivas para comprender procesos cognitivos del modelo
Entrada: Dado un indicador (prompt) y la respuesta correspondiente del modelo
Salida: Etiqueta de clasificación binaria, determinando si la respuesta del modelo se basa en recuperación (recall) o razonamiento (reasoning)
Objetivo: Identificar contaminación de datos potencial mediante análisis del proceso computacional interno del modelo
Aplicación de Interpretabilidad Mecanística: Primera aplicación de análisis de circuitos de transformadores a detección de contaminación, comprendiendo el comportamiento del modelo desde la perspectiva de computación interna
Diseño de Características Multinivel: Combina características de trayectoria superficial y características mecanísticas profundas, caracterizando exhaustivamente el proceso de procesamiento del modelo
Independencia de Datos de Entrenamiento: No requiere acceso a datos de entrenamiento originales, detectando contaminación únicamente mediante análisis de estados internos del modelo
Mejora de Interpretabilidad: Proporciona explicaciones específicas de características, explicando por qué una respuesta se clasifica como recuperación o razonamiento
El artículo presenta principalmente el rendimiento del marco RADAR sin comparación directa con otros métodos específicos de detección de contaminación, ya que los métodos existentes se basan principalmente en similitud textual, mientras que RADAR adopta una perspectiva completamente nueva de análisis mecanístico.
Efectividad de Características Mecanísticas: Las características mecanísticas pueden distinguir efectivamente entre procesos de recuperación y razonamiento, validando el valor del análisis de computación interna
Análisis de Casos Desafiantes: La precisión del 76.7% indica que aún hay espacio para mejora en casos de límites borrosos, que típicamente involucran desajustes entre forma superficial y procesamiento interno
Complementariedad de Características: La combinación de características superficiales y mecanísticas proporciona una perspectiva de análisis más completa
Validación de Interpretabilidad: Los resultados del análisis de características son consistentes con expectativas teóricas de la ciencia cognitiva sobre memorización y razonamiento
Viabilidad Técnica: La interpretabilidad mecanística puede detectar efectivamente contaminación de datos, con una precisión del 93% demostrando la efectividad del método
Contribución Teórica: Revela diferentes firmas computacionales de recuperación y razonamiento dentro del modelo, proporcionando nuevas perspectivas para comprender mecanismos cognitivos de LLM
Valor Práctico: RADAR proporciona una herramienta de detección de contaminación sin necesidad de acceso a datos de entrenamiento, con buena interpretabilidad
Generalidad del Método: El marco es extensible a diferentes arquitecturas de modelos, proporcionando nuevas herramientas para evaluación de LLM
Limitación de Escala: Los experimentos actuales se realizan principalmente en DialoGPT-medium, la aplicabilidad en modelos a gran escala requiere verificación
Tamaño del Conjunto de Datos: Conjunto de entrenamiento de solo 30 muestras, conjunto de prueba de 100 muestras, escala relativamente pequeña
Características Proxy: Algunas características mecanísticas utilizan medidas proxy en lugar de cálculos directos (como efectos causales aproximados mediante entropía de atención)
Rango de Tareas: Actualmente se enfoca principalmente en recuperación de hechos simples vs. razonamiento lógico, la aplicabilidad en tareas complejas requiere verificación adicional
Costo Computacional: Requiere extracción de estados internos del modelo, potencialmente aumentando el costo computacional
Golchin & Surdeanu (2023): Time travel in LLMs: Tracing data contamination
Carlini et al. (2021): Extracting training data from large language models
Elhage et al. (2021): A mathematical framework for transformer circuits
Olah et al. (2020): Zoom in: An introduction to circuits
Feldman (2020): Does learning require memorization?
Resumen: RADAR representa un avance importante en el campo de detección de contaminación de LLM, proporcionando nuevas perspectivas de solución mediante interpretabilidad mecanística. Aunque hay espacio para mejora en escala experimental y análisis teórico, su innovación y valor práctico lo convierten en una contribución importante en este campo. Este trabajo no solo resuelve problemas prácticos, sino que también proporciona nuevas herramientas y perspectivas para comprender mecanismos internos de LLM.