RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic
RADAR : Voies Mécanistes pour Détecter la Contamination des Données dans l'Évaluation des LLM
La contamination des données pose un défi majeur pour l'évaluation fiable des grands modèles de langage (LLM), car les modèles peuvent obtenir des performances élevées en mémorisant les données d'entraînement plutôt qu'en démontrant de véritables capacités de raisonnement. Cet article propose RADAR (Recall vs. Reasoning Detection through Activation Representation), un nouveau cadre utilisant l'interprétabilité mécaniste pour détecter la contamination en distinguant les réponses du modèle basées sur la mémorisation de celles basées sur le raisonnement. RADAR extrait 37 caractéristiques couvrant les trajectoires de confiance de surface et les propriétés mécanistes profondes, incluant la spécialisation de l'attention, la dynamique des circuits et les motifs de flux d'activation. En utilisant un classificateur d'ensemble entraîné sur ces caractéristiques, RADAR atteint une précision de 93 % sur des ensembles d'évaluation diversifiés, avec une performance parfaite sur les cas clairs et une précision de 76,7 % sur les exemples ambigus difficiles.
La contamination des données dans l'évaluation des grands modèles de langage est un problème critique, désignant le chevauchement entre les données d'entraînement et les données d'évaluation, conduisant les modèles à résoudre les tâches par mémorisation plutôt que par raisonnement, gonflant ainsi les métriques d'évaluation et masquant les véritables capacités.
Fiabilité de l'évaluation : La contamination des données affecte gravement la crédibilité de l'évaluation des modèles, rendant impossible l'évaluation précise des véritables capacités de raisonnement du modèle
Valeur scientifique : Distinguer la mémorisation du raisonnement est crucial pour comprendre les mécanismes cognitifs des modèles
Applications pratiques : Dans le déploiement réel, il est nécessaire d'assurer que les modèles possèdent de véritables capacités de raisonnement plutôt que de simplement dépendre de la mémorisation
Cet article propose d'analyser le problème du point de vue de la dynamique computationnelle interne du modèle, utilisant des techniques d'interprétabilité mécaniste pour distinguer les processus de mémorisation et de raisonnement en analysant l'attention, les états cachés et les flux d'activation.
Innovation méthodologique : Propose le cadre RADAR, appliquant pour la première fois l'interprétabilité mécaniste à la détection de contamination, distinguant la mémorisation du raisonnement par l'analyse des processus computationnels internes
Ingénierie des caractéristiques : Conçoit 37 caractéristiques, incluant 17 caractéristiques de surface et 20 caractéristiques mécanistes, caractérisant complètement le processus de traitement interne du modèle
Percée en performance : Atteint une précision de 93 % sur des ensembles d'évaluation diversifiés, prouvant l'efficacité des caractéristiques mécanistes pour distinguer la mémorisation du raisonnement
Valeur pratique : Fournit un outil de détection de contamination sans nécessiter l'accès aux données d'entraînement, avec une bonne interprétabilité et praticité
Perspectives théoriques : Révèle les signatures mécanistes différentes des processus de mémorisation et de raisonnement au sein du modèle, offrant une nouvelle perspective pour comprendre les processus cognitifs des modèles
Entrée : Étant donné une invite (prompt) et la réponse correspondante du modèle
Sortie : Étiquette de classification binaire, déterminant si la réponse du modèle est basée sur la mémorisation (recall) ou le raisonnement (reasoning)
Objectif : Identifier la contamination potentielle des données en analysant les processus computationnels internes du modèle
Application de l'interprétabilité mécaniste : Applique pour la première fois l'analyse des circuits de transformer à la détection de contamination, comprenant le comportement du modèle du point de vue des calculs internes
Conception de caractéristiques multi-niveaux : Combine les caractéristiques de trajectoire de surface et les caractéristiques mécanistes profondes, caractérisant complètement le processus de traitement du modèle
Indépendance des données d'entraînement : Ne nécessite pas l'accès aux données d'entraînement originales, détectant la contamination uniquement par l'analyse des états internes du modèle
Interprétabilité améliorée : Fournit des explications de caractéristiques concrètes, expliquant pourquoi une réponse est jugée comme mémorisation ou raisonnement
L'article présente principalement la performance du cadre RADAR sans comparaison directe avec d'autres méthodes de détection de contamination, car les méthodes existantes sont principalement basées sur la similarité textuelle, tandis que RADAR adopte une nouvelle perspective d'analyse mécaniste.
Efficacité des caractéristiques mécanistes : Les caractéristiques mécanistes peuvent efficacement distinguer les processus de mémorisation et de raisonnement, validant la valeur de l'analyse des calculs internes
Analyse des cas difficiles : La précision de 76,7 % indique qu'il y a encore place à l'amélioration dans les cas limites ambigus, qui impliquent généralement des incompatibilités entre la forme de surface et le traitement interne
Complémentarité des caractéristiques : La combinaison de caractéristiques de surface et mécanistes fournit une perspective d'analyse plus complète
Validation de l'interprétabilité : Les résultats de l'analyse des caractéristiques sont cohérents avec les attentes théoriques des sciences cognitives concernant la mémorisation et le raisonnement
Faisabilité technique : L'interprétabilité mécaniste peut efficacement détecter la contamination des données, la précision de 93 % prouve l'efficacité de la méthode
Contribution théorique : Révèle les signatures computationnelles différentes de la mémorisation et du raisonnement au sein du modèle, offrant une nouvelle perspective pour comprendre les mécanismes cognitifs des LLM
Valeur pratique : RADAR fournit un outil de détection de contamination sans nécessiter l'accès aux données d'entraînement, avec une bonne interprétabilité
Généralité de la méthode : Le cadre est extensible à différentes architectures de modèles, fournissant un nouvel outil pour l'évaluation des LLM
Limitation d'échelle : Les expériences actuelles sont principalement menées sur DialoGPT-medium, l'applicabilité aux modèles à grande échelle reste à vérifier
Taille de l'ensemble de données : L'ensemble d'entraînement ne contient que 30 échantillons, l'ensemble de test 100 échantillons, l'échelle est relativement petite
Caractéristiques de substitution : Certaines caractéristiques mécanistes utilisent des mesures de substitution plutôt que des calculs directs (par exemple, les effets causaux sont approximés par l'entropie d'attention)
Portée des tâches : Se concentre actuellement sur la simple mémorisation de faits vs raisonnement logique, l'applicabilité aux tâches complexes nécessite une vérification supplémentaire
Surcharge computationnelle : Nécessite l'extraction des états internes du modèle, pouvant augmenter les coûts computationnels
Golchin & Surdeanu (2023) : Time travel in LLMs: Tracing data contamination
Carlini et al. (2021) : Extracting training data from large language models
Elhage et al. (2021) : A mathematical framework for transformer circuits
Olah et al. (2020) : Zoom in: An introduction to circuits
Feldman (2020) : Does learning require memorization?
Résumé : RADAR représente une avancée importante dans le domaine de la détection de contamination des LLM, fournissant une nouvelle approche de solution par l'interprétabilité mécaniste. Bien qu'il y ait encore place à l'amélioration en termes d'échelle expérimentale et d'analyse théorique, son innovativité et sa valeur pratique en font une contribution importante au domaine. Ce travail non seulement résout des problèmes pratiques, mais fournit également de nouveaux outils et perspectives pour comprendre les mécanismes internes des LLM.