2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.

Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.

academic

RADAR : Voies Mécanistes pour Détecter la Contamination des Données dans l'Évaluation des LLM

Informations Fondamentales

ID de l'article : 2510.08931
Titre : RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Auteurs : Ashish Kattamuri (Proofpoint), Harshwardhan Fartale (Indian Institute of Science), Arpita Vats (LinkedIn), Rahul Raja (LinkedIn), Ishita Prasad (Meta FAIR)
Classification : cs.AI, cs.LG
Date de publication : 10 octobre 2025 (Préimpression)
Lien de l'article : https://arxiv.org/abs/2510.08931v1

Résumé

La contamination des données pose un défi majeur pour l'évaluation fiable des grands modèles de langage (LLM), car les modèles peuvent obtenir des performances élevées en mémorisant les données d'entraînement plutôt qu'en démontrant de véritables capacités de raisonnement. Cet article propose RADAR (Recall vs. Reasoning Detection through Activation Representation), un nouveau cadre utilisant l'interprétabilité mécaniste pour détecter la contamination en distinguant les réponses du modèle basées sur la mémorisation de celles basées sur le raisonnement. RADAR extrait 37 caractéristiques couvrant les trajectoires de confiance de surface et les propriétés mécanistes profondes, incluant la spécialisation de l'attention, la dynamique des circuits et les motifs de flux d'activation. En utilisant un classificateur d'ensemble entraîné sur ces caractéristiques, RADAR atteint une précision de 93 % sur des ensembles d'évaluation diversifiés, avec une performance parfaite sur les cas clairs et une précision de 76,7 % sur les exemples ambigus difficiles.

Contexte et Motivation de la Recherche

Définition du Problème

La contamination des données dans l'évaluation des grands modèles de langage est un problème critique, désignant le chevauchement entre les données d'entraînement et les données d'évaluation, conduisant les modèles à résoudre les tâches par mémorisation plutôt que par raisonnement, gonflant ainsi les métriques d'évaluation et masquant les véritables capacités.

Importance du Problème

Fiabilité de l'évaluation : La contamination des données affecte gravement la crédibilité de l'évaluation des modèles, rendant impossible l'évaluation précise des véritables capacités de raisonnement du modèle
Valeur scientifique : Distinguer la mémorisation du raisonnement est crucial pour comprendre les mécanismes cognitifs des modèles
Applications pratiques : Dans le déploiement réel, il est nécessaire d'assurer que les modèles possèdent de véritables capacités de raisonnement plutôt que de simplement dépendre de la mémorisation

Limitations des Méthodes Existantes

Les méthodes de détection traditionnelles incluent principalement :

La comparaison des données d'évaluation avec le corpus d'entraînement
La vérification du chevauchement des n-grammes
L'identification des sorties mot-à-mot

Ces méthodes présentent les limitations suivantes :

Nécessitent l'accès aux données d'entraînement
Ne peuvent pas traiter la contamination sous forme de paraphrase
Ne peuvent pas révéler si le modèle résout les tâches par mémorisation ou raisonnement
Se concentrent uniquement sur la similarité de surface

Motivation de la Recherche

Cet article propose d'analyser le problème du point de vue de la dynamique computationnelle interne du modèle, utilisant des techniques d'interprétabilité mécaniste pour distinguer les processus de mémorisation et de raisonnement en analysant l'attention, les états cachés et les flux d'activation.

Contributions Principales

Innovation méthodologique : Propose le cadre RADAR, appliquant pour la première fois l'interprétabilité mécaniste à la détection de contamination, distinguant la mémorisation du raisonnement par l'analyse des processus computationnels internes
Ingénierie des caractéristiques : Conçoit 37 caractéristiques, incluant 17 caractéristiques de surface et 20 caractéristiques mécanistes, caractérisant complètement le processus de traitement interne du modèle
Percée en performance : Atteint une précision de 93 % sur des ensembles d'évaluation diversifiés, prouvant l'efficacité des caractéristiques mécanistes pour distinguer la mémorisation du raisonnement
Valeur pratique : Fournit un outil de détection de contamination sans nécessiter l'accès aux données d'entraînement, avec une bonne interprétabilité et praticité
Perspectives théoriques : Révèle les signatures mécanistes différentes des processus de mémorisation et de raisonnement au sein du modèle, offrant une nouvelle perspective pour comprendre les processus cognitifs des modèles

Détails de la Méthode

Définition de la Tâche

Entrée : Étant donné une invite (prompt) et la réponse correspondante du modèle Sortie : Étiquette de classification binaire, déterminant si la réponse du modèle est basée sur la mémorisation (recall) ou le raisonnement (reasoning) Objectif : Identifier la contamination potentielle des données en analysant les processus computationnels internes du modèle

Architecture du Modèle

Le cadre RADAR comprend trois composants principaux :

1. Analyseur Mécaniste (Mechanistic Analyzer)

Interface avec le LLM cible, configurée pour produire les poids d'attention et les états cachés
Analyse les motifs d'attention de tous les têtes et couches
Calcule les métriques d'entropie et de spécialisation
Examine la dynamique des états cachés, incluant la variance, la norme et le rang effectif

2. Extraction des Caractéristiques (Feature Extraction)

Extrait 37 caractéristiques, divisées en deux catégories :

Caractéristiques de surface (17) :

Statistiques de confiance : moyenne, écart-type, maximum, minimum, plage
Propriétés de convergence : couche de convergence, vitesse de convergence, pente de confiance
Mesures d'entropie : entropie moyenne, variation d'entropie, gain d'information
Indicateurs de stabilité : stabilité de prédiction, cohérence entre couches

Caractéristiques mécanistes (20) :

Spécialisation de l'attention : nombre de têtes spécialisées, score de spécialisation, entropie d'attention
Dynamique des circuits : profondeur du circuit, complexité, variance du flux d'activation
Sensibilité à l'intervention : robustesse de l'ablation, nombre de composants critiques
Mémoire de travail : variance des états cachés, trajectoire de norme
Effets causaux : attribution de logit, score de médiation

3. Système de Classification (Classification System)

Utilise un ensemble de quatre modèles d'apprentissage supervisé :

Random Forest
Gradient Boosting
Support Vector Machine (SVM)
Logistic Regression

Stratégie d'ensemble :

ŷ = 1[1/M ∑(j=1 to M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 to M) pⱼ

Calcul de confiance :

conf = {
  p̄,     si ŷ = 1 (mémorisation)
  1-p̄,   si ŷ = 0 (raisonnement)
}

Points d'Innovation Technique

Application de l'interprétabilité mécaniste : Applique pour la première fois l'analyse des circuits de transformer à la détection de contamination, comprenant le comportement du modèle du point de vue des calculs internes
Conception de caractéristiques multi-niveaux : Combine les caractéristiques de trajectoire de surface et les caractéristiques mécanistes profondes, caractérisant complètement le processus de traitement du modèle
Indépendance des données d'entraînement : Ne nécessite pas l'accès aux données d'entraînement originales, détectant la contamination uniquement par l'analyse des états internes du modèle
Interprétabilité améliorée : Fournit des explications de caractéristiques concrètes, expliquant pourquoi une réponse est jugée comme mémorisation ou raisonnement

Configuration Expérimentale

Ensembles de Données

Ensemble d'entraînement :

Nombre total d'échantillons : 30 (15 mémorisation, 15 raisonnement)
Représentation de base utilisée pour entraîner le classificateur

Ensemble de test :

Nombre total d'échantillons : 100
Mémorisation claire : 20
Raisonnement clair : 20
Cas difficiles : 30
Raisonnement complexe : 30

Exemples d'échantillons :

Catégorie	Exemple d'invite	Étiquette
Mémorisation claire	"La capitale de la France est"	recall
Raisonnement clair	"Si X est la capitale de la France, alors X est"	reasoning
Cas difficile	"Quel est la somme de 10 et 15 ?"	reasoning
Raisonnement complexe	"Si un magasin a 100 articles et en vend 30%, combien d'articles restent-il ?"	reasoning

Métriques d'Évaluation

Précision globale : Précision de classification sur tous les échantillons
Précision par classe : Précision séparée pour les tâches de mémorisation et de raisonnement
Précision par catégorie : Précision pour les catégories de différentes difficultés
Précision de validation croisée : Résultats de validation croisée k-fold pendant l'entraînement

Méthodes de Comparaison

L'article présente principalement la performance du cadre RADAR sans comparaison directe avec d'autres méthodes de détection de contamination, car les méthodes existantes sont principalement basées sur la similarité textuelle, tandis que RADAR adopte une nouvelle perspective d'analyse mécaniste.

Détails d'Implémentation

Modèle cible : microsoft/DialoGPT-medium
Configuration : output_attentions=True, output_hidden_states=True
Normalisation des caractéristiques : Utilise StandardScaler pour la normalisation à moyenne zéro et variance unitaire
Stratégie d'entraînement : Validation croisée k-fold pour assurer une estimation robuste de la performance

Résultats Expérimentaux

Résultats Principaux

Performance globale :

Précision globale : 93,0 %
Précision des tâches de mémorisation : 97,7 %
Précision des tâches de raisonnement : 89,3 %
Précision de validation croisée d'entraînement : 96,7 %

Performance par catégorie :

Catégorie	Précision
Mémorisation claire	100 % (20/20)
Raisonnement clair	100 % (20/20)
Cas difficiles	76,7 % (23/30)
Raisonnement complexe	100 % (30/30)

Analyse des Caractéristiques

Caractéristiques discriminantes clés :

Têtes d'attention spécialisées : Plus élevées dans les tâches de mémorisation
Complexité des circuits : Plus élevée dans les tâches de raisonnement
Motifs de convergence de confiance : Convergence plus rapide dans les tâches de mémorisation

Score de Détection de Mémorisation (RDS) :

RDS moyen pour les tâches de mémorisation : 0,933
RDS moyen pour les tâches de raisonnement : 0,375
Montre une séparabilité claire

Différences de Signatures Mécanistes :

Processus de mémorisation : Motifs d'attention focalisés, convergence rapide de confiance, activation de têtes spécialisées
Processus de raisonnement : Attention distribuée, construction progressive de confiance, variance de flux d'activation plus élevée

Découvertes Expérimentales

Efficacité des caractéristiques mécanistes : Les caractéristiques mécanistes peuvent efficacement distinguer les processus de mémorisation et de raisonnement, validant la valeur de l'analyse des calculs internes
Analyse des cas difficiles : La précision de 76,7 % indique qu'il y a encore place à l'amélioration dans les cas limites ambigus, qui impliquent généralement des incompatibilités entre la forme de surface et le traitement interne
Complémentarité des caractéristiques : La combinaison de caractéristiques de surface et mécanistes fournit une perspective d'analyse plus complète
Validation de l'interprétabilité : Les résultats de l'analyse des caractéristiques sont cohérents avec les attentes théoriques des sciences cognitives concernant la mémorisation et le raisonnement

Travaux Connexes

Détection de Contamination des Données

Méthodes traditionnelles : Basées sur le chevauchement des n-grammes, comparaison de similarité textuelle
Travaux représentatifs : Méthode d'extraction de données d'entraînement de Carlini et al. (2021)
Limitations : Dépendent de l'accès aux données d'entraînement, ne peuvent pas traiter la contamination par paraphrase

Interprétabilité Mécaniste

Circuits de Transformer : Cadre mathématique d'Elhage et al. (2021)
Analyse de l'attention : Méthode de visualisation des circuits d'Olah et al. (2020)
Contribution de cet article : Première application de l'analyse mécaniste à la détection de contamination

Évaluation des LLM

Mémorisation vs Raisonnement : Analyse théorique de l'apprentissage et de la mémorisation de Feldman (2020)
Fiabilité de l'évaluation : Méthode de détection de voyage dans le temps de Golchin et Surdeanu (2023)
Avantage de cet article : Fournit une méthode d'évaluation basée sur la perspective des mécanismes internes

Conclusion et Discussion

Conclusions Principales

Faisabilité technique : L'interprétabilité mécaniste peut efficacement détecter la contamination des données, la précision de 93 % prouve l'efficacité de la méthode
Contribution théorique : Révèle les signatures computationnelles différentes de la mémorisation et du raisonnement au sein du modèle, offrant une nouvelle perspective pour comprendre les mécanismes cognitifs des LLM
Valeur pratique : RADAR fournit un outil de détection de contamination sans nécessiter l'accès aux données d'entraînement, avec une bonne interprétabilité
Généralité de la méthode : Le cadre est extensible à différentes architectures de modèles, fournissant un nouvel outil pour l'évaluation des LLM

Limitations

Limitation d'échelle : Les expériences actuelles sont principalement menées sur DialoGPT-medium, l'applicabilité aux modèles à grande échelle reste à vérifier
Taille de l'ensemble de données : L'ensemble d'entraînement ne contient que 30 échantillons, l'ensemble de test 100 échantillons, l'échelle est relativement petite
Caractéristiques de substitution : Certaines caractéristiques mécanistes utilisent des mesures de substitution plutôt que des calculs directs (par exemple, les effets causaux sont approximés par l'entropie d'attention)
Portée des tâches : Se concentre actuellement sur la simple mémorisation de faits vs raisonnement logique, l'applicabilité aux tâches complexes nécessite une vérification supplémentaire
Surcharge computationnelle : Nécessite l'extraction des états internes du modèle, pouvant augmenter les coûts computationnels

Directions Futures

Extension aux grands modèles : Explorer l'application sur des modèles à plus grande échelle
Détection non supervisée : Développer des méthodes de détection de contamination non supervisées
Contamination multi-types : Étendre à la détection d'autres types de contamination des données
Détection en temps réel : Développer un système de détection de contamination en ligne efficace

Évaluation Approfondie

Points Forts

Forte innovativité : Première application de l'interprétabilité mécaniste à la détection de contamination, ouvrant une nouvelle direction de recherche
Méthode scientifique : La conception des caractéristiques a une base théorique, le classificateur d'ensemble améliore la robustesse
Bonne interprétabilité : Fournit des explications de caractéristiques concrètes, renforçant la crédibilité de la méthode
Valeur pratique élevée : Ne nécessite pas l'accès aux données d'entraînement, réduisant les obstacles à l'application
Expérimentation suffisante : Inclut des cas de test de différentes difficultés, validant la robustesse de la méthode

Insuffisances

Échelle expérimentale : L'ensemble de données est relativement petit, risque de surapprentissage possible
Comparaison de référence : Manque de comparaison directe avec les méthodes existantes de détection de contamination
Ingénierie des caractéristiques : Certaines caractéristiques utilisent des mesures de substitution, pouvant affecter la précision
Capacité de généralisation : Validé uniquement sur un modèle, la capacité de généralisation reste à prouver
Analyse théorique : Manque d'analyse théorique approfondie sur pourquoi ces caractéristiques sont efficaces

Impact

Contribution académique : Fournit de nouvelles perspectives pour la recherche en évaluation des LLM et interprétabilité mécaniste
Valeur pratique : Fournit à l'industrie un outil pratique de détection de contamination
Reproductibilité : Fournit une implémentation de code complète, facilitant la reproduction et l'extension
Inspiration pour la recherche : Peut inspirer davantage de recherches sur les mécanismes internes des modèles

Scénarios d'Application

Évaluation des modèles : Détecter la contamination potentielle des données dans les tests de référence des LLM
Outil de recherche : Comme outil de recherche pour analyser les mécanismes cognitifs des modèles
Contrôle de qualité : Assurer la fiabilité de l'évaluation pendant le processus de développement des modèles
Applications éducatives : Aider à comprendre et enseigner le fonctionnement interne des LLM

Références Bibliographiques

Les principales références incluent :

Golchin & Surdeanu (2023) : Time travel in LLMs: Tracing data contamination
Carlini et al. (2021) : Extracting training data from large language models
Elhage et al. (2021) : A mathematical framework for transformer circuits
Olah et al. (2020) : Zoom in: An introduction to circuits
Feldman (2020) : Does learning require memorization?

Résumé : RADAR représente une avancée importante dans le domaine de la détection de contamination des LLM, fournissant une nouvelle approche de solution par l'interprétabilité mécaniste. Bien qu'il y ait encore place à l'amélioration en termes d'échelle expérimentale et d'analyse théorique, son innovativité et sa valeur pratique en font une contribution importante au domaine. Ce travail non seulement résout des problèmes pratiques, mais fournit également de nouveaux outils et perspectives pour comprendre les mécanismes internes des LLM.