2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic

RADAR : Voies Mécanistes pour Détecter la Contamination des Données dans l'Évaluation des LLM

Informations Fondamentales

  • ID de l'article : 2510.08931
  • Titre : RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
  • Auteurs : Ashish Kattamuri (Proofpoint), Harshwardhan Fartale (Indian Institute of Science), Arpita Vats (LinkedIn), Rahul Raja (LinkedIn), Ishita Prasad (Meta FAIR)
  • Classification : cs.AI, cs.LG
  • Date de publication : 10 octobre 2025 (Préimpression)
  • Lien de l'article : https://arxiv.org/abs/2510.08931v1

Résumé

La contamination des données pose un défi majeur pour l'évaluation fiable des grands modèles de langage (LLM), car les modèles peuvent obtenir des performances élevées en mémorisant les données d'entraînement plutôt qu'en démontrant de véritables capacités de raisonnement. Cet article propose RADAR (Recall vs. Reasoning Detection through Activation Representation), un nouveau cadre utilisant l'interprétabilité mécaniste pour détecter la contamination en distinguant les réponses du modèle basées sur la mémorisation de celles basées sur le raisonnement. RADAR extrait 37 caractéristiques couvrant les trajectoires de confiance de surface et les propriétés mécanistes profondes, incluant la spécialisation de l'attention, la dynamique des circuits et les motifs de flux d'activation. En utilisant un classificateur d'ensemble entraîné sur ces caractéristiques, RADAR atteint une précision de 93 % sur des ensembles d'évaluation diversifiés, avec une performance parfaite sur les cas clairs et une précision de 76,7 % sur les exemples ambigus difficiles.

Contexte et Motivation de la Recherche

Définition du Problème

La contamination des données dans l'évaluation des grands modèles de langage est un problème critique, désignant le chevauchement entre les données d'entraînement et les données d'évaluation, conduisant les modèles à résoudre les tâches par mémorisation plutôt que par raisonnement, gonflant ainsi les métriques d'évaluation et masquant les véritables capacités.

Importance du Problème

  1. Fiabilité de l'évaluation : La contamination des données affecte gravement la crédibilité de l'évaluation des modèles, rendant impossible l'évaluation précise des véritables capacités de raisonnement du modèle
  2. Valeur scientifique : Distinguer la mémorisation du raisonnement est crucial pour comprendre les mécanismes cognitifs des modèles
  3. Applications pratiques : Dans le déploiement réel, il est nécessaire d'assurer que les modèles possèdent de véritables capacités de raisonnement plutôt que de simplement dépendre de la mémorisation

Limitations des Méthodes Existantes

Les méthodes de détection traditionnelles incluent principalement :

  • La comparaison des données d'évaluation avec le corpus d'entraînement
  • La vérification du chevauchement des n-grammes
  • L'identification des sorties mot-à-mot

Ces méthodes présentent les limitations suivantes :

  1. Nécessitent l'accès aux données d'entraînement
  2. Ne peuvent pas traiter la contamination sous forme de paraphrase
  3. Ne peuvent pas révéler si le modèle résout les tâches par mémorisation ou raisonnement
  4. Se concentrent uniquement sur la similarité de surface

Motivation de la Recherche

Cet article propose d'analyser le problème du point de vue de la dynamique computationnelle interne du modèle, utilisant des techniques d'interprétabilité mécaniste pour distinguer les processus de mémorisation et de raisonnement en analysant l'attention, les états cachés et les flux d'activation.

Contributions Principales

  1. Innovation méthodologique : Propose le cadre RADAR, appliquant pour la première fois l'interprétabilité mécaniste à la détection de contamination, distinguant la mémorisation du raisonnement par l'analyse des processus computationnels internes
  2. Ingénierie des caractéristiques : Conçoit 37 caractéristiques, incluant 17 caractéristiques de surface et 20 caractéristiques mécanistes, caractérisant complètement le processus de traitement interne du modèle
  3. Percée en performance : Atteint une précision de 93 % sur des ensembles d'évaluation diversifiés, prouvant l'efficacité des caractéristiques mécanistes pour distinguer la mémorisation du raisonnement
  4. Valeur pratique : Fournit un outil de détection de contamination sans nécessiter l'accès aux données d'entraînement, avec une bonne interprétabilité et praticité
  5. Perspectives théoriques : Révèle les signatures mécanistes différentes des processus de mémorisation et de raisonnement au sein du modèle, offrant une nouvelle perspective pour comprendre les processus cognitifs des modèles

Détails de la Méthode

Définition de la Tâche

Entrée : Étant donné une invite (prompt) et la réponse correspondante du modèle Sortie : Étiquette de classification binaire, déterminant si la réponse du modèle est basée sur la mémorisation (recall) ou le raisonnement (reasoning) Objectif : Identifier la contamination potentielle des données en analysant les processus computationnels internes du modèle

Architecture du Modèle

Le cadre RADAR comprend trois composants principaux :

1. Analyseur Mécaniste (Mechanistic Analyzer)

  • Interface avec le LLM cible, configurée pour produire les poids d'attention et les états cachés
  • Analyse les motifs d'attention de tous les têtes et couches
  • Calcule les métriques d'entropie et de spécialisation
  • Examine la dynamique des états cachés, incluant la variance, la norme et le rang effectif

2. Extraction des Caractéristiques (Feature Extraction)

Extrait 37 caractéristiques, divisées en deux catégories :

Caractéristiques de surface (17) :

  • Statistiques de confiance : moyenne, écart-type, maximum, minimum, plage
  • Propriétés de convergence : couche de convergence, vitesse de convergence, pente de confiance
  • Mesures d'entropie : entropie moyenne, variation d'entropie, gain d'information
  • Indicateurs de stabilité : stabilité de prédiction, cohérence entre couches

Caractéristiques mécanistes (20) :

  • Spécialisation de l'attention : nombre de têtes spécialisées, score de spécialisation, entropie d'attention
  • Dynamique des circuits : profondeur du circuit, complexité, variance du flux d'activation
  • Sensibilité à l'intervention : robustesse de l'ablation, nombre de composants critiques
  • Mémoire de travail : variance des états cachés, trajectoire de norme
  • Effets causaux : attribution de logit, score de médiation

3. Système de Classification (Classification System)

Utilise un ensemble de quatre modèles d'apprentissage supervisé :

  • Random Forest
  • Gradient Boosting
  • Support Vector Machine (SVM)
  • Logistic Regression

Stratégie d'ensemble :

ŷ = 1[1/M ∑(j=1 to M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 to M) pⱼ

Calcul de confiance :

conf = {
  p̄,     si ŷ = 1 (mémorisation)
  1-p̄,   si ŷ = 0 (raisonnement)
}

Points d'Innovation Technique

  1. Application de l'interprétabilité mécaniste : Applique pour la première fois l'analyse des circuits de transformer à la détection de contamination, comprenant le comportement du modèle du point de vue des calculs internes
  2. Conception de caractéristiques multi-niveaux : Combine les caractéristiques de trajectoire de surface et les caractéristiques mécanistes profondes, caractérisant complètement le processus de traitement du modèle
  3. Indépendance des données d'entraînement : Ne nécessite pas l'accès aux données d'entraînement originales, détectant la contamination uniquement par l'analyse des états internes du modèle
  4. Interprétabilité améliorée : Fournit des explications de caractéristiques concrètes, expliquant pourquoi une réponse est jugée comme mémorisation ou raisonnement

Configuration Expérimentale

Ensembles de Données

Ensemble d'entraînement :

  • Nombre total d'échantillons : 30 (15 mémorisation, 15 raisonnement)
  • Représentation de base utilisée pour entraîner le classificateur

Ensemble de test :

  • Nombre total d'échantillons : 100
  • Mémorisation claire : 20
  • Raisonnement clair : 20
  • Cas difficiles : 30
  • Raisonnement complexe : 30

Exemples d'échantillons :

CatégorieExemple d'inviteÉtiquette
Mémorisation claire"La capitale de la France est"recall
Raisonnement clair"Si X est la capitale de la France, alors X est"reasoning
Cas difficile"Quel est la somme de 10 et 15 ?"reasoning
Raisonnement complexe"Si un magasin a 100 articles et en vend 30%, combien d'articles restent-il ?"reasoning

Métriques d'Évaluation

  • Précision globale : Précision de classification sur tous les échantillons
  • Précision par classe : Précision séparée pour les tâches de mémorisation et de raisonnement
  • Précision par catégorie : Précision pour les catégories de différentes difficultés
  • Précision de validation croisée : Résultats de validation croisée k-fold pendant l'entraînement

Méthodes de Comparaison

L'article présente principalement la performance du cadre RADAR sans comparaison directe avec d'autres méthodes de détection de contamination, car les méthodes existantes sont principalement basées sur la similarité textuelle, tandis que RADAR adopte une nouvelle perspective d'analyse mécaniste.

Détails d'Implémentation

  • Modèle cible : microsoft/DialoGPT-medium
  • Configuration : output_attentions=True, output_hidden_states=True
  • Normalisation des caractéristiques : Utilise StandardScaler pour la normalisation à moyenne zéro et variance unitaire
  • Stratégie d'entraînement : Validation croisée k-fold pour assurer une estimation robuste de la performance

Résultats Expérimentaux

Résultats Principaux

Performance globale :

  • Précision globale : 93,0 %
  • Précision des tâches de mémorisation : 97,7 %
  • Précision des tâches de raisonnement : 89,3 %
  • Précision de validation croisée d'entraînement : 96,7 %

Performance par catégorie :

CatégoriePrécision
Mémorisation claire100 % (20/20)
Raisonnement clair100 % (20/20)
Cas difficiles76,7 % (23/30)
Raisonnement complexe100 % (30/30)

Analyse des Caractéristiques

Caractéristiques discriminantes clés :

  1. Têtes d'attention spécialisées : Plus élevées dans les tâches de mémorisation
  2. Complexité des circuits : Plus élevée dans les tâches de raisonnement
  3. Motifs de convergence de confiance : Convergence plus rapide dans les tâches de mémorisation

Score de Détection de Mémorisation (RDS) :

  • RDS moyen pour les tâches de mémorisation : 0,933
  • RDS moyen pour les tâches de raisonnement : 0,375
  • Montre une séparabilité claire

Différences de Signatures Mécanistes :

  • Processus de mémorisation : Motifs d'attention focalisés, convergence rapide de confiance, activation de têtes spécialisées
  • Processus de raisonnement : Attention distribuée, construction progressive de confiance, variance de flux d'activation plus élevée

Découvertes Expérimentales

  1. Efficacité des caractéristiques mécanistes : Les caractéristiques mécanistes peuvent efficacement distinguer les processus de mémorisation et de raisonnement, validant la valeur de l'analyse des calculs internes
  2. Analyse des cas difficiles : La précision de 76,7 % indique qu'il y a encore place à l'amélioration dans les cas limites ambigus, qui impliquent généralement des incompatibilités entre la forme de surface et le traitement interne
  3. Complémentarité des caractéristiques : La combinaison de caractéristiques de surface et mécanistes fournit une perspective d'analyse plus complète
  4. Validation de l'interprétabilité : Les résultats de l'analyse des caractéristiques sont cohérents avec les attentes théoriques des sciences cognitives concernant la mémorisation et le raisonnement

Travaux Connexes

Détection de Contamination des Données

  • Méthodes traditionnelles : Basées sur le chevauchement des n-grammes, comparaison de similarité textuelle
  • Travaux représentatifs : Méthode d'extraction de données d'entraînement de Carlini et al. (2021)
  • Limitations : Dépendent de l'accès aux données d'entraînement, ne peuvent pas traiter la contamination par paraphrase

Interprétabilité Mécaniste

  • Circuits de Transformer : Cadre mathématique d'Elhage et al. (2021)
  • Analyse de l'attention : Méthode de visualisation des circuits d'Olah et al. (2020)
  • Contribution de cet article : Première application de l'analyse mécaniste à la détection de contamination

Évaluation des LLM

  • Mémorisation vs Raisonnement : Analyse théorique de l'apprentissage et de la mémorisation de Feldman (2020)
  • Fiabilité de l'évaluation : Méthode de détection de voyage dans le temps de Golchin et Surdeanu (2023)
  • Avantage de cet article : Fournit une méthode d'évaluation basée sur la perspective des mécanismes internes

Conclusion et Discussion

Conclusions Principales

  1. Faisabilité technique : L'interprétabilité mécaniste peut efficacement détecter la contamination des données, la précision de 93 % prouve l'efficacité de la méthode
  2. Contribution théorique : Révèle les signatures computationnelles différentes de la mémorisation et du raisonnement au sein du modèle, offrant une nouvelle perspective pour comprendre les mécanismes cognitifs des LLM
  3. Valeur pratique : RADAR fournit un outil de détection de contamination sans nécessiter l'accès aux données d'entraînement, avec une bonne interprétabilité
  4. Généralité de la méthode : Le cadre est extensible à différentes architectures de modèles, fournissant un nouvel outil pour l'évaluation des LLM

Limitations

  1. Limitation d'échelle : Les expériences actuelles sont principalement menées sur DialoGPT-medium, l'applicabilité aux modèles à grande échelle reste à vérifier
  2. Taille de l'ensemble de données : L'ensemble d'entraînement ne contient que 30 échantillons, l'ensemble de test 100 échantillons, l'échelle est relativement petite
  3. Caractéristiques de substitution : Certaines caractéristiques mécanistes utilisent des mesures de substitution plutôt que des calculs directs (par exemple, les effets causaux sont approximés par l'entropie d'attention)
  4. Portée des tâches : Se concentre actuellement sur la simple mémorisation de faits vs raisonnement logique, l'applicabilité aux tâches complexes nécessite une vérification supplémentaire
  5. Surcharge computationnelle : Nécessite l'extraction des états internes du modèle, pouvant augmenter les coûts computationnels

Directions Futures

  1. Extension aux grands modèles : Explorer l'application sur des modèles à plus grande échelle
  2. Détection non supervisée : Développer des méthodes de détection de contamination non supervisées
  3. Contamination multi-types : Étendre à la détection d'autres types de contamination des données
  4. Détection en temps réel : Développer un système de détection de contamination en ligne efficace

Évaluation Approfondie

Points Forts

  1. Forte innovativité : Première application de l'interprétabilité mécaniste à la détection de contamination, ouvrant une nouvelle direction de recherche
  2. Méthode scientifique : La conception des caractéristiques a une base théorique, le classificateur d'ensemble améliore la robustesse
  3. Bonne interprétabilité : Fournit des explications de caractéristiques concrètes, renforçant la crédibilité de la méthode
  4. Valeur pratique élevée : Ne nécessite pas l'accès aux données d'entraînement, réduisant les obstacles à l'application
  5. Expérimentation suffisante : Inclut des cas de test de différentes difficultés, validant la robustesse de la méthode

Insuffisances

  1. Échelle expérimentale : L'ensemble de données est relativement petit, risque de surapprentissage possible
  2. Comparaison de référence : Manque de comparaison directe avec les méthodes existantes de détection de contamination
  3. Ingénierie des caractéristiques : Certaines caractéristiques utilisent des mesures de substitution, pouvant affecter la précision
  4. Capacité de généralisation : Validé uniquement sur un modèle, la capacité de généralisation reste à prouver
  5. Analyse théorique : Manque d'analyse théorique approfondie sur pourquoi ces caractéristiques sont efficaces

Impact

  1. Contribution académique : Fournit de nouvelles perspectives pour la recherche en évaluation des LLM et interprétabilité mécaniste
  2. Valeur pratique : Fournit à l'industrie un outil pratique de détection de contamination
  3. Reproductibilité : Fournit une implémentation de code complète, facilitant la reproduction et l'extension
  4. Inspiration pour la recherche : Peut inspirer davantage de recherches sur les mécanismes internes des modèles

Scénarios d'Application

  1. Évaluation des modèles : Détecter la contamination potentielle des données dans les tests de référence des LLM
  2. Outil de recherche : Comme outil de recherche pour analyser les mécanismes cognitifs des modèles
  3. Contrôle de qualité : Assurer la fiabilité de l'évaluation pendant le processus de développement des modèles
  4. Applications éducatives : Aider à comprendre et enseigner le fonctionnement interne des LLM

Références Bibliographiques

Les principales références incluent :

  • Golchin & Surdeanu (2023) : Time travel in LLMs: Tracing data contamination
  • Carlini et al. (2021) : Extracting training data from large language models
  • Elhage et al. (2021) : A mathematical framework for transformer circuits
  • Olah et al. (2020) : Zoom in: An introduction to circuits
  • Feldman (2020) : Does learning require memorization?

Résumé : RADAR représente une avancée importante dans le domaine de la détection de contamination des LLM, fournissant une nouvelle approche de solution par l'interprétabilité mécaniste. Bien qu'il y ait encore place à l'amélioration en termes d'échelle expérimentale et d'analyse théorique, son innovativité et sa valeur pratique en font une contribution importante au domaine. Ce travail non seulement résout des problèmes pratiques, mais fournit également de nouveaux outils et perspectives pour comprendre les mécanismes internes des LLM.