RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic
RADAR: Mechanistische Pfade zur Erkennung von Datenkontamination in der LLM-Evaluierung
Datenkontamination stellt eine erhebliche Herausforderung für die zuverlässige Evaluierung großer Sprachmodelle (LLMs) dar, da Modelle durch das Auswendiglernen von Trainingsdaten anstelle echter Reasoning-Fähigkeiten hohe Leistungen erzielen können. Dieser Artikel präsentiert RADAR (Recall vs. Reasoning Detection through Activation Representation), ein neuartiges Framework, das mechanistische Interpretierbarkeit zur Erkennung von Kontamination nutzt, indem es zwischen abruf- und reasoning-basierten Modellreaktionen unterscheidet. RADAR extrahiert 37 Merkmale, die oberflächliche Konfidenztrajektor-Merkmale und tiefe mechanistische Eigenschaften umfassen, einschließlich Aufmerksamkeitsspezialisierung, Schaltkreisdynamik und Aktivierungsfluss-Muster. Mit einem auf diesen Merkmalen trainierten Ensemble-Klassifikator erreicht RADAR eine Genauigkeit von 93% auf diversen Evaluierungssätzen, perfekte Leistung bei klaren Fällen und 76,7% Genauigkeit bei herausfordernden mehrdeutigen Beispielen.
Datenkontamination in der LLM-Evaluierung ist ein kritisches Problem, das sich auf die Überlappung zwischen Trainings- und Evaluierungsdaten bezieht, wodurch Modelle Aufgaben durch Auswendiglernen anstelle von Reasoning lösen, was zu überhöhten Evaluierungsmetriken und verborgenen echten Fähigkeiten führt.
Evaluierungszuverlässigkeit: Datenkontamination beeinträchtigt die Glaubwürdigkeit der Modellbewertung erheblich und macht es unmöglich, die echten Reasoning-Fähigkeiten des Modells genau zu beurteilen
Wissenschaftlicher Forschungswert: Die Unterscheidung zwischen Auswendiglernen und Reasoning ist für das Verständnis der kognitiven Mechanismen von Modellen von großer Bedeutung
Praktische Anwendung: Bei der praktischen Bereitstellung ist es notwendig, sicherzustellen, dass Modelle über echte Reasoning-Fähigkeiten verfügen und nicht nur auf Auswendiglernen angewiesen sind
Dieser Artikel schlägt vor, das Problem aus der Perspektive der internen Rechendynamik des Modells zu analysieren und mechanistische Interpretierbarkeits-Techniken zu nutzen, um durch die Analyse von Aufmerksamkeit, verborgenen Zuständen und Aktivierungsfluss zwischen Abruf- und Reasoning-Prozessen zu unterscheiden.
Methodische Innovation: Präsentation des RADAR-Frameworks, das mechanistische Interpretierbarkeit erstmals auf die Erkennung von Datenkontamination anwendet und durch Analyse interner Rechenprozesse zwischen Abruf und Reasoning unterscheidet
Feature-Engineering: Entwurf von 37 Merkmalen, einschließlich 17 oberflächlicher Merkmale und 20 mechanistischer Merkmale, die die interne Verarbeitung durch das Modell umfassend charakterisieren
Leistungsdurchbruch: Erreicht 93% Genauigkeit auf diversen Evaluierungssätzen und beweist die Wirksamkeit mechanistischer Merkmale bei der Unterscheidung zwischen Abruf und Reasoning
Praktischer Wert: Bietet ein Kontaminationserkennungstool, das keinen Zugriff auf Trainingsdaten erfordert, mit guter Interpretierbarkeit und Praktikabilität
Theoretische Einsichten: Offenbart unterschiedliche mechanistische Signaturen von Abruf- und Reasoning-Prozessen im Modellinneren und bietet neue Perspektiven zum Verständnis kognitiver Modellprozesse
Eingabe: Ein gegebener Prompt und die entsprechende Modellreaktion
Ausgabe: Binäres Klassifizierungsetikett, das bestimmt, ob die Modellreaktion auf Abruf (recall) oder Reasoning basiert
Ziel: Durch Analyse interner Rechenprozesse des Modells potenzielle Datenkontamination identifizieren
Anwendung mechanistischer Interpretierbarkeit: Erstmalige Anwendung von Transformer-Schaltkreisanalyse auf die Kontaminationserkennung, Verständnis von Modellverhalten aus der Perspektive interner Berechnung
Mehrstufiges Feature-Design: Kombination von oberflächlichen Trajektorie-Merkmalen und tiefen mechanistischen Merkmalen für umfassende Charakterisierung von Modellverarbeitungsprozessen
Unabhängigkeit von Trainingsdaten: Keine Notwendigkeit für Zugriff auf ursprüngliche Trainingsdaten, Kontaminationserkennung nur durch Analyse interner Modellzustände
Verbesserte Interpretierbarkeit: Bereitstellung konkreter Feature-Erklärungen, die erläutern, warum eine Reaktion als Abruf oder Reasoning klassifiziert wurde
Das Papier präsentiert hauptsächlich die Leistung des RADAR-Frameworks ohne direkten Vergleich mit anderen spezifischen Kontaminationserkennungsmethoden, da bestehende Methoden hauptsächlich auf Textähnlichkeit basieren, während RADAR einen völlig neuen mechanistischen Analyseansatz verfolgt.
Wirksamkeit mechanistischer Merkmale: Mechanistische Merkmale können Abruf- und Reasoning-Prozesse effektiv unterscheiden und validieren den Wert der internen Rechneranalyse
Analyse herausfordernder Fälle: Die 76,7%-Genauigkeit zeigt, dass bei mehrdeutigen Grenzfällen noch Verbesserungspotenzial besteht, diese Fälle beinhalten typischerweise Nichtübereinstimmungen zwischen oberflächlicher Form und interner Verarbeitung
Feature-Komplementarität: Die Kombination oberflächlicher und mechanistischer Merkmale bietet eine umfassendere Analyseperspektive
Interpretierbarkeitsvalidierung: Feature-Analyseergebnisse stimmen mit theoretischen Erwartungen aus der kognitiven Wissenschaft über Gedächtnis und Reasoning überein
Technische Machbarkeit: Mechanistische Interpretierbarkeit kann Datenkontamination effektiv erkennen, die 93%-Genauigkeit beweist die Wirksamkeit der Methode
Theoretischer Beitrag: Offenbart unterschiedliche Rechensignaturen von Abruf und Reasoning im Modellinneren und bietet neue Perspektiven zum Verständnis von LLM-Kognitiven-Mechanismen
Praktischer Wert: RADAR bietet ein Kontaminationserkennungstool ohne Trainingsdatenzugriff mit guter Interpretierbarkeit
Methodische Universalität: Das Framework ist auf verschiedene Modellarchitekturen erweiterbar und bietet neue Werkzeuge für die LLM-Evaluierung
Skalierungsbeschränkung: Aktuelle Experimente konzentrieren sich hauptsächlich auf DialoGPT-medium, die Anwendbarkeit auf größere Modelle muss noch überprüft werden
Datensatzgröße: Trainingssatz mit nur 30 Stichproben, Testsatz mit 100 Stichproben, relativ kleine Größe
Proxy-Merkmale: Einige mechanistische Merkmale verwenden Proxy-Maße anstelle direkter Berechnung (z.B. kausale Effekte durch Aufmerksamkeitsentropie approximiert)
Aufgabenbereich: Derzeit konzentriert sich hauptsächlich auf einfache Fakten-Abruf vs. logisches Reasoning, die Anwendbarkeit auf komplexe Aufgaben muss weiter überprüft werden
Rechenkomplexität: Erfordert Extraktion interner Modellzustände, kann Rechenkosten erhöhen
Golchin & Surdeanu (2023): Time travel in LLMs: Tracing data contamination
Carlini et al. (2021): Extracting training data from large language models
Elhage et al. (2021): A mathematical framework for transformer circuits
Olah et al. (2020): Zoom in: An introduction to circuits
Feldman (2020): Does learning require memorization?
Zusammenfassung: RADAR stellt einen wichtigen Fortschritt im Bereich der LLM-Kontaminationserkennung dar und bietet durch mechanistische Interpretierbarkeit neue Lösungsansätze. Obwohl es in experimenteller Skalierung und theoretischer Analyse noch Verbesserungspotenzial gibt, machen seine Innovation und praktischer Wert es zu einem wichtigen Beitrag in diesem Bereich. Diese Arbeit löst nicht nur praktische Probleme, sondern bietet auch neue Werkzeuge und Perspektiven zum Verständnis interner LLM-Mechanismen.