RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
데이터 오염은 신뢰할 수 있는 대규모 언어 모델(LLM) 평가에 심각한 과제를 제시하며, 모델이 진정한 추론 능력을 보여주기보다는 훈련 데이터를 암기함으로써 높은 성능을 얻을 수 있습니다. 본 논문은 RADAR(Recall vs. Reasoning Detection through Activation Representation)를 제안하며, 이는 기계론적 해석가능성을 활용하여 회상 기반 및 추론 기반 모델 응답을 구별함으로써 데이터 오염을 감지하는 새로운 프레임워크입니다. RADAR는 표면층 신뢰도 궤적 및 주의 전문화, 회로 동역학, 활성화 흐름 패턴을 포함한 심층 기계론적 속성을 포함하는 37개의 특징을 추출합니다. 이러한 특징으로 훈련된 앙상블 분류기를 사용하여, RADAR는 다양한 평가 집합에서 93%의 정확도를 달성하며, 명확한 사례에서는 완벽한 성능을 보이고 도전적인 모호한 샘플에서는 76.7%의 정확도를 달성합니다.
Golchin & Surdeanu (2023): Time travel in LLMs: Tracing data contamination
Carlini et al. (2021): Extracting training data from large language models
Elhage et al. (2021): A mathematical framework for transformer circuits
Olah et al. (2020): Zoom in: An introduction to circuits
Feldman (2020): Does learning require memorization?
요약: RADAR는 LLM 오염 감지 분야의 중요한 진전을 나타내며, 기계론적 해석가능성을 통해 새로운 해결 사고를 제공합니다. 실험 규모 및 이론 분석 측면에서 개선 여지가 있지만, 그 혁신성과 실용적 가치는 이를 해당 분야의 중요한 기여로 만듭니다. 이 연구는 실제 문제를 해결할 뿐만 아니라 LLM 내부 메커니즘을 이해하기 위한 새로운 도구와 관점을 제공합니다.