2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.

Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.

academic

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

基本信息

论文ID: 2510.08931
标题: RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
作者: Ashish Kattamuri (Proofpoint), Harshwardhan Fartale (Indian Institute of Science), Arpita Vats (LinkedIn), Rahul Raja (LinkedIn), Ishita Prasad (Meta FAIR)
分类: cs.AI, cs.LG
发表时间: 2025年10月10日 (Preprint)
论文链接: https://arxiv.org/abs/2510.08931v1

摘要

数据污染对可靠的大语言模型(LLM)评估构成重大挑战，模型可能通过记忆训练数据而非展示真正的推理能力来获得高性能。本文提出RADAR (Recall vs. Reasoning Detection through Activation Representation)，这是一个利用机制可解释性检测污染的新框架，通过区分基于回忆和基于推理的模型响应来识别数据污染。RADAR提取37个特征，涵盖表面层置信度轨迹和深层机制属性，包括注意力专业化、电路动态和激活流模式。使用基于这些特征训练的集成分类器，RADAR在多样化评估集上达到93%的准确率，在清晰案例上表现完美，在具有挑战性的模糊样例上达到76.7%的准确率。

研究背景与动机

问题定义

大语言模型评估中的数据污染是一个关键问题，指的是训练数据和评估数据之间的重叠，导致模型通过记忆而非推理来解决任务，从而虚高评估指标并掩盖真实能力。

问题重要性

评估可靠性：数据污染严重影响模型评估的可信度，使得无法准确判断模型的真实推理能力
科学研究价值：区分记忆和推理对理解模型认知机制具有重要意义
实际应用：在实际部署中，需要确保模型具备真正的推理能力而非仅仅依赖记忆

现有方法局限性

传统检测方法主要包括：

比较评估数据与训练语料
检查n-gram重叠
标记逐字输出

这些方法存在以下限制：

需要访问训练数据
无法处理释义形式的污染
无法揭示模型是通过回忆还是推理解决任务
仅关注表面层面的相似性

研究动机

本文提出从模型内部计算动态的角度分析问题，利用机制可解释性技术，通过分析注意力、隐藏状态和激活流来区分回忆和推理过程。

核心贡献

方法创新：提出RADAR框架，首次将机制可解释性应用于数据污染检测，通过分析内部计算过程区分回忆和推理
特征工程：设计了37个特征，包括17个表面特征和20个机制特征，全面刻画模型内部处理过程
性能突破：在多样化评估集上达到93%的准确率，证明了机制特征区分回忆和推理的有效性
实用价值：提供了无需访问训练数据的污染检测工具，具有良好的可解释性和实用性
理论洞察：揭示了回忆和推理过程在模型内部的不同机制签名，为理解模型认知过程提供了新视角

方法详解

任务定义

输入：给定一个提示(prompt)和对应的模型响应输出：二分类标签，判断模型响应是基于回忆(recall)还是推理(reasoning) 目标：通过分析模型内部计算过程，识别潜在的数据污染

模型架构

RADAR框架包含三个核心组件：

1. 机制分析器 (Mechanistic Analyzer)

与目标LLM接口，配置输出注意力权重和隐藏状态
分析所有头和层的注意力模式
计算熵和专业化指标
检查隐藏状态动态，包括方差、范数和有效秩

2. 特征提取 (Feature Extraction)

提取37个特征，分为两类：

表面特征 (17个)：

置信度统计：均值、标准差、最大值、最小值、范围
收敛属性：收敛层、收敛速度、置信度斜率
熵度量：平均熵、熵变化、信息增益
稳定性指标：预测稳定性、层一致性

机制特征 (20个)：

注意力专业化：专业化头数量、专业化分数、注意力熵
电路动态：电路深度、复杂度、激活流方差
干预敏感性：消融鲁棒性、关键组件数量
工作记忆：隐藏状态方差、范数轨迹
因果效应：logit归因、中介分数

3. 分类系统 (Classification System)

采用四个监督学习模型的集成：

Random Forest
Gradient Boosting
Support Vector Machine (SVM)
Logistic Regression

集成策略：

ŷ = 1[1/M ∑(j=1 to M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 to M) pⱼ

置信度计算：

conf = {
  p̄,     if ŷ = 1 (recall)
  1-p̄,   if ŷ = 0 (reasoning)
}

技术创新点

机制可解释性应用：首次将transformer电路分析应用于污染检测，从内部计算角度理解模型行为
多层次特征设计：结合表面轨迹特征和深层机制特征，全面刻画模型处理过程
无训练数据依赖：不需要访问原始训练数据，仅通过分析模型内部状态即可检测污染
可解释性增强：提供具体的特征解释，说明为什么某个响应被判定为回忆或推理

实验设置

数据集

训练集：

总样本：30个（15个回忆，15个推理）
用于训练分类器的基础表示

测试集：

总样本：100个
清晰回忆：20个
清晰推理：20个
挑战性案例：30个
复杂推理：30个

样本示例：

类别	示例提示	标签
清晰回忆	"The capital of France is"	recall
清晰推理	"If X is the capital of France, then X is"	reasoning
挑战性案例	"What is the sum of 10 and 15?"	reasoning
复杂推理	"If a store has 100 items and sells 30% of them, how many items remain?"	reasoning