RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation
Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic
RADAR: المسارات الآلية للكشف عن تلوث البيانات في تقييم نماذج اللغة الكبيرة
يشكل تلوث البيانات تحديًا كبيرًا أمام التقييم الموثوق لنماذج اللغة الكبيرة (LLM)، حيث قد تحقق النماذج أداءً عاليًا من خلال حفظ بيانات التدريب بدلاً من إظهار قدرات استدلالية حقيقية. تقترح هذه الورقة RADAR (كشف الاستدعاء مقابل الاستدلال من خلال تمثيل التفعيل - Recall vs. Reasoning Detection through Activation Representation)، وهو إطار عمل جديد يستخدم القابلية للتفسير الآلية للكشف عن التلوث، من خلال التمييز بين استجابات النموذج القائمة على الاستدعاء والقائمة على الاستدلال. يستخرج RADAR 37 ميزة تغطي مسارات الثقة السطحية والخصائص الآلية العميقة، بما في ذلك التخصص الانتباهي وديناميكيات الدوائر وأنماط تدفق التفعيل. باستخدام مصنف مجموعة مدرب على هذه الميزات، يحقق RADAR دقة 93% على مجموعات التقييم المتنوعة، مع أداء مثالية في الحالات الواضحة ودقة 76.7% في الأمثلة الغامضة الصعبة.
يشير تلوث البيانات في تقييم نماذج اللغة الكبيرة إلى التداخل بين بيانات التدريب وبيانات التقييم، مما يؤدي إلى قيام النموذج بحل المهام من خلال الحفظ بدلاً من الاستدلال، وبالتالي تضخيم مقاييس التقييم وإخفاء القدرات الحقيقية.
تقترح هذه الورقة تحليل المشكلة من منظور الديناميكيات الحسابية الداخلية للنموذج، باستخدام تقنيات القابلية للتفسير الآلية، من خلال تحليل الانتباه والحالات المخفية وتدفق التفعيل للتمييز بين عمليات الاستدعاء والاستدلال.
الابتكار المنهجي: تقديم إطار عمل RADAR، وهو أول تطبيق للقابلية للتفسير الآلية في كشف تلوث البيانات، من خلال تحليل العمليات الحسابية الداخلية للتمييز بين الاستدعاء والاستدلال
هندسة الميزات: تصميم 37 ميزة، تشمل 17 ميزة سطحية و20 ميزة آلية، توفر وصفًا شاملاً لعملية المعالجة الداخلية للنموذج
اختراق الأداء: تحقيق دقة 93% على مجموعات التقييم المتنوعة، مما يثبت فعالية الميزات الآلية في التمييز بين الاستدعاء والاستدلال
القيمة العملية: توفير أداة كشف تلوث لا تتطلب الوصول إلى بيانات التدريب، مع قابلية تفسير وعملية جيدة
الرؤى النظرية: الكشف عن توقيعات آلية مختلفة لعمليات الاستدعاء والاستدلال داخل النموذج، مما يوفر منظورًا جديدًا لفهم العمليات المعرفية للنموذج
الإدخال: موجه معين (prompt) واستجابة النموذج المقابلة
الإخراج: تسمية تصنيف ثنائي، للحكم على ما إذا كانت استجابة النموذج قائمة على الاستدعاء (recall) أو الاستدلال (reasoning)
الهدف: من خلال تحليل العمليات الحسابية الداخلية للنموذج، تحديد تلوث البيانات المحتمل
تركز الورقة بشكل أساسي على عرض أداء إطار عمل RADAR، دون إجراء مقارنة مباشرة مع طرق كشف تلوث أخرى محددة، وذلك لأن الطرق الموجودة تعتمد بشكل أساسي على التشابه النصي، بينما يعتمد RADAR على منظور تحليل آلي جديد تمامًا.
فعالية الميزات الآلية: تثبت الميزات الآلية قدرتها على التمييز الفعال بين عمليات الاستدعاء والاستدلال، مما يتحقق من قيمة تحليل العمليات الحسابية الداخلية
تحليل الحالات الصعبة: تشير دقة 76.7% إلى وجود مجال للتحسين في حالات الحدود الغامضة، وعادة ما تتضمن هذه الحالات عدم تطابق بين الشكل السطحي والمعالجة الداخلية
التكامل بين الميزات: يوفر الجمع بين الميزات السطحية والميزات الآلية منظورًا تحليليًا أكثر شمولاً
التحقق من القابلية للتفسير: تتوافق نتائج تحليل الميزات مع التوقعات النظرية من العلوم المعرفية حول الحفظ والاستدلال
Golchin & Surdeanu (2023): السفر عبر الزمن في نماذج اللغة الكبيرة: تتبع تلوث البيانات
Carlini et al. (2021): استخراج بيانات التدريب من نماذج اللغة الكبيرة
Elhage et al. (2021): إطار عمل رياضي لدوائر transformer
Olah et al. (2020): التكبير: مقدمة إلى الدوائر
Feldman (2020): هل يتطلب التعلم الحفظ؟
الملخص: يمثل RADAR تقدمًا مهمًا في مجال كشف تلوث LLM، حيث يوفر منظورًا حلاً جديدًا من خلال القابلية للتفسير الآلية. على الرغم من وجود مجال للتحسين في حجم التجارب والتحليل النظري، فإن ابتكاره وقيمته العملية تجعله مساهمة مهمة في هذا المجال. لا يحل هذا العمل مشكلة عملية فحسب، بل يوفر أيضًا أدوات ومنظورًا جديدًا لفهم الآليات الداخلية لنماذج اللغة الكبيرة.