2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.
Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.
academic

RADAR: المسارات الآلية للكشف عن تلوث البيانات في تقييم نماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2510.08931
  • العنوان: RADAR: المسارات الآلية للكشف عن تلوث البيانات في تقييم نماذج اللغة الكبيرة
  • المؤلفون: Ashish Kattamuri (Proofpoint)، Harshwardhan Fartale (معهد العلوم الهندي)، Arpita Vats (LinkedIn)، Rahul Raja (LinkedIn)، Ishita Prasad (Meta FAIR)
  • التصنيف: cs.AI, cs.LG
  • تاريخ النشر: 10 أكتوبر 2025 (نسخة أولية)
  • رابط الورقة: https://arxiv.org/abs/2510.08931v1

الملخص

يشكل تلوث البيانات تحديًا كبيرًا أمام التقييم الموثوق لنماذج اللغة الكبيرة (LLM)، حيث قد تحقق النماذج أداءً عاليًا من خلال حفظ بيانات التدريب بدلاً من إظهار قدرات استدلالية حقيقية. تقترح هذه الورقة RADAR (كشف الاستدعاء مقابل الاستدلال من خلال تمثيل التفعيل - Recall vs. Reasoning Detection through Activation Representation)، وهو إطار عمل جديد يستخدم القابلية للتفسير الآلية للكشف عن التلوث، من خلال التمييز بين استجابات النموذج القائمة على الاستدعاء والقائمة على الاستدلال. يستخرج RADAR 37 ميزة تغطي مسارات الثقة السطحية والخصائص الآلية العميقة، بما في ذلك التخصص الانتباهي وديناميكيات الدوائر وأنماط تدفق التفعيل. باستخدام مصنف مجموعة مدرب على هذه الميزات، يحقق RADAR دقة 93% على مجموعات التقييم المتنوعة، مع أداء مثالية في الحالات الواضحة ودقة 76.7% في الأمثلة الغامضة الصعبة.

السياق البحثي والدافع

تعريف المشكلة

يشير تلوث البيانات في تقييم نماذج اللغة الكبيرة إلى التداخل بين بيانات التدريب وبيانات التقييم، مما يؤدي إلى قيام النموذج بحل المهام من خلال الحفظ بدلاً من الاستدلال، وبالتالي تضخيم مقاييس التقييم وإخفاء القدرات الحقيقية.

أهمية المشكلة

  1. موثوقية التقييم: يؤثر تلوث البيانات بشكل كبير على مصداقية تقييم النموذج، مما يجعل من المستحيل الحكم بدقة على قدرات الاستدلال الحقيقية للنموذج
  2. القيمة البحثية العلمية: يعتبر التمييز بين الحفظ والاستدلال ذا أهمية حاسمة لفهم الآليات المعرفية للنموذج
  3. التطبيقات العملية: في النشر الفعلي، من الضروري التأكد من أن النموذج يمتلك قدرات استدلالية حقيقية وليس مجرد الاعتماد على الحفظ

قيود الطرق الموجودة

تتضمن طرق الكشف التقليدية بشكل أساسي:

  • مقارنة بيانات التقييم مع مدونات التدريب
  • فحص تداخل n-gram
  • وضع علامات على المخرجات الحرفية

تعاني هذه الطرق من القيود التالية:

  1. تتطلب الوصول إلى بيانات التدريب
  2. لا يمكنها التعامل مع التلوث في أشكال معاد صياغتها
  3. لا يمكنها الكشف عما إذا كان النموذج يحل المهام من خلال الاستدعاء أو الاستدلال
  4. تركز فقط على التشابه السطحي

الدافع البحثي

تقترح هذه الورقة تحليل المشكلة من منظور الديناميكيات الحسابية الداخلية للنموذج، باستخدام تقنيات القابلية للتفسير الآلية، من خلال تحليل الانتباه والحالات المخفية وتدفق التفعيل للتمييز بين عمليات الاستدعاء والاستدلال.

المساهمات الأساسية

  1. الابتكار المنهجي: تقديم إطار عمل RADAR، وهو أول تطبيق للقابلية للتفسير الآلية في كشف تلوث البيانات، من خلال تحليل العمليات الحسابية الداخلية للتمييز بين الاستدعاء والاستدلال
  2. هندسة الميزات: تصميم 37 ميزة، تشمل 17 ميزة سطحية و20 ميزة آلية، توفر وصفًا شاملاً لعملية المعالجة الداخلية للنموذج
  3. اختراق الأداء: تحقيق دقة 93% على مجموعات التقييم المتنوعة، مما يثبت فعالية الميزات الآلية في التمييز بين الاستدعاء والاستدلال
  4. القيمة العملية: توفير أداة كشف تلوث لا تتطلب الوصول إلى بيانات التدريب، مع قابلية تفسير وعملية جيدة
  5. الرؤى النظرية: الكشف عن توقيعات آلية مختلفة لعمليات الاستدعاء والاستدلال داخل النموذج، مما يوفر منظورًا جديدًا لفهم العمليات المعرفية للنموذج

شرح الطريقة

تعريف المهمة

الإدخال: موجه معين (prompt) واستجابة النموذج المقابلة الإخراج: تسمية تصنيف ثنائي، للحكم على ما إذا كانت استجابة النموذج قائمة على الاستدعاء (recall) أو الاستدلال (reasoning) الهدف: من خلال تحليل العمليات الحسابية الداخلية للنموذج، تحديد تلوث البيانات المحتمل

معمارية النموذج

يتضمن إطار عمل RADAR ثلاثة مكونات أساسية:

1. محلل الآليات (Mechanistic Analyzer)

  • الواجهة مع نموذج اللغة الكبيرة المستهدف، مع تكوين إخراج أوزان الانتباه والحالات المخفية
  • تحليل أنماط الانتباه لجميع الرؤوس والطبقات
  • حساب مؤشرات الإنتروبيا والتخصص
  • فحص ديناميكيات الحالة المخفية، بما في ذلك التباين والقاعدة والرتبة الفعالة

2. استخراج الميزات (Feature Extraction)

استخراج 37 ميزة، مقسمة إلى فئتين:

الميزات السطحية (17 ميزة):

  • إحصائيات الثقة: المتوسط، الانحراف المعياري، الحد الأقصى، الحد الأدنى، النطاق
  • خصائص التقارب: طبقة التقارب، سرعة التقارب، منحدر الثقة
  • مقاييس الإنتروبيا: متوسط الإنتروبيا، تغير الإنتروبيا، الكسب المعلوماتي
  • مؤشرات الاستقرار: استقرار التنبؤ، اتساق الطبقة

الميزات الآلية (20 ميزة):

  • التخصص الانتباهي: عدد الرؤوس المتخصصة، درجة التخصص، إنتروبيا الانتباه
  • ديناميكيات الدوائر: عمق الدائرة، التعقيد، تباين تدفق التفعيل
  • حساسية التدخل: قوة الحذف، عدد المكونات الحرجة
  • ذاكرة العمل: تباين الحالة المخفية، مسار القاعدة
  • التأثيرات السببية: نسب logit، درجات الوساطة

3. نظام التصنيف (Classification System)

استخدام مجموعة من أربعة نماذج تعلم خاضعة للإشراف:

  • غابة عشوائية (Random Forest)
  • تعزيز التدرج (Gradient Boosting)
  • آلة المتجهات الداعمة (SVM)
  • الانحدار اللوجستي (Logistic Regression)

استراتيجية المجموعة:

ŷ = 1[1/M ∑(j=1 to M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 to M) pⱼ

حساب الثقة:

conf = {
  p̄,     إذا كان ŷ = 1 (استدعاء)
  1-p̄,   إذا كان ŷ = 0 (استدلال)
}

نقاط الابتكار التقني

  1. تطبيق القابلية للتفسير الآلية: أول تطبيق لتحليل دوائر transformer في كشف التلوث، لفهم سلوك النموذج من منظور العمليات الحسابية الداخلية
  2. تصميم ميزات متعدد المستويات: الجمع بين ميزات المسارات السطحية والميزات الآلية العميقة، لتوفير وصف شامل لعملية معالجة النموذج
  3. عدم الاعتماد على بيانات التدريب: لا يتطلب الوصول إلى بيانات التدريب الأصلية، ويمكن فقط من خلال تحليل الحالات الداخلية للنموذج كشف التلوث
  4. تعزيز القابلية للتفسير: توفير تفسيرات ميزات محددة، توضح السبب في تصنيف استجابة معينة على أنها استدعاء أو استدلال

إعداد التجارب

مجموعات البيانات

مجموعة التدريب:

  • إجمالي العينات: 30 (15 استدعاء، 15 استدلال)
  • المستخدمة لتدريب مصنف المجموعة

مجموعة الاختبار:

  • إجمالي العينات: 100
  • استدعاء واضح: 20
  • استدلال واضح: 20
  • حالات صعبة: 30
  • استدلال معقد: 30

أمثلة العينات:

الفئةموجه مثاليالتسمية
استدعاء واضح"عاصمة فرنسا هي"recall
استدلال واضح"إذا كانت X هي عاصمة فرنسا، فإن X هي"reasoning
حالة صعبة"ما مجموع 10 و15؟"reasoning
استدلال معقد"إذا كان لدى متجر 100 عنصر وباع 30% منها، كم عدد العناصر المتبقية؟"reasoning

مقاييس التقييم

  • الدقة الإجمالية: دقة التصنيف لجميع العينات
  • دقة الفئة: دقة مهام الاستدعاء والاستدلال على حدة
  • دقة التصنيف: دقة فئات الصعوبة المختلفة
  • دقة التحقق المتقاطع: نتائج التحقق المتقاطع k-fold أثناء التدريب

طرق المقارنة

تركز الورقة بشكل أساسي على عرض أداء إطار عمل RADAR، دون إجراء مقارنة مباشرة مع طرق كشف تلوث أخرى محددة، وذلك لأن الطرق الموجودة تعتمد بشكل أساسي على التشابه النصي، بينما يعتمد RADAR على منظور تحليل آلي جديد تمامًا.

تفاصيل التنفيذ

  • النموذج المستهدف: microsoft/DialoGPT-medium
  • التكوين: output_attentions=True, output_hidden_states=True
  • تطبيع الميزات: استخدام StandardScaler لتطبيع المتوسط الصفري والتباين الوحدة
  • استراتيجية التدريب: التحقق المتقاطع k-fold لضمان تقدير أداء قوي

نتائج التجارب

النتائج الرئيسية

الأداء الإجمالي:

  • الدقة الإجمالية: 93.0%
  • دقة مهام الاستدعاء: 97.7%
  • دقة مهام الاستدلال: 89.3%
  • دقة التحقق المتقاطع للتدريب: 96.7%

الأداء حسب الفئة:

الفئةالدقة
استدعاء واضح100% (20/20)
استدلال واضح100% (20/20)
حالات صعبة76.7% (23/30)
استدلال معقد100% (30/30)

تحليل الميزات

الميزات التمييزية الرئيسية:

  1. رؤوس الانتباه المتخصصة: أعلى في مهام الاستدعاء
  2. تعقيد الدائرة: أعلى في مهام الاستدلال
  3. أنماط تقارب الثقة: تقارب أسرع في مهام الاستدعاء

درجة كشف الاستدعاء (RDS):

  • متوسط RDS لمهام الاستدعاء: 0.933
  • متوسط RDS لمهام الاستدلال: 0.375
  • يظهر قابلية فصل واضحة

اختلافات التوقيعات الآلية:

  • عملية الاستدعاء: أنماط انتباه مركزة، تقارب ثقة سريع، تفعيل رؤوس متخصصة
  • عملية الاستدلال: انتباه موزع، بناء ثقة تدريجي، تباين تدفق تفعيل أعلى

نتائج التجارب

  1. فعالية الميزات الآلية: تثبت الميزات الآلية قدرتها على التمييز الفعال بين عمليات الاستدعاء والاستدلال، مما يتحقق من قيمة تحليل العمليات الحسابية الداخلية
  2. تحليل الحالات الصعبة: تشير دقة 76.7% إلى وجود مجال للتحسين في حالات الحدود الغامضة، وعادة ما تتضمن هذه الحالات عدم تطابق بين الشكل السطحي والمعالجة الداخلية
  3. التكامل بين الميزات: يوفر الجمع بين الميزات السطحية والميزات الآلية منظورًا تحليليًا أكثر شمولاً
  4. التحقق من القابلية للتفسير: تتوافق نتائج تحليل الميزات مع التوقعات النظرية من العلوم المعرفية حول الحفظ والاستدلال

الأعمال ذات الصلة

كشف تلوث البيانات

  • الطرق التقليدية: تعتمد على تداخل n-gram ومقارنة التشابه النصي
  • الأعمال الممثلة: طريقة استخراج بيانات التدريب من قبل Carlini et al. (2021)
  • القيود: تعتمد على الوصول إلى بيانات التدريب، لا يمكنها التعامل مع التلوث المعاد صياغته

القابلية للتفسير الآلية

  • دوائر Transformer: الإطار الرياضي من قبل Elhage et al. (2021)
  • تحليل الانتباه: طريقة تصور الدوائر من قبل Olah et al. (2020)
  • مساهمة هذه الورقة: أول تطبيق للتحليل الآلي في كشف التلوث

تقييم نماذج اللغة الكبيرة

  • الحفظ مقابل الاستدلال: التحليل النظري للتعلم والحفظ من قبل Feldman (2020)
  • موثوقية التقييم: طريقة كشف السفر عبر الزمن من قبل Golchin and Surdeanu (2023)
  • ميزة هذه الورقة: توفير طريقة تقييم من منظور الآليات الداخلية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. الجدوى التقنية: يمكن للقابلية للتفسير الآلية أن تكشف بفعالية عن تلوث البيانات، وتثبت دقة 93% فعالية الطريقة
  2. المساهمة النظرية: الكشف عن توقيعات حسابية مختلفة للاستدعاء والاستدلال داخل النموذج، مما يوفر منظورًا جديدًا لفهم آليات LLM المعرفية
  3. القيمة العملية: يوفر RADAR أداة كشف تلوث لا تتطلب الوصول إلى بيانات التدريب، مع قابلية تفسير جيدة
  4. عمومية الطريقة: يمكن توسيع الإطار ليشمل معماريات نماذج مختلفة، مما يوفر أداة جديدة لتقييم LLM

القيود

  1. حدود الحجم: تركز التجارب الحالية بشكل أساسي على DialoGPT-medium، وتحتاج قابلية التطبيق على نماذج أكبر إلى التحقق
  2. حجم مجموعة البيانات: مجموعة التدريب تحتوي على 30 عينة فقط، ومجموعة الاختبار 100 عينة، الحجم نسبيًا صغير
  3. الميزات البديلة: تستخدم بعض الميزات الآلية مقاييس بديلة بدلاً من الحساب المباشر (مثل التأثيرات السببية التي يتم تقريبها من خلال إنتروبيا الانتباه)
  4. نطاق المهام: يركز الحالي بشكل أساسي على الاستدعاء البسيط للحقائق مقابل الاستدلال المنطقي، وتحتاج قابلية التطبيق على المهام المعقدة إلى التحقق الإضافي
  5. التكلفة الحسابية: يتطلب استخراج الحالات الداخلية للنموذج، مما قد يزيد من التكلفة الحسابية

الاتجاهات المستقبلية

  1. توسيع النماذج الكبيرة: استكشاف التطبيقات على نماذج أكبر حجمًا
  2. الكشف غير الخاضع للإشراف: تطوير طرق كشف تلوث غير خاضعة للإشراف
  3. أنواع تلوث متعددة: توسيع نطاق كشف أنواع تلوث بيانات أخرى
  4. الكشف في الوقت الفعلي: تطوير نظام كشف تلوث فعال عبر الإنترنت

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول تطبيق للقابلية للتفسير الآلية في كشف التلوث، يفتح اتجاهًا بحثيًا جديدًا
  2. الطريقة العلمية: تصميم الميزات له أساس نظري، ومصنف المجموعة يحسن القوة
  3. قابلية تفسير جيدة: توفير تفسيرات ميزات محددة، مما يعزز مصداقية الطريقة
  4. قيمة عملية عالية: لا يتطلب الوصول إلى بيانات التدريب، مما يقلل من حاجز التطبيق
  5. تجارب شاملة: تتضمن حالات اختبار بدرجات صعوبة مختلفة، مما يتحقق من قوة الطريقة

أوجه القصور

  1. حجم التجارب: حجم مجموعة البيانات صغير نسبيًا، قد يكون هناك خطر الإفراط في التدريب
  2. مقارنة المعايير: تفتقر إلى المقارنة المباشرة مع طرق كشف التلوث الموجودة
  3. هندسة الميزات: تستخدم بعض الميزات مقاييس بديلة، مما قد يؤثر على الدقة
  4. القدرة على التعميم: تم التحقق فقط على نموذج واحد، وتحتاج القدرة على التعميم إلى التحقق
  5. التحليل النظري: يفتقر إلى تحليل نظري متعمق حول سبب فعالية هذه الميزات

التأثير

  1. المساهمة الأكاديمية: توفير أفكار جديدة لأبحاث تقييم LLM والقابلية للتفسير الآلية
  2. القيمة العملية: توفير أداة كشف تلوث عملية للصناعة
  3. القابلية للتكرار: توفير تنفيذ كود كامل، مما يسهل التكرار والتوسيع
  4. الإلهام البحثي: قد يلهم المزيد من الأبحاث حول آليات النموذج الداخلية

سيناريوهات التطبيق

  1. تقييم النموذج: كشف تلوث البيانات المحتمل في اختبارات معايير LLM
  2. أداة البحث: كأداة بحثية لتحليل الآليات المعرفية للنموذج
  3. مراقبة الجودة: ضمان موثوقية التقييم أثناء عملية تطوير النموذج
  4. التطبيقات التعليمية: المساعدة في فهم وتدريس مبادئ عمل LLM الداخلية

المراجع

تتضمن المراجع الرئيسية:

  • Golchin & Surdeanu (2023): السفر عبر الزمن في نماذج اللغة الكبيرة: تتبع تلوث البيانات
  • Carlini et al. (2021): استخراج بيانات التدريب من نماذج اللغة الكبيرة
  • Elhage et al. (2021): إطار عمل رياضي لدوائر transformer
  • Olah et al. (2020): التكبير: مقدمة إلى الدوائر
  • Feldman (2020): هل يتطلب التعلم الحفظ؟

الملخص: يمثل RADAR تقدمًا مهمًا في مجال كشف تلوث LLM، حيث يوفر منظورًا حلاً جديدًا من خلال القابلية للتفسير الآلية. على الرغم من وجود مجال للتحسين في حجم التجارب والتحليل النظري، فإن ابتكاره وقيمته العملية تجعله مساهمة مهمة في هذا المجال. لا يحل هذا العمل مشكلة عملية فحسب، بل يوفر أيضًا أدوات ومنظورًا جديدًا لفهم الآليات الداخلية لنماذج اللغة الكبيرة.