2025-11-25T05:13:17.678139

RADAR: Mechanistic Pathways for Detecting Data Contamination in LLM Evaluation

Kattamuri, Fartale, Vats et al.

Data contamination poses a significant challenge to reliable LLM evaluation, where models may achieve high performance by memorizing training data rather than demonstrating genuine reasoning capabilities. We introduce RADAR (Recall vs. Reasoning Detection through Activation Representation), a novel framework that leverages mechanistic interpretability to detect contamination by distinguishing recall-based from reasoning-based model responses. RADAR extracts 37 features spanning surface-level confidence trajectories and deep mechanistic properties including attention specialization, circuit dynamics, and activation flow patterns. Using an ensemble of classifiers trained on these features, RADAR achieves 93\% accuracy on a diverse evaluation set, with perfect performance on clear cases and 76.7\% accuracy on challenging ambiguous examples. This work demonstrates the potential of mechanistic interpretability for advancing LLM evaluation beyond traditional surface-level metrics.

academic

RADAR: LLM मूल्यांकन में डेटा प्रदूषण का पता लगाने के लिए यांत्रिक पथ

मूल जानकारी

पेपर ID: 2510.08931
शीर्षक: RADAR: LLM मूल्यांकन में डेटा प्रदूषण का पता लगाने के लिए यांत्रिक पथ
लेखक: Ashish Kattamuri (Proofpoint), Harshwardhan Fartale (भारतीय विज्ञान संस्थान), Arpita Vats (LinkedIn), Rahul Raja (LinkedIn), Ishita Prasad (Meta FAIR)
वर्गीकरण: cs.AI, cs.LG
प्रकाशन तिथि: 25 अक्टूबर 10 (प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08931v1

सारांश

डेटा प्रदूषण विश्वसनीय बड़े भाषा मॉडल (LLM) मूल्यांकन के लिए एक महत्वपूर्ण चुनौती है, क्योंकि मॉडल प्रशिक्षण डेटा को याद रखकर वास्तविक तर्क क्षमता प्रदर्शित करने के बजाय उच्च प्रदर्शन प्राप्त कर सकते हैं। यह पेपर RADAR (सक्रियण प्रतिनिधित्व के माध्यम से स्मरण बनाम तर्क का पता लगाना) प्रस्तावित करता है, जो यांत्रिक व्याख्यात्मकता का उपयोग करके प्रदूषण का पता लगाने के लिए एक नई रूपरेखा है, जो स्मरण-आधारित और तर्क-आधारित मॉडल प्रतिक्रियाओं को अलग करके डेटा प्रदूषण की पहचान करती है। RADAR 37 विशेषताओं को निकालता है, जिसमें सतही स्तर के आत्मविश्वास प्रक्षेपवक्र और गहरी यांत्रिक विशेषताएं शामिल हैं, जिनमें ध्यान विशेषज्ञता, सर्किट गतिविधि और सक्रियण प्रवाह पैटर्न शामिल हैं। इन विशेषताओं के आधार पर प्रशिक्षित एक समेकित वर्गीकारक का उपयोग करते हुए, RADAR विविध मूल्यांकन सेट पर 93% सटीकता प्राप्त करता है, स्पष्ट मामलों पर पूर्ण प्रदर्शन करता है, और चुनौतीपूर्ण अस्पष्ट नमूनों पर 76.7% सटीकता प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े भाषा मॉडल मूल्यांकन में डेटा प्रदूषण एक महत्वपूर्ण समस्या है, जो प्रशिक्षण डेटा और मूल्यांकन डेटा के बीच ओवरलैप को संदर्भित करता है, जिससे मॉडल तर्क के बजाय स्मरण के माध्यम से कार्य को हल करता है, जिससे मूल्यांकन मेट्रिक्स को कृत्रिमता से बढ़ाया जाता है और वास्तविक क्षमताओं को छिपाया जाता है।

समस्या की महत्ता

मूल्यांकन विश्वसनीयता: डेटा प्रदूषण मॉडल मूल्यांकन की विश्वसनीयता को गंभीरता से प्रभावित करता है, जिससे मॉडल की वास्तविक तर्क क्षमता का सटीक निर्णय लेना असंभव हो जाता है
वैज्ञानिक अनुसंधान मूल्य: स्मरण और तर्क को अलग करना मॉडल के संज्ञानात्मक तंत्र को समझने के लिए महत्वपूर्ण है
व्यावहारिक अनुप्रयोग: वास्तविक तैनाती में, यह सुनिश्चित करना आवश्यक है कि मॉडल के पास वास्तविक तर्क क्षमता है न कि केवल स्मरण पर निर्भरता है

मौजूदा विधियों की सीमाएं

पारंपरिक पहचान विधियों में मुख्य रूप से शामिल हैं:

मूल्यांकन डेटा और प्रशिक्षण कॉर्पस की तुलना
n-ग्राम ओवरलैप की जांच
शब्द-दर-शब्द आउटपुट को चिह्नित करना

इन विधियों में निम्नलिखित सीमाएं हैं:

प्रशिक्षण डेटा तक पहुंच की आवश्यकता
पैराफ्रेज़ किए गए रूप के प्रदूषण को संभालने में असमर्थता
यह प्रकट करने में असमर्थता कि मॉडल स्मरण या तर्क के माध्यम से कार्य को हल करता है
केवल सतही समानता पर ध्यान केंद्रित करना

अनुसंधान प्रेरणा

यह पेपर मॉडल के आंतरिक कम्प्यूटेशनल गतिविधि के दृष्टिकोण से समस्या का विश्लेषण करने का प्रस्ताव देता है, यांत्रिक व्याख्यात्मकता तकनीकों का उपयोग करते हुए, ध्यान, छिपी हुई स्थिति और सक्रियण प्रवाह का विश्लेषण करके स्मरण और तर्क प्रक्रियाओं को अलग करता है।

मुख्य योगदान

विधि नवाचार: RADAR रूपरेखा प्रस्तावित करता है, पहली बार यांत्रिक व्याख्यात्मकता को डेटा प्रदूषण पहचान में लागू करता है, आंतरिक कम्प्यूटेशनल प्रक्रिया का विश्लेषण करके स्मरण और तर्क को अलग करता है
विशेषता इंजीनियरिंग: 37 विशेषताओं को डिजाइन किया गया है, जिसमें 17 सतही विशेषताएं और 20 यांत्रिक विशेषताएं शामिल हैं, जो मॉडल की आंतरिक प्रक्रिया को व्यापक रूप से चित्रित करती हैं
प्रदर्शन सफलता: विविध मूल्यांकन सेट पर 93% सटीकता प्राप्त करता है, जो स्मरण और तर्क को अलग करने में यांत्रिक विशेषताओं की प्रभावशीलता को साबित करता है
व्यावहारिक मूल्य: प्रशिक्षण डेटा तक पहुंच के बिना प्रदूषण पहचान के लिए एक उपकरण प्रदान करता है, जिसमें अच्छी व्याख्यात्मकता और व्यावहारिकता है
सैद्धांतिक अंतर्दृष्टि: स्मरण और तर्क प्रक्रियाओं में मॉडल के आंतरिक में विभिन्न यांत्रिक हस्ताक्षर प्रकट करता है, मॉडल संज्ञानात्मक प्रक्रिया को समझने के लिए एक नया दृष्टिकोण प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: एक प्रॉम्प्ट और संबंधित मॉडल प्रतिक्रिया दी गई है आउटपुट: द्विआधारी वर्गीकरण लेबल, यह निर्धारित करता है कि मॉडल प्रतिक्रिया स्मरण (recall) या तर्क (reasoning) पर आधारित है लक्ष्य: मॉडल की आंतरिक कम्प्यूटेशनल प्रक्रिया का विश्लेषण करके, संभावित डेटा प्रदूषण की पहचान करना

मॉडल आर्किटेक्चर

RADAR रूपरेखा में तीन मुख्य घटक शामिल हैं:

1. यांत्रिक विश्लेषक (Mechanistic Analyzer)

लक्ष्य LLM के साथ इंटरफेस, आउटपुट ध्यान वजन और छिपी हुई स्थिति को कॉन्फ़िगर करता है
सभी हेड्स और परतों के ध्यान पैटर्न का विश्लेषण करता है
एंट्रॉपी और विशेषज्ञता संकेतक की गणना करता है
छिपी हुई स्थिति गतिविधि की जांच करता है, जिसमें विचरण, मानदंड और प्रभावी रैंक शामिल हैं

2. विशेषता निष्कर्षण (Feature Extraction)

37 विशेषताओं को निकाला गया है, दो श्रेणियों में विभाजित:

सतही विशेषताएं (17):

आत्मविश्वास सांख्यिकी: माध्य, मानक विचलन, अधिकतम, न्यूनतम, श्रेणी
अभिसरण गुण: अभिसरण परत, अभिसरण गति, आत्मविश्वास ढलान
एंट्रॉपी माप: औसत एंट्रॉपी, एंट्रॉपी परिवर्तन, सूचना लाभ
स्थिरता संकेतक: भविष्यवाणी स्थिरता, परत सामंजस्य

यांत्रिक विशेषताएं (20):

ध्यान विशेषज्ञता: विशेषज्ञ हेड्स की संख्या, विशेषज्ञता स्कोर, ध्यान एंट्रॉपी
सर्किट गतिविधि: सर्किट गहराई, जटिलता, सक्रियण प्रवाह विचरण
हस्तक्षेप संवेदनशीलता: विलोपन दृढ़ता, महत्वपूर्ण घटक संख्या
कार्य स्मृति: छिपी हुई स्थिति विचरण, मानदंड प्रक्षेपवक्र
कारणात्मक प्रभाव: logit आरोपण, मध्यस्थता स्कोर

3. वर्गीकरण प्रणाली (Classification System)

चार पर्यवेक्षित शिक्षण मॉडल का समेकन:

Random Forest
Gradient Boosting
Support Vector Machine (SVM)
Logistic Regression

समेकन रणनीति:

ŷ = 1[1/M ∑(j=1 to M) ŷⱼ > 1/2]
p̄ = 1/M ∑(j=1 to M) pⱼ

आत्मविश्वास गणना:

conf = {
  p̄,     यदि ŷ = 1 (स्मरण)
  1-p̄,   यदि ŷ = 0 (तर्क)
}

तकनीकी नवाचार बिंदु

यांत्रिक व्याख्यात्मकता अनुप्रयोग: पहली बार transformer सर्किट विश्लेषण को प्रदूषण पहचान में लागू करता है, आंतरिक कम्प्यूटेशनल दृष्टिकोण से मॉडल व्यवहार को समझता है
बहु-स्तरीय विशेषता डिजाइन: सतही प्रक्षेपवक्र विशेषताओं और गहरी यांत्रिक विशेषताओं को जोड़ता है, मॉडल प्रक्रिया को व्यापक रूप से चित्रित करता है
प्रशिक्षण डेटा निर्भरता से मुक्त: मूल प्रशिक्षण डेटा तक पहुंच की आवश्यकता नहीं है, केवल मॉडल की आंतरिक स्थिति का विश्लेषण करके प्रदूषण का पता लगा सकता है
व्याख्यात्मकता वृद्धि: विशिष्ट विशेषता व्याख्या प्रदान करता है, यह समझाता है कि क्यों किसी प्रतिक्रिया को स्मरण या तर्क के रूप में वर्गीकृत किया गया है

प्रयोगात्मक सेटअप

डेटासेट

प्रशिक्षण सेट:

कुल नमूने: 30 (15 स्मरण, 15 तर्क)
वर्गीकारक प्रशिक्षण के लिए आधार प्रतिनिधित्व

परीक्षण सेट:

कुल नमूने: 100
स्पष्ट स्मरण: 20
स्पष्ट तर्क: 20
चुनौतीपूर्ण मामले: 30
जटिल तर्क: 30

नमूना उदाहरण:

श्रेणी	उदाहरण प्रॉम्प्ट	लेबल
स्पष्ट स्मरण	"फ्रांस की राजधानी है"	स्मरण
स्पष्ट तर्क	"यदि X फ्रांस की राजधानी है, तो X है"	तर्क
चुनौतीपूर्ण मामला	"10 और 15 का योग क्या है?"	तर्क
जटिल तर्क	"यदि एक दुकान के पास 100 वस्तुएं हैं और उनमें से 30% बेचता है, तो कितनी वस्तुएं बचती हैं?"	तर्क

मूल्यांकन मेट्रिक्स

समग्र सटीकता: सभी नमूनों की वर्गीकरण सटीकता
श्रेणी सटीकता: स्मरण कार्य और तर्क कार्य की अलग-अलग सटीकता
वर्गीकरण सटीकता: विभिन्न कठिनाई श्रेणियों की सटीकता
क्रॉस-सत्यापन सटीकता: प्रशिक्षण प्रक्रिया में k-फोल्ड क्रॉस-सत्यापन परिणाम

तुलनात्मक विधियां

पेपर मुख्य रूप से RADAR रूपरेखा के प्रदर्शन को प्रदर्शित करता है, अन्य विशिष्ट प्रदूषण पहचान विधियों के साथ सीधी तुलना नहीं करता है, क्योंकि मौजूदा विधियां मुख्य रूप से पाठ समानता पर आधारित हैं, जबकि RADAR एक पूरी तरह से नया यांत्रिक विश्लेषण कोण अपनाता है।

कार्यान्वयन विवरण

लक्ष्य मॉडल: microsoft/DialoGPT-medium
कॉन्फ़िगरेशन: output_attentions=True, output_hidden_states=True
विशेषता सामान्यीकरण: StandardScaler का उपयोग करके शून्य माध्य इकाई विचरण सामान्यीकरण
प्रशिक्षण रणनीति: k-फोल्ड क्रॉस-सत्यापन मजबूत प्रदर्शन अनुमान सुनिश्चित करता है

प्रयोगात्मक परिणाम

मुख्य परिणाम

समग्र प्रदर्शन:

समग्र सटीकता: 93.0%
स्मरण कार्य सटीकता: 97.7%
तर्क कार्य सटीकता: 89.3%
प्रशिक्षण क्रॉस-सत्यापन सटीकता: 96.7%

श्रेणी-वार प्रदर्शन:

श्रेणी	सटीकता
स्पष्ट स्मरण	100% (20/20)
स्पष्ट तर्क	100% (20/20)
चुनौतीपूर्ण मामले	76.7% (23/30)
जटिल तर्क	100% (30/30)

विशेषता विश्लेषण

मुख्य विभेदक विशेषताएं:

विशेषज्ञ ध्यान हेड्स: स्मरण कार्य में अधिक
सर्किट जटिलता: तर्क कार्य में अधिक
आत्मविश्वास अभिसरण पैटर्न: स्मरण कार्य में तेजी से अभिसरण

स्मरण पहचान स्कोर (RDS):

स्मरण कार्य औसत RDS: 0.933
तर्क कार्य औसत RDS: 0.375
स्पष्ट अलगता दिखाता है

यांत्रिक हस्ताक्षर अंतर:

स्मरण प्रक्रिया: केंद्रित ध्यान पैटर्न, तेजी से आत्मविश्वास अभिसरण, विशेषज्ञ हेड सक्रियण
तर्क प्रक्रिया: वितरित ध्यान, क्रमिक आत्मविश्वास निर्माण, उच्च सक्रियण प्रवाह विचरण

प्रयोगात्मक निष्कर्ष

यांत्रिक विशेषता प्रभावशीलता: यांत्रिक विशेषताएं स्मरण और तर्क प्रक्रियाओं को प्रभावी रूप से अलग कर सकती हैं, आंतरिक कम्प्यूटेशनल विश्लेषण के मूल्य को सत्यापित करती हैं
चुनौतीपूर्ण मामले विश्लेषण: 76.7% सटीकता इंगित करती है कि अस्पष्ट सीमा मामलों में अभी भी सुधार की गुंजाइश है, ये मामले आमतौर पर सतही रूप और आंतरिक प्रसंस्करण के बीच बेमेल को शामिल करते हैं
विशेषता पूरकता: सतही विशेषताओं और यांत्रिक विशेषताओं का संयोजन अधिक व्यापक विश्लेषण दृष्टिकोण प्रदान करता है
व्याख्यात्मकता सत्यापन: विशेषता विश्लेषण परिणाम संज्ञानात्मक विज्ञान के बारे में स्मरण और तर्क के सैद्धांतिक अपेक्षाओं के अनुरूप हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

तकनीकी व्यवहार्यता: यांत्रिक व्याख्यात्मकता डेटा प्रदूषण को प्रभावी रूप से पहचान सकती है, 93% सटीकता विधि की प्रभावशीलता को साबित करती है
सैद्धांतिक योगदान: स्मरण और तर्क में मॉडल के आंतरिक में विभिन्न कम्प्यूटेशनल हस्ताक्षर प्रकट करता है, LLM संज्ञानात्मक तंत्र को समझने के लिए एक नया दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: RADAR प्रशिक्षण डेटा पहुंच के बिना प्रदूषण पहचान के लिए एक उपकरण प्रदान करता है, जिसमें अच्छी व्याख्यात्मकता है
विधि सामान्यता: रूपरेखा विभिन्न मॉडल आर्किटेक्चर तक विस्तारित की जा सकती है, LLM मूल्यांकन के लिए एक नया उपकरण प्रदान करता है

सीमाएं

पैमाने की सीमा: वर्तमान प्रयोग मुख्य रूप से DialoGPT-medium पर किए गए हैं, बड़े पैमाने के मॉडल पर लागू होने की क्षमता सत्यापित की जानी बाकी है
डेटासेट पैमाना: प्रशिक्षण सेट केवल 30 नमूने, परीक्षण सेट 100 नमूने, पैमाना अपेक्षाकृत छोटा है
प्रॉक्सी विशेषताएं: कुछ यांत्रिक विशेषताएं प्रॉक्सी माप का उपयोग करती हैं न कि सीधी गणना (जैसे कारणात्मक प्रभाव को ध्यान एंट्रॉपी द्वारा अनुमानित किया जाता है)
कार्य श्रेणी: वर्तमान में मुख्य रूप से सरल तथ्य स्मरण बनाम तार्किक तर्क पर ध्यान केंद्रित करता है, जटिल कार्य पर लागू होने की क्षमता को आगे सत्यापित करने की आवश्यकता है
कम्प्यूटेशनल ओवरहेड: मॉडल की आंतरिक स्थिति निकालने की आवश्यकता है, कम्प्यूटेशनल लागत बढ़ा सकता है

भविष्य की दिशा

बड़े मॉडल विस्तार: बड़े पैमाने के मॉडल पर अनुप्रयोग की खोज करना
अनुपर्यवेक्षित पहचान: अनुपर्यवेक्षित प्रदूषण पहचान विधि विकसित करना
बहु-प्रकार प्रदूषण: अन्य प्रकार के डेटा प्रदूषण पहचान तक विस्तार करना
वास्तविक समय पहचान: कुशल ऑनलाइन प्रदूषण पहचान प्रणाली विकसित करना

गहन मूल्यांकन

लाभ

मजबूत नवाचार: पहली बार यांत्रिक व्याख्यात्मकता को प्रदूषण पहचान में लागू करता है, अनुसंधान के लिए एक नई दिशा खोलता है
विधि वैज्ञानिकता: विशेषता डिजाइन में सैद्धांतिक आधार है, समेकित वर्गीकारक दृढ़ता में सुधार करता है
अच्छी व्याख्यात्मकता: विशिष्ट विशेषता व्याख्या प्रदान करता है, विधि की विश्वसनीयता बढ़ाता है
उच्च व्यावहारिक मूल्य: प्रशिक्षण डेटा पहुंच की आवश्यकता नहीं है, अनुप्रयोग सीमा को कम करता है
पूर्ण प्रयोग: विभिन्न कठिनाई स्तर के परीक्षण मामलों को शामिल करता है, विधि की दृढ़ता को सत्यापित करता है

कमियां

प्रयोगात्मक पैमाना: डेटासेट पैमाना छोटा है, अत्यधिक फिटिंग का जोखिम हो सकता है
बेंचमार्क तुलना: मौजूदा प्रदूषण पहचान विधियों के साथ सीधी तुलना की कमी
विशेषता इंजीनियरिंग: कुछ विशेषताएं प्रॉक्सी माप का उपयोग करती हैं, सटीकता को प्रभावित कर सकता है
सामान्यीकरण क्षमता: केवल एक मॉडल पर सत्यापित, सामान्यीकरण क्षमता सत्यापित की जानी बाकी है
सैद्धांतिक विश्लेषण: इस बात की गहन सैद्धांतिक विश्लेषण की कमी कि ये विशेषताएं प्रभावी क्यों हैं

प्रभाव

शैक्षणिक योगदान: LLM मूल्यांकन और यांत्रिक व्याख्यात्मकता अनुसंधान के लिए नए विचार प्रदान करता है
व्यावहारिक मूल्य: औद्योगिक क्षेत्र के लिए व्यावहारिक प्रदूषण पहचान उपकरण प्रदान करता है
पुनरुत्पादनशीलता: पूर्ण कोड कार्यान्वयन प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
अनुसंधान प्रेरणा: मॉडल की आंतरिक यांत्रिकी पर अधिक अनुसंधान को प्रेरित कर सकता है

लागू परिदृश्य

मॉडल मूल्यांकन: LLM बेंचमार्क परीक्षण में संभावित डेटा प्रदूषण का पता लगाना
अनुसंधान उपकरण: मॉडल के संज्ञानात्मक तंत्र का विश्लेषण करने के लिए अनुसंधान उपकरण के रूप में
गुणवत्ता नियंत्रण: मॉडल विकास प्रक्रिया में मूल्यांकन की विश्वसनीयता सुनिश्चित करना
शैक्षणिक अनुप्रयोग: LLM की आंतरिक कार्य प्रणाली को समझने और सिखाने में सहायता करना

संदर्भ

मुख्य संदर्भ साहित्य में शामिल हैं:

Golchin & Surdeanu (2023): LLM में समय यात्रा: डेटा प्रदूषण का पता लगाना
Carlini et al. (2021): बड़े भाषा मॉडल से प्रशिक्षण डेटा निकालना
Elhage et al. (2021): Transformer सर्किट के लिए गणितीय रूपरेखा
Olah et al. (2020): ज़ूम इन: सर्किट का परिचय
Feldman (2020): क्या सीखने के लिए स्मरण की आवश्यकता है?

सारांश: RADAR LLM प्रदूषण पहचान क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, यांत्रिक व्याख्यात्मकता के माध्यम से समस्या समाधान के लिए एक नया दृष्टिकोण प्रदान करता है। हालांकि प्रयोगात्मक पैमाने और सैद्धांतिक विश्लेषण के पहलुओं में सुधार की गुंजाइश है, लेकिन इसकी नवीनता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाते हैं। यह कार्य न केवल व्यावहारिक समस्या को हल करता है, बल्कि LLM की आंतरिक यांत्रिकी को समझने के लिए नए उपकरण और दृष्टिकोण भी प्रदान करता है।