2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.

Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.

academic

क्या प्रॉम्प्ट्स LLMs के लिए समय को वापस ला सकते हैं? प्रॉम्प्ट किए गए ज्ञान कटऑफ की प्रभावशीलता का मूल्यांकन

बुनियादी जानकारी

पेपर ID: 2510.02340
शीर्षक: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
लेखक: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
संस्थान: UC San Diego, SUNY Buffalo
वर्गीकरण: cs.CL cs.LG
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2510.02340

सारांश

बड़े भाषा मॉडल (LLMs) समय पूर्वानुमान कार्यों में व्यापक रूप से लागू होते हैं, लेकिन पूर्व-प्रशिक्षण डेटा पर उनकी निर्भरता डेटा प्रदूषण की चिंताएं उत्पन्न करती है। पूर्व-प्रशिक्षण कटऑफ तारीख से पहले परीक्षण डेटा पर सटीक पूर्वानुमान तर्क के बजाय स्मृति को प्रतिबिंबित कर सकते हैं, जिससे सामान्यीकरण क्षमता का अतिमूल्यांकन होता है। प्रॉम्प्ट-आधारित विस्मृति तकनीकों के उदय के साथ, एक स्वाभाविक प्रश्न उठता है: क्या प्रॉम्प्ट्स के माध्यम से LLMs को पहले की ज्ञान कटऑफ तारीख का अनुकरण करने के लिए प्रेरित किया जा सकता है? यह अध्ययन प्रॉम्प्ट-आधारित अनुकरण की क्षमता की जांच करता है और तीन मूल्यांकन डेटासेट बनाता है जो LLMs की विस्मृति का मूल्यांकन करते हैं: (1) प्रत्यक्ष तथ्य ज्ञान, (2) शब्दार्थ परिवर्तन, और (3) कारणात्मक रूप से संबंधित ज्ञान। परिणाम दर्शाते हैं कि जबकि प्रॉम्प्ट-आधारित अनुकरण कटऑफ उस तारीख के बाद की जानकारी के प्रत्यक्ष प्रश्नों में प्रभावी है, जब विस्मृत की जाने वाली सामग्री सीधे पूछी नहीं जाती बल्कि प्रश्न से कारणात्मक रूप से संबंधित होती है, तो वे विस्मृति को प्रेरित करने में कठिनाई का सामना करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

इस अनुसंधान का मूल समस्या समय पूर्वानुमान कार्यों में LLMs के मूल्यांकन पर डेटा प्रदूषण का प्रभाव है। जब LLMs को स्टॉक पूर्वानुमान, घटना पूर्वानुमान जैसे समय श्रृंखला कार्यों के लिए उपयोग किया जाता है, तो मॉडल पूर्व-प्रशिक्षण चरण में परीक्षण डेटा को देख सकता है, जिससे पूर्वानुमान प्रदर्शन का अतिमूल्यांकन होता है।

समस्या की महत्ता

मूल्यांकन विश्वसनीयता: पारंपरिक मशीन लर्निंग मॉडल (जैसे रैंडम फॉरेस्ट) को शुरुआत से प्रशिक्षित किया जाता है, परीक्षण प्रदर्शन विश्वसनीय है; लेकिन LLMs परीक्षण अवधि के दौरान डेटा को पहले ही देख सकते हैं, जिससे अनुचित तुलना होती है
सामान्यीकरण क्षमता का गलत निर्णय: स्मृति-आधारित "पूर्वानुमान" मॉडल की वास्तविक सामान्यीकरण क्षमता को अतिमूल्यांकित करेगा
व्यावहारिक अनुप्रयोग जोखिम: वास्तविक परिदृश्यों में तैनाती करते समय, मॉडल प्रदर्शन अपेक्षा से बहुत कम हो सकता है

मौजूदा विधियों की सीमाएं

पारंपरिक मशीन विस्मृति विधियों को पुनः प्रशिक्षण या सूक्ष्म-ट्यूनिंग की आवश्यकता होती है, जिसमें उच्च कम्प्यूटेशनल लागत होती है
LLMs की ऐतिहासिक ज्ञान स्थिति का अनुकरण करने के लिए प्रभावी विधियों की कमी है
मौजूदा मूल्यांकन ढांचे समय प्रदूषण समस्या पर पर्याप्त विचार नहीं करते हैं

अनुसंधान प्रेरणा

हाल ही में उभरी संदर्भ विस्मृति तकनीकों से प्रेरित होकर, लेखक प्रॉम्प्ट इंजीनियरिंग के माध्यम से LLMs की ज्ञान कटऑफ तारीख को समायोजित करने का प्रस्ताव देते हैं, जिससे वह निर्दिष्ट तारीख के बाद की सभी जानकारी को "भूल" जाएं, जिससे अधिक न्यायसंगत समय पूर्वानुमान मूल्यांकन संभव हो सके।

मुख्य योगदान

पहला व्यवस्थित अध्ययन: प्रॉम्प्ट्स के माध्यम से LLMs की ज्ञान कटऑफ तारीख का अनुकरण करने की प्रभावशीलता का पहला व्यवस्थित मूल्यांकन
बहु-आयामी मूल्यांकन ढांचा: विस्मृति क्षमता का व्यापक मूल्यांकन करने के लिए तीन विभिन्न आयामों के डेटासेट का निर्माण:
- Factual subset: प्रत्यक्ष तथ्य ज्ञान विस्मृति
- Semantic subset: शब्दार्थ परिवर्तन विस्मृति
- Counterfactual subset: कारणात्मक रूप से संबंधित ज्ञान विस्मृति
महत्वपूर्ण निष्कर्ष: प्रॉम्प्ट विस्मृति की सीमाओं को उजागर करता है — कारणात्मक तर्क परिदृश्यों में प्रदर्शन में उल्लेखनीय गिरावट
मूल्यांकन बेंचमार्क: उच्च-गुणवत्ता वाले डेटासेट और मूल्यांकन कोड प्रदान करता है, भविष्य के अनुसंधान के लिए आधार तैयार करता है
व्यावहारिक मार्गदर्शन: LLMs समय पूर्वानुमान कार्यों के कठोर मूल्यांकन के लिए पद्धति संबंधी मार्गदर्शन प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: उपयोगकर्ता प्रश्न + अनुकरण ज्ञान कटऑफ तारीख के साथ सिस्टम प्रॉम्प्ट आउटपुट: निर्दिष्ट कटऑफ तारीख ज्ञान स्थिति के अनुरूप उत्तर बाधा: मॉडल को कटऑफ तारीख के बाद की सभी जानकारी को "भूल" जाना चाहिए

प्रॉम्प्ट डिजाइन रणनीति

प्रॉम्प्ट P1: ज्ञान फिल्टरिंग प्रकार

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

प्रॉम्प्ट P2: तर्क बाधा प्रकार

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

मूल्यांकन विधि डिजाइन

विस्मृति सफलता दर गणना

Factual और Counterfactual उप-समुच्चय के लिए, बहु-विकल्प प्रश्न प्रारूप का उपयोग किया जाता है, विस्मृति सफलता को मॉडल द्वारा अपने मूल उत्तर को बदलने के रूप में परिभाषित किया जाता है।

Semantic उप-समुच्चय के लिए, शब्दार्थ समानता का उपयोग किया जाता है: $\text{Success} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}$

जहां $o_a, o_b$ क्रमशः विस्मृति से पहले और बाद के आउटपुट हैं, $y_a, y_b$ कटऑफ से पहले और बाद के वास्तविक उत्तर हैं।

प्रायोगिक सेटअप

डेटासेट निर्माण

Factual Subset (675 नमूने)

उद्देश्य: प्रत्यक्ष तथ्य ज्ञान विस्मृति का मूल्यांकन
निर्माण विधि: GPT-4o का उपयोग करके 1960 के बाद की प्रमुख ऐतिहासिक घटनाओं और संबंधित प्रश्नोत्तर जोड़े उत्पन्न करना
समय अवधि: 1960-2024
उदाहरण: किसी समय बिंदु पर अमेरिकी राष्ट्रपति से पूछना, उस समय के कार्यकारी के बजाय वर्तमान राष्ट्रपति का उत्तर देना चाहिए

Semantic Subset (303 नमूने)

उद्देश्य: शब्दावली शब्दार्थ परिवर्तन विस्मृति का मूल्यांकन
निर्माण विधि: शब्दार्थ परिवर्तन वाली शब्दावली एकत्र करना, जैसे "TikTok" ध्वनि अनुकरण से सोशल मीडिया प्लेटफॉर्म तक
समय अवधि: 2000-2024
मूल्यांकन: MPNet मॉडल का उपयोग करके शब्दार्थ समानता की गणना

Counterfactual Subset (689 नमूने)

उद्देश्य: कारणात्मक रूप से संबंधित ज्ञान विस्मृति का मूल्यांकन
निर्माण विधि: प्रमुख घटनाओं के आधार पर प्रतिकूल तथ्य पूर्वानुमान परिदृश्य का निर्माण
समय अवधि: 2000-2024
उदाहरण: 2018 कटऑफ के तहत टोक्यो ओलंपिक आयोजन वर्ष की भविष्यवाणी (2020 का उत्तर देना चाहिए, वास्तविक 2021 नहीं)

प्रायोगिक मॉडल

DeepSeek-V3: नवीनतम ओपन-सोर्स मॉडल
LLaMA-3.1-405B: Meta का बड़े पैमाने पर मॉडल
GPT-4o: OpenAI का बहु-मोडल मॉडल
DeepSeek-R1 & OpenAI o3: तर्क-संवर्धित मॉडल (तुलनात्मक प्रयोग)

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: विस्मृति सफलता दर (Unlearn Success Rate)
गणना विधि: सफलतापूर्वक विस्मृत नमूनों की संख्या / कुल नमूनों की संख्या

प्रायोगिक परिणाम

मुख्य परिणाम

मॉडल	Factual	Semantic	Counterfactual
DeepSeek-V3	79.0%	57.5%	13.9%
LLaMA-3.1-405B	82.4%	80.4%	26.5%
GPT-4o	86.0%	72.0%	17.3%
औसत	82.5%	70.0%	19.2%

मुख्य निष्कर्ष

प्रत्यक्ष प्रश्न प्रभावी: Factual उप-समुच्चय में 82.5% की औसत सफलता दर, यह दर्शाता है कि प्रॉम्प्ट विस्मृति प्रत्यक्ष तथ्य प्रश्नों में काफी प्रभावी है
शब्दार्थ विस्मृति मध्यम: Semantic उप-समुच्चय में 70.0% की औसत सफलता दर, यह दर्शाता है कि मॉडल शब्दावली के ऐतिहासिक अर्थ में एक निश्चित हद तक वापस जा सकता है
कारणात्मक तर्क कठिन: Counterfactual उप-समुच्चय में केवल 19.2% सफलता दर, प्रॉम्प्ट विस्मृति की महत्वपूर्ण सीमाओं को उजागर करता है
तर्क मॉडल लाभ: तर्क-संवर्धित मॉडल (DeepSeek-R1: 71.2%, OpenAI o3: 50.6%) Counterfactual उप-समुच्चय पर सामान्य मॉडल से काफी बेहतर प्रदर्शन करते हैं

विलोपन विश्लेषण

प्रॉम्प्ट रणनीति तुलना

P1 और P2 प्रॉम्प्ट रणनीति विभिन्न उप-समुच्चयों पर समान प्रदर्शन करती हैं
यह दर्शाता है कि विशिष्ट प्रॉम्प्ट शब्दावली विस्मृति प्रभाव पर सीमित प्रभाव डालती है

मॉडल क्षमता अंतर

LLaMA-3.1-405B Semantic उप-समुच्चय पर सर्वश्रेष्ठ प्रदर्शन करता है (80.4%)
GPT-4o Factual उप-समुच्चय पर अग्रणी है (86.0%)
सभी मॉडल Counterfactual उप-समुच्चय पर खराब प्रदर्शन करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

आंशिक प्रभावशीलता: प्रॉम्प्ट विस्मृति प्रत्यक्ष तथ्य प्रश्नों में अच्छा प्रदर्शन करती है, लेकिन कारणात्मक तर्क की आवश्यकता वाले परिदृश्यों में सीमित है
तर्क निर्भरता: प्रतिकूल तथ्य पूर्वानुमान को मजबूत कारणात्मक तर्क क्षमता की आवश्यकता होती है, केवल प्रॉम्प्ट बाधा इसे प्राप्त करने में कठिन है
मूल्यांकन आवश्यकता: अनुसंधान परिणाम LLMs समय पूर्वानुमान कार्यों में कठोर मूल्यांकन की महत्ता पर जोर देते हैं

सीमाएं

विधि सीमाएं: केवल प्रॉम्प्ट-आधारित विस्मृति की खोज, अन्य विस्मृति तकनीकों को शामिल नहीं करता है
डेटा पैमाना: कम्प्यूटेशनल संसाधन सीमाओं के कारण, डेटासेट पैमाना अपेक्षाकृत छोटा है
समय स्टैम्प की कमी: पूर्व-प्रशिक्षण डेटा में समय स्टैम्प की कमी विस्मृति प्रभाव को प्रभावित कर सकती है
निर्देश सूक्ष्म-ट्यूनिंग: मॉडल ज्ञान कटऑफ प्रॉम्प्ट पर विशेष प्रशिक्षण से गुजरा नहीं हो सकता है

भविष्य की दिशाएं

निर्देश सूक्ष्म-ट्यूनिंग: ज्ञान कटऑफ प्रॉम्प्ट पर मॉडल की विशेष सूक्ष्म-ट्यूनिंग
मिश्रित विधि: प्रॉम्प्ट्स और पैरामीटर समायोजन को जोड़ने वाली विस्मृति तकनीकें
बड़े पैमाने पर मूल्यांकन: बड़े पैमाने पर, अधिक विविध मूल्यांकन डेटासेट का निर्माण
वास्तविक समय अनुप्रयोग: वास्तविक समय पूर्वानुमान कार्यों में अनुप्रयोग प्रभाव की खोज

गहन मूल्यांकन

शक्तियां

समस्या महत्ता: LLMs समय पूर्वानुमान मूल्यांकन में महत्वपूर्ण समस्या को हल करता है, महत्वपूर्ण व्यावहारिक मूल्य है
विधि नवीनता: प्रॉम्प्ट विस्मृति के समय ज्ञान में अनुप्रयोग का पहला व्यवस्थित अध्ययन, नई अनुसंधान दिशा खोलता है
मूल्यांकन व्यापकता: तीन आयामों के डेटासेट डिजाइन उचित हैं, विभिन्न प्रकार की विस्मृति क्षमता का व्यापक मूल्यांकन
प्रायोगिक कठोरता:
- बहु-मॉडल तुलना परिणाम विश्वसनीयता सत्यापित करती है
- विस्तृत डेटा निर्माण और पोस्ट-प्रोसेसिंग प्रक्रिया
- तर्क मॉडल तुलना गहन अंतर्दृष्टि प्रदान करती है
संसाधन खुलापन: पूर्ण डेटासेट और मूल्यांकन कोड प्रदान करता है, बाद के अनुसंधान को बढ़ावा देता है

कमियां

विस्मृति तंत्र समझ अपर्याप्त: यह समझ की कमी कि कुछ प्रकार की विस्मृति अधिक कठिन क्यों हैं
प्रॉम्प्ट अनुकूलन सीमित: केवल दो प्रॉम्प्ट रणनीति का परीक्षण, अधिक प्रभावी प्रॉम्प्ट डिजाइन मौजूद हो सकते हैं
मूल्यांकन मेट्रिक्स एकल: मुख्य रूप से सफलता दर पर निर्भर, विस्मृति की गहराई का सूक्ष्म-दानेदार मूल्यांकन की कमी
व्यावहारिक अनुप्रयोग सत्यापन: वास्तविक समय पूर्वानुमान कार्यों में प्रभाव सत्यापन की कमी
कम्प्यूटेशनल लागत विश्लेषण: पारंपरिक विधियों की तुलना में प्रॉम्प्ट विस्मृति की कम्प्यूटेशनल दक्षता लाभ का विश्लेषण नहीं

प्रभाव

शैक्षणिक योगदान: LLMs विस्मृति अनुसंधान के लिए नया दृष्टिकोण और बेंचमार्क प्रदान करता है, संबंधित अनुसंधान विकास को बढ़ावा देने की अपेक्षा
व्यावहारिक मूल्य: समय पूर्वानुमान के लिए LLMs लागू करने के लिए औद्योगिक क्षेत्र को महत्वपूर्ण मूल्यांकन ढांचा प्रदान करता है
पद्धति महत्व: AI सिस्टम मूल्यांकन में समय कारक पर विचार करने की महत्ता पर जोर देता है
पुनरुत्पादनशीलता: पूर्ण ओपन-सोर्स संसाधन अनुसंधान की पुनरुत्पादनशीलता और विस्तारशीलता सुनिश्चित करता है

लागू परिदृश्य

वित्तीय पूर्वानुमान: स्टॉक मूल्य, बाजार प्रवृत्ति पूर्वानुमान का न्यायसंगत मूल्यांकन
घटना पूर्वानुमान: राजनीतिक चुनाव, खेल आयोजन आदि घटना पूर्वानुमान
मॉडल मूल्यांकन: किसी भी समय श्रृंखला से संबंधित LLM अनुप्रयोग मूल्यांकन
अनुसंधान बेंचमार्क: अन्य विस्मृति तकनीकों के मूल्यांकन के लिए बेंचमार्क डेटासेट

संदर्भ

यह पेपर मशीन विस्मृति, LLMs समय पूर्वानुमान और डेटा प्रदूषण आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

Bourtoule et al. (2019): मशीन विस्मृति की आधारशिला कार्य
Brown et al. (2020): GPT-3 और संदर्भ लर्निंग
Pawelczyk et al. (2024): संदर्भ विस्मृति तकनीकें
Roberts et al. (2024): LLM डेटा प्रदूषण का अनुदैर्ध्य अध्ययन

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो LLMs अनुप्रयोग में महत्वपूर्ण समस्या को हल करता है। यद्यपि कारणात्मक तर्क विस्मृति में प्रभाव सीमित है, लेकिन यह क्षेत्र को महत्वपूर्ण बुनियादी कार्य और मूल्यांकन ढांचा प्रदान करता है। अनुसंधान विधि कठोर है, प्रायोगिक डिजाइन उचित है, और शैक्षणिक जगत और औद्योगिक क्षेत्र दोनों के लिए महत्वपूर्ण मूल्य है।