Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Gao, Zhang, Du et al.
Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
academic
Können Prompts die Zeit für LLMs zurückspulen? Bewertung der Wirksamkeit von Prompt-basierten Wissensstichtagen
Große Sprachmodelle (LLMs) werden häufig für zeitliche Vorhersageaufgaben eingesetzt, aber ihre Abhängigkeit von Vortrainingsdaten wirft Bedenken hinsichtlich einer Datenverschmutzung auf, da genaue Vorhersagen bei Testdaten vor dem Vortrainingsstichtag möglicherweise eher Gedächtnis als Reasoning widerspiegeln, was zu einer Überschätzung ihrer Generalisierungsfähigkeit führt. Mit dem Aufkommen von prompt-basierten Vergessenstechniken stellt sich die natürliche Frage: Können LLMs durch Prompts dazu gebracht werden, frühere Wissensstichtage zu simulieren? Diese Studie untersucht die Fähigkeit von Prompts, frühere Wissensstichtage zu simulieren, und konstruiert drei Bewertungsdatensätze, um zu bewerten, inwieweit LLMs vergessen können: (1) direkte faktische Kenntnisse, (2) semantische Veränderungen und (3) kausal verwandte Kenntnisse. Die Ergebnisse zeigen, dass prompt-basierte simulierte Wissensstichtage zwar wirksam sind, wenn direkt Informationen nach diesem Datum abgefragt werden, aber Schwierigkeiten haben, Vergessen zu induzieren, wenn der zu vergessende Inhalt nicht direkt abgefragt wird, sondern kausal mit der Abfrage verbunden ist.
Das Kernproblem dieser Studie ist die Auswirkung von Datenverschmutzung auf die Bewertung von zeitlichen Vorhersageaufgaben durch LLMs. Wenn LLMs für Zeitreihenaufgaben wie Aktienkursprognosen oder Ereignisprognosen verwendet werden, kann das Modell Testdaten möglicherweise bereits während der Vortrainingsphase gesehen haben, was zu einer Überschätzung der Vorhersageleistung führt.
Glaubwürdigkeit der Bewertung: Traditionelle Machine-Learning-Modelle (wie Random Forests) werden von Grund auf trainiert, und die Testleistung ist vertrauenswürdig; LLMs könnten jedoch bereits Testdaten während des Testzeitraums gesehen haben, was zu unfairen Vergleichen führt
Fehleinschätzung der Generalisierungsfähigkeit: "Vorhersagen" auf Basis von Gedächtnis überschätzen die echte Generalisierungsfähigkeit des Modells
Risiken bei praktischen Anwendungen: Bei der Bereitstellung in realen Szenarien kann die Modellleistung deutlich unter den Erwartungen liegen
Inspiriert durch kürzlich aufgekommene kontextuelle Vergessenstechniken schlagen die Autoren vor, Prompt-Engineering zu verwenden, um die Wissensstichtage von LLMs anzupassen, damit diese alle Informationen nach einem bestimmten Datum "vergessen" und so eine fairere Bewertung von Zeitvorhersagen ermöglichen.
Wichtige Erkenntnisse: Offenlegung der Einschränkungen des Prompt-basierten Vergessens – signifikanter Leistungsabfall in Szenarien mit kausaler Inferenz
Bewertungs-Benchmark: Bereitstellung hochwertiger Datensätze und Bewertungscode als Grundlage für zukünftige Forschung
Praktische Anleitung: Methodologische Anleitung für strenge Bewertung von LLM-Zeitvorhersageaufgaben
Eingabe: Benutzerabfrage + Systemprompt mit simuliertem Wissensstichtag
Ausgabe: Antwort, die dem Wissenszustand des angegebenen Stichtags entspricht
Einschränkung: Das Modell sollte alle Informationen nach dem Stichtag "vergessen"
You must answer this question using only knowledge that was publicly available before the year {unlearn_year}.
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.
You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}.
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.
Für faktische und kontrafaktische Teilmengen wird ein Multiple-Choice-Format verwendet, wobei Vergessenerfolg als Änderung der ursprünglichen Antwort des Modells definiert wird.
Für die semantische Teilmenge wird semantische Ähnlichkeit verwendet:
Success=cos(oa,ya)+cos(oa,yb)cos(oa,ya)>cos(ob,ya)+cos(ob,yb)cos(ob,ya)
wobei oa,ob die Ausgaben vor und nach dem Vergessen sind und ya,yb die wahren Antworten vor und nach dem Stichtag sind.
Ziel: Bewertung des Vergessens direkter faktischer Kenntnisse
Konstruktionsmethode: Verwendung von GPT-4o zur Generierung großer historischer Ereignisse seit 1960 und entsprechender Frage-Antwort-Paare
Zeitspanne: 1960-2024
Beispiel: Abfrage des US-amerikanischen Präsidenten zu einem bestimmten Zeitpunkt, sollte den damaligen Amtsinhaber und nicht den aktuellen beantworten
Direkte Abfrage wirksam: Durchschnittliche Erfolgsquote von 82,5% in der faktischen Teilmenge zeigt, dass Prompt-basiertes Vergessen bei direkten Faktabfragen relativ wirksam ist
Semantisches Vergessen mittelmäßig: Durchschnittliche Erfolgsquote von 70,0% in der semantischen Teilmenge zeigt, dass Modelle die historische Bedeutung von Vokabeln bis zu einem gewissen Grad zurückversetzen können
Kausale Inferenz schwierig: Nur 19,2% Erfolgsquote in der kontrafaktischen Teilmenge offenbart wichtige Einschränkungen des Prompt-basierten Vergessens
Vorteil von Reasoning-Modellen: Reasoning-verstärkte Modelle (DeepSeek-R1: 71,2%, OpenAI o3: 50,6%) übertreffen gewöhnliche Modelle in der kontrafaktischen Teilmenge erheblich
Teilweise Wirksamkeit: Prompt-basiertes Vergessen zeigt gute Leistung bei direkten Faktabfragen, aber begrenzte Wirksamkeit in Szenarien, die kausale Inferenz erfordern
Abhängigkeit von Reasoning: Kontrafaktische Vorhersagen erfordern starke kausale Inferenzfähigkeiten, die durch reine Prompt-Einschränkungen schwer zu erreichen sind
Notwendigkeit der Bewertung: Die Forschungsergebnisse unterstreichen die Wichtigkeit strenger Bewertung bei LLM-Zeitvorhersageaufgaben
Problemrelevanz: Löst kritische Probleme bei der Bewertung von LLM-Zeitvorhersagen mit wichtigem praktischem Wert
Methodische Neuheit: Erste systematische Untersuchung der Anwendung von Prompt-basiertem Vergessen auf zeitliche Kenntnisse, eröffnet neue Forschungsrichtungen
Bewertungsumfassendheit: Datensatzdesign mit drei Dimensionen ist angemessen und bewertet umfassend verschiedene Arten von Vergessenfähigkeiten
Experimentelle Strenge:
Multi-Modell-Vergleich validiert Zuverlässigkeit der Ergebnisse
Detaillierte Datenkonstruktions- und Nachbearbeitungsprozesse
Dieses Papier zitiert wichtige Arbeiten aus verwandten Bereichen wie Machine Unlearning, LLM-Zeitvorhersage und Datenverschmutzung, einschließlich:
Bourtoule et al. (2019): Grundlegende Arbeiten zum Machine Unlearning
Brown et al. (2020): GPT-3 und kontextabhängiges Lernen
Pawelczyk et al. (2024): Kontextuelle Vergessenstechniken
Roberts et al. (2024): Längsschnittstudie zur LLM-Datenverschmutzung
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein wichtiges Problem in der LLM-Anwendung löst. Obwohl die Wirksamkeit beim Vergessen von kausaler Inferenz begrenzt ist, bietet es wichtige Grundlagenarbeit und einen Bewertungsrahmen für das Feld. Die Forschungsmethode ist streng, das experimentelle Design ist angemessen, und es hat wichtigen Wert für Akademie und Industrie.