2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.

Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.

academic

Können Prompts die Zeit für LLMs zurückspulen? Bewertung der Wirksamkeit von Prompt-basierten Wissensstichtagen

Grundinformationen

Paper-ID: 2510.02340
Titel: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Autoren: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
Institutionen: UC San Diego, SUNY Buffalo
Klassifizierung: cs.CL cs.LG
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2510.02340

Zusammenfassung

Große Sprachmodelle (LLMs) werden häufig für zeitliche Vorhersageaufgaben eingesetzt, aber ihre Abhängigkeit von Vortrainingsdaten wirft Bedenken hinsichtlich einer Datenverschmutzung auf, da genaue Vorhersagen bei Testdaten vor dem Vortrainingsstichtag möglicherweise eher Gedächtnis als Reasoning widerspiegeln, was zu einer Überschätzung ihrer Generalisierungsfähigkeit führt. Mit dem Aufkommen von prompt-basierten Vergessenstechniken stellt sich die natürliche Frage: Können LLMs durch Prompts dazu gebracht werden, frühere Wissensstichtage zu simulieren? Diese Studie untersucht die Fähigkeit von Prompts, frühere Wissensstichtage zu simulieren, und konstruiert drei Bewertungsdatensätze, um zu bewerten, inwieweit LLMs vergessen können: (1) direkte faktische Kenntnisse, (2) semantische Veränderungen und (3) kausal verwandte Kenntnisse. Die Ergebnisse zeigen, dass prompt-basierte simulierte Wissensstichtage zwar wirksam sind, wenn direkt Informationen nach diesem Datum abgefragt werden, aber Schwierigkeiten haben, Vergessen zu induzieren, wenn der zu vergessende Inhalt nicht direkt abgefragt wird, sondern kausal mit der Abfrage verbunden ist.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Studie ist die Auswirkung von Datenverschmutzung auf die Bewertung von zeitlichen Vorhersageaufgaben durch LLMs. Wenn LLMs für Zeitreihenaufgaben wie Aktienkursprognosen oder Ereignisprognosen verwendet werden, kann das Modell Testdaten möglicherweise bereits während der Vortrainingsphase gesehen haben, was zu einer Überschätzung der Vorhersageleistung führt.

Bedeutung des Problems

Glaubwürdigkeit der Bewertung: Traditionelle Machine-Learning-Modelle (wie Random Forests) werden von Grund auf trainiert, und die Testleistung ist vertrauenswürdig; LLMs könnten jedoch bereits Testdaten während des Testzeitraums gesehen haben, was zu unfairen Vergleichen führt
Fehleinschätzung der Generalisierungsfähigkeit: "Vorhersagen" auf Basis von Gedächtnis überschätzen die echte Generalisierungsfähigkeit des Modells
Risiken bei praktischen Anwendungen: Bei der Bereitstellung in realen Szenarien kann die Modellleistung deutlich unter den Erwartungen liegen

Einschränkungen bestehender Methoden

Traditionelle Machine-Unlearning-Methoden erfordern Umschulung oder Feinabstimmung mit hohen Rechenkosten
Es fehlen wirksame Methoden zur Simulation des historischen Wissenszustands von LLMs
Bestehende Bewertungsrahmen berücksichtigen das Zeitverschmutzungsproblem nicht ausreichend

Forschungsmotivation

Inspiriert durch kürzlich aufgekommene kontextuelle Vergessenstechniken schlagen die Autoren vor, Prompt-Engineering zu verwenden, um die Wissensstichtage von LLMs anzupassen, damit diese alle Informationen nach einem bestimmten Datum "vergessen" und so eine fairere Bewertung von Zeitvorhersagen ermöglichen.

Kernbeiträge

Erste systematische Studie: Erste systematische Bewertung der Wirksamkeit der Simulation von LLM-Wissensstichtagen durch Prompts
Mehrdimensionaler Bewertungsrahmen: Konstruktion von drei Datensätzen verschiedener Dimensionen zur umfassenden Bewertung der Vergessenfähigkeit:
- Faktische Teilmenge: Vergessen direkter faktischer Kenntnisse
- Semantische Teilmenge: Vergessen semantischer Veränderungen
- Kontrafaktische Teilmenge: Vergessen kausal verwandter Kenntnisse
Wichtige Erkenntnisse: Offenlegung der Einschränkungen des Prompt-basierten Vergessens – signifikanter Leistungsabfall in Szenarien mit kausaler Inferenz
Bewertungs-Benchmark: Bereitstellung hochwertiger Datensätze und Bewertungscode als Grundlage für zukünftige Forschung
Praktische Anleitung: Methodologische Anleitung für strenge Bewertung von LLM-Zeitvorhersageaufgaben

Methodische Erläuterung

Aufgabendefinition

Eingabe: Benutzerabfrage + Systemprompt mit simuliertem Wissensstichtag Ausgabe: Antwort, die dem Wissenszustand des angegebenen Stichtags entspricht Einschränkung: Das Modell sollte alle Informationen nach dem Stichtag "vergessen"

Prompt-Designstrategien

Prompt P1: Wissensfiltertyp

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

Prompt P2: Reasoning-Beschränkungstyp

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

Bewertungsmethodendesign

Berechnung der Vergessenserfolgquote

Für faktische und kontrafaktische Teilmengen wird ein Multiple-Choice-Format verwendet, wobei Vergessenerfolg als Änderung der ursprünglichen Antwort des Modells definiert wird.

Für die semantische Teilmenge wird semantische Ähnlichkeit verwendet: $\text{Success} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}$

wobei $o_a, o_b$ die Ausgaben vor und nach dem Vergessen sind und $y_a, y_b$ die wahren Antworten vor und nach dem Stichtag sind.

Experimentelles Setup

Datensatzkonstruktion

Faktische Teilmenge (675 Samples)

Ziel: Bewertung des Vergessens direkter faktischer Kenntnisse
Konstruktionsmethode: Verwendung von GPT-4o zur Generierung großer historischer Ereignisse seit 1960 und entsprechender Frage-Antwort-Paare
Zeitspanne: 1960-2024
Beispiel: Abfrage des US-amerikanischen Präsidenten zu einem bestimmten Zeitpunkt, sollte den damaligen Amtsinhaber und nicht den aktuellen beantworten

Semantische Teilmenge (303 Samples)

Ziel: Bewertung des Vergessens von Vokabular-Semantikveränderungen
Konstruktionsmethode: Sammlung von Vokabeln mit semantischen Veränderungen, wie "TikTok" von Onomatopoeia zu Social-Media-Plattform
Zeitspanne: 2000-2024
Bewertung: Verwendung des MPNet-Modells zur Berechnung der semantischen Ähnlichkeit

Kontrafaktische Teilmenge (689 Samples)

Ziel: Bewertung des Vergessens kausal verwandter Kenntnisse
Konstruktionsmethode: Konstruktion kontrafaktischer Vorhersageszenarien basierend auf großen Ereignissen
Zeitspanne: 2000-2024
Beispiel: Vorhersage des Veranstaltungsjahrs der Tokio-Olympiade mit Stichtag 2018 (sollte 2020 antworten, nicht das tatsächliche 2021)

Experimentelle Modelle

DeepSeek-V3: Neuestes Open-Source-Modell
LLaMA-3.1-405B: Meta's großflächiges Modell
GPT-4o: OpenAI's multimodales Modell
DeepSeek-R1 & OpenAI o3: Reasoning-verstärkte Modelle (Vergleichsexperimente)

Bewertungsmetriken

Hauptmetrik: Vergessenserfolgquote (Unlearn Success Rate)
Berechnungsmethode: Anzahl erfolgreich vergessener Samples / Gesamtanzahl der Samples

Experimentelle Ergebnisse

Hauptergebnisse

Modell	Faktisch	Semantisch	Kontrafaktisch
DeepSeek-V3	79,0%	57,5%	13,9%
LLaMA-3.1-405B	82,4%	80,4%	26,5%
GPT-4o	86,0%	72,0%	17,3%
Durchschnitt	82,5%	70,0%	19,2%

Wichtigste Erkenntnisse

Direkte Abfrage wirksam: Durchschnittliche Erfolgsquote von 82,5% in der faktischen Teilmenge zeigt, dass Prompt-basiertes Vergessen bei direkten Faktabfragen relativ wirksam ist
Semantisches Vergessen mittelmäßig: Durchschnittliche Erfolgsquote von 70,0% in der semantischen Teilmenge zeigt, dass Modelle die historische Bedeutung von Vokabeln bis zu einem gewissen Grad zurückversetzen können
Kausale Inferenz schwierig: Nur 19,2% Erfolgsquote in der kontrafaktischen Teilmenge offenbart wichtige Einschränkungen des Prompt-basierten Vergessens
Vorteil von Reasoning-Modellen: Reasoning-verstärkte Modelle (DeepSeek-R1: 71,2%, OpenAI o3: 50,6%) übertreffen gewöhnliche Modelle in der kontrafaktischen Teilmenge erheblich

Ablationsstudie

Vergleich von Prompt-Strategien

P1- und P2-Prompt-Strategien zeigen ähnliche Leistung über verschiedene Teilmengen hinweg
Dies deutet darauf hin, dass die spezifische Prompt-Formulierung einen begrenzten Einfluss auf die Vergessenseffektivität hat

Unterschiede in der Modellkapazität

LLaMA-3.1-405B zeigt beste Leistung in der semantischen Teilmenge (80,4%)
GPT-4o führt in der faktischen Teilmenge (86,0%)
Alle Modelle zeigen schlechte Leistung in der kontrafaktischen Teilmenge

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Teilweise Wirksamkeit: Prompt-basiertes Vergessen zeigt gute Leistung bei direkten Faktabfragen, aber begrenzte Wirksamkeit in Szenarien, die kausale Inferenz erfordern
Abhängigkeit von Reasoning: Kontrafaktische Vorhersagen erfordern starke kausale Inferenzfähigkeiten, die durch reine Prompt-Einschränkungen schwer zu erreichen sind
Notwendigkeit der Bewertung: Die Forschungsergebnisse unterstreichen die Wichtigkeit strenger Bewertung bei LLM-Zeitvorhersageaufgaben

Einschränkungen

Methodische Einschränkungen: Nur Erkundung prompt-basierten Vergessens, keine anderen Vergessenstechniken
Datensatzgröße: Aufgrund von Rechenressourcenbeschränkungen ist die Datensatzgröße relativ klein
Fehlende Zeitstempel: Fehlende Zeitstempel in Vortrainingsdaten können die Vergessenseffektivität beeinflussen
Instruction-Tuning: Modelle wurden möglicherweise nicht speziell auf Wissensstichtag-Prompts trainiert

Zukünftige Richtungen

Instruction-Tuning: Spezialisiertes Training von Modellen auf Wissensstichtag-Prompts
Hybridmethoden: Kombination von Prompts und Parameteranpassungs-Vergessenstechniken
Größere Bewertungen: Konstruktion größerer und vielfältigerer Bewertungsdatensätze
Echtzeitanwendungen: Erkundung der Anwendungseffektivität in praktischen Zeitvorhersageaufgaben

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Löst kritische Probleme bei der Bewertung von LLM-Zeitvorhersagen mit wichtigem praktischem Wert
Methodische Neuheit: Erste systematische Untersuchung der Anwendung von Prompt-basiertem Vergessen auf zeitliche Kenntnisse, eröffnet neue Forschungsrichtungen
Bewertungsumfassendheit: Datensatzdesign mit drei Dimensionen ist angemessen und bewertet umfassend verschiedene Arten von Vergessenfähigkeiten
Experimentelle Strenge:
- Multi-Modell-Vergleich validiert Zuverlässigkeit der Ergebnisse
- Detaillierte Datenkonstruktions- und Nachbearbeitungsprozesse
- Reasoning-Modell-Vergleiche bieten tiefe Einblicke
Ressourcenöffnung: Bereitstellung vollständiger Datensätze und Bewertungscode fördert nachfolgende Forschung

Mängel

Unzureichendes Verständnis des Vergessenmechanismus: Mangelnde tiefe Analyse, warum bestimmte Vergessenstypen schwieriger sind
Begrenzte Prompt-Optimierung: Nur zwei Prompt-Strategien getestet, möglicherweise existieren wirksamere Prompt-Designs
Einzelne Bewertungsmetrik: Hauptsächlich auf Erfolgsquote angewiesen, mangelnde Feinkörnigkeit bei der Bewertung des Vergessensgrads
Fehlende praktische Validierung: Mangelnde Validierung der Effektivität in echten Zeitvorhersageaufgaben
Fehlende Kostenanalyse: Keine Analyse der Recheneffizienzvorteile von Prompt-Vergessen gegenüber traditionellen Methoden

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektive und Benchmark für LLM-Vergessensforschung, wird voraussichtlich verwandte Forschung fördern
Praktischer Wert: Bietet wichtigen Bewertungsrahmen für industrielle Anwendung von LLMs bei Zeitvorhersagen
Methodologische Bedeutung: Unterstreicht die Wichtigkeit der Berücksichtigung von Zeitfaktoren bei der Bewertung von KI-Systemen
Reproduzierbarkeit: Vollständige Open-Source-Ressourcen gewährleisten Reproduzierbarkeit und Erweiterbarkeit der Forschung

Anwendbare Szenarien

Finanzielle Vorhersage: Faire Bewertung von Aktienkurs- und Markttrend-Vorhersagen
Ereignisprognose: Vorhersage von Wahlen, Sportereignissen und anderen Ereignissen
Modellbewertung: Bewertung jeder LLM-Anwendung mit Zeitreihen
Forschungs-Benchmark: Als Benchmark-Datensatz zur Bewertung anderer Vergessenstechniken

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus verwandten Bereichen wie Machine Unlearning, LLM-Zeitvorhersage und Datenverschmutzung, einschließlich:

Bourtoule et al. (2019): Grundlegende Arbeiten zum Machine Unlearning
Brown et al. (2020): GPT-3 und kontextabhängiges Lernen
Pawelczyk et al. (2024): Kontextuelle Vergessenstechniken
Roberts et al. (2024): Längsschnittstudie zur LLM-Datenverschmutzung

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein wichtiges Problem in der LLM-Anwendung löst. Obwohl die Wirksamkeit beim Vergessen von kausaler Inferenz begrenzt ist, bietet es wichtige Grundlagenarbeit und einen Bewertungsrahmen für das Feld. Die Forschungsmethode ist streng, das experimentelle Design ist angemessen, und es hat wichtigen Wert für Akademie und Industrie.