2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.
Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
academic

Können Prompts die Zeit für LLMs zurückspulen? Bewertung der Wirksamkeit von Prompt-basierten Wissensstichtagen

Grundinformationen

  • Paper-ID: 2510.02340
  • Titel: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
  • Autoren: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
  • Institutionen: UC San Diego, SUNY Buffalo
  • Klassifizierung: cs.CL cs.LG
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2510.02340

Zusammenfassung

Große Sprachmodelle (LLMs) werden häufig für zeitliche Vorhersageaufgaben eingesetzt, aber ihre Abhängigkeit von Vortrainingsdaten wirft Bedenken hinsichtlich einer Datenverschmutzung auf, da genaue Vorhersagen bei Testdaten vor dem Vortrainingsstichtag möglicherweise eher Gedächtnis als Reasoning widerspiegeln, was zu einer Überschätzung ihrer Generalisierungsfähigkeit führt. Mit dem Aufkommen von prompt-basierten Vergessenstechniken stellt sich die natürliche Frage: Können LLMs durch Prompts dazu gebracht werden, frühere Wissensstichtage zu simulieren? Diese Studie untersucht die Fähigkeit von Prompts, frühere Wissensstichtage zu simulieren, und konstruiert drei Bewertungsdatensätze, um zu bewerten, inwieweit LLMs vergessen können: (1) direkte faktische Kenntnisse, (2) semantische Veränderungen und (3) kausal verwandte Kenntnisse. Die Ergebnisse zeigen, dass prompt-basierte simulierte Wissensstichtage zwar wirksam sind, wenn direkt Informationen nach diesem Datum abgefragt werden, aber Schwierigkeiten haben, Vergessen zu induzieren, wenn der zu vergessende Inhalt nicht direkt abgefragt wird, sondern kausal mit der Abfrage verbunden ist.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Studie ist die Auswirkung von Datenverschmutzung auf die Bewertung von zeitlichen Vorhersageaufgaben durch LLMs. Wenn LLMs für Zeitreihenaufgaben wie Aktienkursprognosen oder Ereignisprognosen verwendet werden, kann das Modell Testdaten möglicherweise bereits während der Vortrainingsphase gesehen haben, was zu einer Überschätzung der Vorhersageleistung führt.

Bedeutung des Problems

  1. Glaubwürdigkeit der Bewertung: Traditionelle Machine-Learning-Modelle (wie Random Forests) werden von Grund auf trainiert, und die Testleistung ist vertrauenswürdig; LLMs könnten jedoch bereits Testdaten während des Testzeitraums gesehen haben, was zu unfairen Vergleichen führt
  2. Fehleinschätzung der Generalisierungsfähigkeit: "Vorhersagen" auf Basis von Gedächtnis überschätzen die echte Generalisierungsfähigkeit des Modells
  3. Risiken bei praktischen Anwendungen: Bei der Bereitstellung in realen Szenarien kann die Modellleistung deutlich unter den Erwartungen liegen

Einschränkungen bestehender Methoden

  • Traditionelle Machine-Unlearning-Methoden erfordern Umschulung oder Feinabstimmung mit hohen Rechenkosten
  • Es fehlen wirksame Methoden zur Simulation des historischen Wissenszustands von LLMs
  • Bestehende Bewertungsrahmen berücksichtigen das Zeitverschmutzungsproblem nicht ausreichend

Forschungsmotivation

Inspiriert durch kürzlich aufgekommene kontextuelle Vergessenstechniken schlagen die Autoren vor, Prompt-Engineering zu verwenden, um die Wissensstichtage von LLMs anzupassen, damit diese alle Informationen nach einem bestimmten Datum "vergessen" und so eine fairere Bewertung von Zeitvorhersagen ermöglichen.

Kernbeiträge

  1. Erste systematische Studie: Erste systematische Bewertung der Wirksamkeit der Simulation von LLM-Wissensstichtagen durch Prompts
  2. Mehrdimensionaler Bewertungsrahmen: Konstruktion von drei Datensätzen verschiedener Dimensionen zur umfassenden Bewertung der Vergessenfähigkeit:
    • Faktische Teilmenge: Vergessen direkter faktischer Kenntnisse
    • Semantische Teilmenge: Vergessen semantischer Veränderungen
    • Kontrafaktische Teilmenge: Vergessen kausal verwandter Kenntnisse
  3. Wichtige Erkenntnisse: Offenlegung der Einschränkungen des Prompt-basierten Vergessens – signifikanter Leistungsabfall in Szenarien mit kausaler Inferenz
  4. Bewertungs-Benchmark: Bereitstellung hochwertiger Datensätze und Bewertungscode als Grundlage für zukünftige Forschung
  5. Praktische Anleitung: Methodologische Anleitung für strenge Bewertung von LLM-Zeitvorhersageaufgaben

Methodische Erläuterung

Aufgabendefinition

Eingabe: Benutzerabfrage + Systemprompt mit simuliertem Wissensstichtag Ausgabe: Antwort, die dem Wissenszustand des angegebenen Stichtags entspricht Einschränkung: Das Modell sollte alle Informationen nach dem Stichtag "vergessen"

Prompt-Designstrategien

Prompt P1: Wissensfiltertyp

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

Prompt P2: Reasoning-Beschränkungstyp

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

Bewertungsmethodendesign

Berechnung der Vergessenserfolgquote

Für faktische und kontrafaktische Teilmengen wird ein Multiple-Choice-Format verwendet, wobei Vergessenerfolg als Änderung der ursprünglichen Antwort des Modells definiert wird.

Für die semantische Teilmenge wird semantische Ähnlichkeit verwendet: Success=cos(oa,ya)cos(oa,ya)+cos(oa,yb)>cos(ob,ya)cos(ob,ya)+cos(ob,yb)\text{Success} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}

wobei oa,obo_a, o_b die Ausgaben vor und nach dem Vergessen sind und ya,yby_a, y_b die wahren Antworten vor und nach dem Stichtag sind.

Experimentelles Setup

Datensatzkonstruktion

Faktische Teilmenge (675 Samples)

  • Ziel: Bewertung des Vergessens direkter faktischer Kenntnisse
  • Konstruktionsmethode: Verwendung von GPT-4o zur Generierung großer historischer Ereignisse seit 1960 und entsprechender Frage-Antwort-Paare
  • Zeitspanne: 1960-2024
  • Beispiel: Abfrage des US-amerikanischen Präsidenten zu einem bestimmten Zeitpunkt, sollte den damaligen Amtsinhaber und nicht den aktuellen beantworten

Semantische Teilmenge (303 Samples)

  • Ziel: Bewertung des Vergessens von Vokabular-Semantikveränderungen
  • Konstruktionsmethode: Sammlung von Vokabeln mit semantischen Veränderungen, wie "TikTok" von Onomatopoeia zu Social-Media-Plattform
  • Zeitspanne: 2000-2024
  • Bewertung: Verwendung des MPNet-Modells zur Berechnung der semantischen Ähnlichkeit

Kontrafaktische Teilmenge (689 Samples)

  • Ziel: Bewertung des Vergessens kausal verwandter Kenntnisse
  • Konstruktionsmethode: Konstruktion kontrafaktischer Vorhersageszenarien basierend auf großen Ereignissen
  • Zeitspanne: 2000-2024
  • Beispiel: Vorhersage des Veranstaltungsjahrs der Tokio-Olympiade mit Stichtag 2018 (sollte 2020 antworten, nicht das tatsächliche 2021)

Experimentelle Modelle

  • DeepSeek-V3: Neuestes Open-Source-Modell
  • LLaMA-3.1-405B: Meta's großflächiges Modell
  • GPT-4o: OpenAI's multimodales Modell
  • DeepSeek-R1 & OpenAI o3: Reasoning-verstärkte Modelle (Vergleichsexperimente)

Bewertungsmetriken

  • Hauptmetrik: Vergessenserfolgquote (Unlearn Success Rate)
  • Berechnungsmethode: Anzahl erfolgreich vergessener Samples / Gesamtanzahl der Samples

Experimentelle Ergebnisse

Hauptergebnisse

ModellFaktischSemantischKontrafaktisch
DeepSeek-V379,0%57,5%13,9%
LLaMA-3.1-405B82,4%80,4%26,5%
GPT-4o86,0%72,0%17,3%
Durchschnitt82,5%70,0%19,2%

Wichtigste Erkenntnisse

  1. Direkte Abfrage wirksam: Durchschnittliche Erfolgsquote von 82,5% in der faktischen Teilmenge zeigt, dass Prompt-basiertes Vergessen bei direkten Faktabfragen relativ wirksam ist
  2. Semantisches Vergessen mittelmäßig: Durchschnittliche Erfolgsquote von 70,0% in der semantischen Teilmenge zeigt, dass Modelle die historische Bedeutung von Vokabeln bis zu einem gewissen Grad zurückversetzen können
  3. Kausale Inferenz schwierig: Nur 19,2% Erfolgsquote in der kontrafaktischen Teilmenge offenbart wichtige Einschränkungen des Prompt-basierten Vergessens
  4. Vorteil von Reasoning-Modellen: Reasoning-verstärkte Modelle (DeepSeek-R1: 71,2%, OpenAI o3: 50,6%) übertreffen gewöhnliche Modelle in der kontrafaktischen Teilmenge erheblich

Ablationsstudie

Vergleich von Prompt-Strategien

  • P1- und P2-Prompt-Strategien zeigen ähnliche Leistung über verschiedene Teilmengen hinweg
  • Dies deutet darauf hin, dass die spezifische Prompt-Formulierung einen begrenzten Einfluss auf die Vergessenseffektivität hat

Unterschiede in der Modellkapazität

  • LLaMA-3.1-405B zeigt beste Leistung in der semantischen Teilmenge (80,4%)
  • GPT-4o führt in der faktischen Teilmenge (86,0%)
  • Alle Modelle zeigen schlechte Leistung in der kontrafaktischen Teilmenge

Verwandte Arbeiten

Machine-Unlearning-Bereich

  • Traditionelle Methoden: Realisierung spezifischen Datenvergessens durch Umschulung oder Parameteranpassung
  • Konzeptuelles Vergessen: Modelle vergessen spezifische Konzepte statt Datenpunkte
  • Kontextuelles Vergessen: Realisierung von Vergessen durch Prompts mit niedrigen Rechenkosten

LLM-Zeitvorhersageanwendungen

  • Anwendungsszenarien: Wettervorhersage, Aktienkursprognose, Verkehrsprognose, Vorhersage politischer Ereignisse
  • Methodentypen: Zero-Shot-Learning, Feinabstimmung, kontextabhängiges Lernen
  • Herausforderungen: Datenverschmutzung führt zu unfairer Bewertung

Datenverschmutzungsforschung

  • Problemberkennung: LLMs können Testsamples in Trainingsdaten memorieren
  • Erkennungsmethoden: Identifikation potenzieller Verschmutzung durch statistische Analyse
  • Minderungsstrategien: Das in diesem Papier vorgeschlagene Prompt-basierte Vergessen ist ein neuartiger Versuch

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Teilweise Wirksamkeit: Prompt-basiertes Vergessen zeigt gute Leistung bei direkten Faktabfragen, aber begrenzte Wirksamkeit in Szenarien, die kausale Inferenz erfordern
  2. Abhängigkeit von Reasoning: Kontrafaktische Vorhersagen erfordern starke kausale Inferenzfähigkeiten, die durch reine Prompt-Einschränkungen schwer zu erreichen sind
  3. Notwendigkeit der Bewertung: Die Forschungsergebnisse unterstreichen die Wichtigkeit strenger Bewertung bei LLM-Zeitvorhersageaufgaben

Einschränkungen

  1. Methodische Einschränkungen: Nur Erkundung prompt-basierten Vergessens, keine anderen Vergessenstechniken
  2. Datensatzgröße: Aufgrund von Rechenressourcenbeschränkungen ist die Datensatzgröße relativ klein
  3. Fehlende Zeitstempel: Fehlende Zeitstempel in Vortrainingsdaten können die Vergessenseffektivität beeinflussen
  4. Instruction-Tuning: Modelle wurden möglicherweise nicht speziell auf Wissensstichtag-Prompts trainiert

Zukünftige Richtungen

  1. Instruction-Tuning: Spezialisiertes Training von Modellen auf Wissensstichtag-Prompts
  2. Hybridmethoden: Kombination von Prompts und Parameteranpassungs-Vergessenstechniken
  3. Größere Bewertungen: Konstruktion größerer und vielfältigerer Bewertungsdatensätze
  4. Echtzeitanwendungen: Erkundung der Anwendungseffektivität in praktischen Zeitvorhersageaufgaben

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Löst kritische Probleme bei der Bewertung von LLM-Zeitvorhersagen mit wichtigem praktischem Wert
  2. Methodische Neuheit: Erste systematische Untersuchung der Anwendung von Prompt-basiertem Vergessen auf zeitliche Kenntnisse, eröffnet neue Forschungsrichtungen
  3. Bewertungsumfassendheit: Datensatzdesign mit drei Dimensionen ist angemessen und bewertet umfassend verschiedene Arten von Vergessenfähigkeiten
  4. Experimentelle Strenge:
    • Multi-Modell-Vergleich validiert Zuverlässigkeit der Ergebnisse
    • Detaillierte Datenkonstruktions- und Nachbearbeitungsprozesse
    • Reasoning-Modell-Vergleiche bieten tiefe Einblicke
  5. Ressourcenöffnung: Bereitstellung vollständiger Datensätze und Bewertungscode fördert nachfolgende Forschung

Mängel

  1. Unzureichendes Verständnis des Vergessenmechanismus: Mangelnde tiefe Analyse, warum bestimmte Vergessenstypen schwieriger sind
  2. Begrenzte Prompt-Optimierung: Nur zwei Prompt-Strategien getestet, möglicherweise existieren wirksamere Prompt-Designs
  3. Einzelne Bewertungsmetrik: Hauptsächlich auf Erfolgsquote angewiesen, mangelnde Feinkörnigkeit bei der Bewertung des Vergessensgrads
  4. Fehlende praktische Validierung: Mangelnde Validierung der Effektivität in echten Zeitvorhersageaufgaben
  5. Fehlende Kostenanalyse: Keine Analyse der Recheneffizienzvorteile von Prompt-Vergessen gegenüber traditionellen Methoden

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektive und Benchmark für LLM-Vergessensforschung, wird voraussichtlich verwandte Forschung fördern
  2. Praktischer Wert: Bietet wichtigen Bewertungsrahmen für industrielle Anwendung von LLMs bei Zeitvorhersagen
  3. Methodologische Bedeutung: Unterstreicht die Wichtigkeit der Berücksichtigung von Zeitfaktoren bei der Bewertung von KI-Systemen
  4. Reproduzierbarkeit: Vollständige Open-Source-Ressourcen gewährleisten Reproduzierbarkeit und Erweiterbarkeit der Forschung

Anwendbare Szenarien

  1. Finanzielle Vorhersage: Faire Bewertung von Aktienkurs- und Markttrend-Vorhersagen
  2. Ereignisprognose: Vorhersage von Wahlen, Sportereignissen und anderen Ereignissen
  3. Modellbewertung: Bewertung jeder LLM-Anwendung mit Zeitreihen
  4. Forschungs-Benchmark: Als Benchmark-Datensatz zur Bewertung anderer Vergessenstechniken

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus verwandten Bereichen wie Machine Unlearning, LLM-Zeitvorhersage und Datenverschmutzung, einschließlich:

  • Bourtoule et al. (2019): Grundlegende Arbeiten zum Machine Unlearning
  • Brown et al. (2020): GPT-3 und kontextabhängiges Lernen
  • Pawelczyk et al. (2024): Kontextuelle Vergessenstechniken
  • Roberts et al. (2024): Längsschnittstudie zur LLM-Datenverschmutzung

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein wichtiges Problem in der LLM-Anwendung löst. Obwohl die Wirksamkeit beim Vergessen von kausaler Inferenz begrenzt ist, bietet es wichtige Grundlagenarbeit und einen Bewertungsrahmen für das Feld. Die Forschungsmethode ist streng, das experimentelle Design ist angemessen, und es hat wichtigen Wert für Akademie und Industrie.