2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.

Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.

academic

Possono i Prompt Riavvolgere il Tempo per gli LLM? Valutazione dell'Efficacia dei Cutoff di Conoscenza Sollecitati

Informazioni Fondamentali

ID Articolo: 2510.02340
Titolo: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Autori: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
Istituzioni: UC San Diego, SUNY Buffalo
Classificazione: cs.CL cs.LG
Data di Pubblicazione: 15 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2510.02340

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) sono ampiamente utilizzati in compiti di previsione temporale, ma la loro dipendenza dai dati di preaddestramento suscita preoccupazioni sulla contaminazione dei dati, poiché le previsioni accurate su dati di test precedenti alla data di cutoff del preaddestramento potrebbero riflettere memorizzazione piuttosto che ragionamento, portando a una sovrastima delle loro capacità di generalizzazione. Con l'emergere di tecniche di oblio basate su prompt, sorge una domanda naturale: è possibile utilizzare i prompt per far simulare agli LLM un cutoff di conoscenza più precoce? Questo studio indaga la capacità dei prompt di simulare cutoff di conoscenza precedenti, costruendo tre dataset di valutazione per valutare il grado in cui gli LLM dimenticano (1) conoscenze fattuali dirette, (2) cambiamenti semantici e (3) conoscenze causalmente correlate. I risultati mostrano che, sebbene la simulazione basata su prompt del cutoff di conoscenza sia efficace quando si interrogano direttamente informazioni successive a quella data, gli LLM faticano a indurre l'oblio quando il contenuto da dimenticare non è direttamente interrogato ma è causalmente correlato alla query.

Contesto e Motivazione della Ricerca

Problema Centrale

Il problema centrale affrontato da questo studio è l'impatto della contaminazione dei dati sulla valutazione dei compiti di previsione temporale degli LLM. Quando gli LLM vengono utilizzati per compiti di serie temporali come previsioni di titoli azionari e previsioni di eventi, il modello potrebbe aver già visto i dati di test durante la fase di preaddestramento, portando a una sovrastima delle prestazioni di previsione.

Importanza del Problema

Credibilità della Valutazione: I modelli di apprendimento automatico tradizionali (come le foreste casuali) vengono addestrati da zero, rendendo le prestazioni di test affidabili; tuttavia, gli LLM potrebbero aver già visto i dati durante il periodo di test, portando a confronti iniqui
Errata Valutazione della Capacità di Generalizzazione: Le "previsioni" basate sulla memorizzazione sovrastimano la vera capacità di generalizzazione del modello
Rischi di Applicazione Pratica: Quando distribuito in scenari reali, le prestazioni del modello potrebbero essere significativamente inferiori alle aspettative

Limitazioni dei Metodi Esistenti

I metodi tradizionali di machine unlearning richiedono riaddestramenti o fine-tuning, con costi computazionali elevati
Mancano metodi efficaci per simulare lo stato di conoscenza storico degli LLM
I framework di valutazione esistenti non considerano adeguatamente il problema della contaminazione temporale

Motivazione della Ricerca

Ispirato dalle tecniche di oblio contestuale recentemente emerse, gli autori propongono di regolare i cutoff di conoscenza degli LLM attraverso ingegneria dei prompt, facendo "dimenticare" al modello tutte le informazioni successive a una data specificata, realizzando così una valutazione più equa della previsione temporale.

Contributi Principali

Primo Studio Sistematico: Prima valutazione sistematica dell'efficacia della simulazione dei cutoff di conoscenza degli LLM attraverso prompt
Framework di Valutazione Multidimensionale: Costruzione di tre dataset su diverse dimensioni per valutare complessivamente le capacità di oblio:
- Subset Fattuale: oblio della conoscenza fattuale diretta
- Subset Semantico: oblio dei cambiamenti semantici
- Subset Controffattuale: oblio della conoscenza causalmente correlata
Scoperte Importanti: Rivelazione delle limitazioni dell'oblio basato su prompt — prestazioni significativamente ridotte in scenari di ragionamento causale
Benchmark di Valutazione: Fornitura di dataset di alta qualità e codice di valutazione, gettando le basi per ricerche future
Guida Pratica: Orientamenti metodologici per la valutazione rigorosa dei compiti di previsione temporale degli LLM

Dettagli del Metodo

Definizione del Compito

Input: Query dell'utente + prompt di sistema con data di cutoff di conoscenza simulata Output: Risposta conforme allo stato di conoscenza della data specificata Vincoli: Il modello dovrebbe "dimenticare" tutte le informazioni successive alla data di cutoff

Strategie di Progettazione dei Prompt

Prompt P1: Tipo di Filtro della Conoscenza

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

Prompt P2: Tipo di Vincolo di Ragionamento

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

Progettazione del Metodo di Valutazione

Calcolo del Tasso di Successo dell'Oblio

Per i subset Fattuale e Controffattuale, viene utilizzato un formato a scelta multipla, con il successo dell'oblio definito come il cambio della risposta originale del modello.

Per il subset Semantico, viene utilizzata la similarità semantica: $\text{Success} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}$

dove $o_a, o_b$ sono rispettivamente gli output prima e dopo l'oblio, e $y_a, y_b$ sono le risposte vere prima e dopo il cutoff.

Configurazione Sperimentale

Costruzione del Dataset

Subset Fattuale (675 campioni)

Obiettivo: Valutare l'oblio della conoscenza fattuale diretta
Metodo di Costruzione: Utilizzo di GPT-4o per generare importanti eventi storici dal 1960 in poi e coppie di domande-risposte corrispondenti
Intervallo Temporale: 1960-2024
Esempio: Interrogare il presidente degli Stati Uniti in un determinato momento, dovrebbe rispondere con chi era in carica in quel momento piuttosto che l'attuale

Subset Semantico (303 campioni)

Obiettivo: Valutare l'oblio dei cambiamenti semantici del vocabolario
Metodo di Costruzione: Raccolta di vocabolario con cambiamenti semantici, come "TikTok" da onomatopea a piattaforma di social media
Intervallo Temporale: 2000-2024
Valutazione: Utilizzo del modello MPNet per calcolare la similarità semantica

Subset Controffattuale (689 campioni)

Obiettivo: Valutare l'oblio della conoscenza causalmente correlata
Metodo di Costruzione: Costruzione di scenari di previsione controffattuale basati su eventi importanti
Intervallo Temporale: 2000-2024
Esempio: Con cutoff nel 2018, prevedere l'anno di svolgimento delle Olimpiadi di Tokyo (dovrebbe rispondere 2020 piuttosto che il 2021 effettivo)

Modelli Sperimentali

DeepSeek-V3: Modello open-source più recente
LLaMA-3.1-405B: Modello su larga scala di Meta
GPT-4o: Modello multimodale di OpenAI
DeepSeek-R1 & OpenAI o3: Modelli con ragionamento potenziato (esperimenti comparativi)

Metriche di Valutazione

Metrica Principale: Tasso di Successo dell'Oblio (Unlearn Success Rate)
Modalità di Calcolo: Numero di campioni dimenticati con successo / Numero totale di campioni

Risultati Sperimentali

Risultati Principali

Modello	Fattuale	Semantico	Controffattuale
DeepSeek-V3	79,0%	57,5%	13,9%
LLaMA-3.1-405B	82,4%	80,4%	26,5%
GPT-4o	86,0%	72,0%	17,3%
Media	82,5%	70,0%	19,2%

Scoperte Chiave

Efficacia della Query Diretta: Tasso di successo medio del subset Fattuale dell'82,5%, indicando che l'oblio basato su prompt è relativamente efficace nelle query di fatti diretti
Oblio Semantico Moderato: Tasso di successo medio del subset Semantico del 70,0%, mostrando che il modello può in una certa misura tornare ai significati storici del vocabolario
Difficoltà del Ragionamento Causale: Solo il 19,2% di tasso di successo nel subset Controffattuale, rivelando importanti limitazioni dell'oblio basato su prompt
Vantaggi dei Modelli di Ragionamento: I modelli potenziati dal ragionamento (DeepSeek-R1: 71,2%, OpenAI o3: 50,6%) superano significativamente i modelli ordinari nel subset Controffattuale

Analisi di Ablazione

Confronto delle Strategie di Prompt

Le strategie di prompt P1 e P2 mostrano prestazioni simili su diversi subset
Ciò suggerisce che la formulazione specifica del prompt ha un impatto limitato sull'effetto di oblio

Differenze nelle Capacità del Modello

LLaMA-3.1-405B mostra le migliori prestazioni nel subset Semantico (80,4%)
GPT-4o è leader nel subset Fattuale (86,0%)
Tutti i modelli mostrano prestazioni scadenti nel subset Controffattuale

Lavori Correlati

Campo del Machine Unlearning

Metodi Tradizionali: Realizzazione dell'oblio di dati specifici attraverso riaddestramenti o regolazioni parametriche
Oblio Concettuale: Far dimenticare al modello concetti specifici piuttosto che punti dati
Oblio Contestuale: Realizzazione dell'oblio attraverso prompt, con costi computazionali bassi

Applicazioni di Previsione Temporale degli LLM

Scenari di Applicazione: Previsioni meteorologiche, previsioni di prezzi azionari, previsioni di traffico, previsioni di eventi politici
Tipi di Metodo: Apprendimento zero-shot, fine-tuning, apprendimento in contesto
Sfide: La contaminazione dei dati porta a valutazioni inique

Ricerca sulla Contaminazione dei Dati

Identificazione del Problema: Gli LLM potrebbero memorizzare campioni di test nei dati di addestramento
Metodi di Rilevamento: Identificazione della potenziale contaminazione attraverso analisi statistiche
Strategie di Mitigazione: L'oblio basato su prompt proposto in questo articolo è un tentativo innovativo

Conclusioni e Discussione

Conclusioni Principali

Efficacia Parziale: L'oblio basato su prompt mostra buone prestazioni nelle query di fatti diretti, ma efficacia limitata in scenari che richiedono ragionamento causale
Dipendenza dal Ragionamento: La previsione controffattuale richiede forti capacità di ragionamento causale, e i semplici vincoli di prompt sono difficili da realizzare
Necessità di Valutazione: I risultati della ricerca sottolineano l'importanza della valutazione rigorosa nei compiti di previsione temporale degli LLM

Limitazioni

Limitazioni del Metodo: Esplorazione solo dell'oblio basato su prompt, senza coinvolgimento di altre tecniche di oblio
Scala dei Dati: A causa dei vincoli di risorse computazionali, la scala del dataset è relativamente piccola
Mancanza di Timestamp: L'assenza di timestamp nei dati di preaddestramento potrebbe influenzare l'effetto di oblio
Fine-tuning delle Istruzioni: I modelli potrebbero non essere stati specificamente addestrati su prompt di cutoff di conoscenza

Direzioni Future

Fine-tuning delle Istruzioni: Fine-tuning specializzato dei modelli su prompt di cutoff di conoscenza
Metodi Ibridi: Tecniche di oblio che combinano prompt e regolazioni parametriche
Valutazione su Scala Più Grande: Costruzione di dataset di valutazione più grandi e diversificati
Applicazioni in Tempo Reale: Esplorazione dell'effetto di applicazione in compiti di previsione temporale effettivi

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta un problema critico nella valutazione della previsione temporale degli LLM, con significativo valore pratico
Novità del Metodo: Primo studio sistematico dell'applicazione dell'oblio basato su prompt nella conoscenza temporale, aprendo una nuova direzione di ricerca
Completezza della Valutazione: Il design del dataset su tre dimensioni è ragionevole, valutando complessivamente diversi tipi di capacità di oblio
Rigore Sperimentale:
- Confronti multi-modello per verificare l'affidabilità dei risultati
- Processi dettagliati di costruzione e post-elaborazione dei dati
- Confronti con modelli di ragionamento forniscono approfondimenti
Apertura delle Risorse: Fornitura di dataset completi e codice di valutazione, promuovendo ricerche successive

Insufficienze

Comprensione Insufficiente del Meccanismo di Oblio: Manca un'analisi approfondita del perché alcuni tipi di oblio sono più difficili
Ottimizzazione Limitata dei Prompt: Solo due strategie di prompt testate, potrebbero esistere design di prompt più efficaci
Metriche di Valutazione Singole: Dipendenza principalmente dal tasso di successo, mancanza di valutazione a grana fine del grado di oblio
Verifica dell'Applicazione Pratica: Mancanza di verifica dell'effetto in compiti di previsione temporale effettivi
Analisi dei Costi Computazionali: Nessuna analisi dell'efficienza computazionale dell'oblio basato su prompt rispetto ai metodi tradizionali

Impatto

Contributo Accademico: Fornisce una nuova prospettiva e benchmark per la ricerca sull'oblio degli LLM, previsto di promuovere lo sviluppo della ricerca correlata
Valore Pratico: Fornisce un framework di valutazione importante per l'applicazione industriale degli LLM nella previsione temporale
Significato Metodologico: Sottolinea l'importanza di considerare i fattori temporali nella valutazione dei sistemi di IA
Riproducibilità: Le risorse open-source complete garantiscono la riproducibilità e l'estensibilità della ricerca

Scenari Applicabili

Previsione Finanziaria: Valutazione equa della previsione di prezzi azionari e tendenze di mercato
Previsione di Eventi: Previsione di elezioni politiche, eventi sportivi e altri eventi
Valutazione del Modello: Valutazione di qualsiasi applicazione LLM che coinvolga serie temporali
Benchmark di Ricerca: Come dataset di benchmark per la valutazione di altre tecniche di oblio

Riferimenti Bibliografici

Questo articolo cita importanti lavori nei campi correlati del machine unlearning, della previsione temporale degli LLM e della contaminazione dei dati, inclusi:

Bourtoule et al. (2019): Lavoro fondamentale sul machine unlearning
Brown et al. (2020): GPT-3 e apprendimento in contesto
Pawelczyk et al. (2024): Tecniche di oblio contestuale
Roberts et al. (2024): Studio longitudinale sulla contaminazione dei dati degli LLM

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta un problema importante nell'applicazione degli LLM. Sebbene l'efficacia nell'oblio del ragionamento causale sia limitata, fornisce un lavoro fondamentale importante e un framework di valutazione per il campo. Il metodo di ricerca è rigoroso, il design sperimentale è ragionevole e ha valore significativo sia per il mondo accademico che per l'industria.