2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.
Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
academic

Possono i Prompt Riavvolgere il Tempo per gli LLM? Valutazione dell'Efficacia dei Cutoff di Conoscenza Sollecitati

Informazioni Fondamentali

  • ID Articolo: 2510.02340
  • Titolo: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
  • Autori: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
  • Istituzioni: UC San Diego, SUNY Buffalo
  • Classificazione: cs.CL cs.LG
  • Data di Pubblicazione: 15 ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2510.02340

Riassunto

I modelli di linguaggio di grandi dimensioni (LLM) sono ampiamente utilizzati in compiti di previsione temporale, ma la loro dipendenza dai dati di preaddestramento suscita preoccupazioni sulla contaminazione dei dati, poiché le previsioni accurate su dati di test precedenti alla data di cutoff del preaddestramento potrebbero riflettere memorizzazione piuttosto che ragionamento, portando a una sovrastima delle loro capacità di generalizzazione. Con l'emergere di tecniche di oblio basate su prompt, sorge una domanda naturale: è possibile utilizzare i prompt per far simulare agli LLM un cutoff di conoscenza più precoce? Questo studio indaga la capacità dei prompt di simulare cutoff di conoscenza precedenti, costruendo tre dataset di valutazione per valutare il grado in cui gli LLM dimenticano (1) conoscenze fattuali dirette, (2) cambiamenti semantici e (3) conoscenze causalmente correlate. I risultati mostrano che, sebbene la simulazione basata su prompt del cutoff di conoscenza sia efficace quando si interrogano direttamente informazioni successive a quella data, gli LLM faticano a indurre l'oblio quando il contenuto da dimenticare non è direttamente interrogato ma è causalmente correlato alla query.

Contesto e Motivazione della Ricerca

Problema Centrale

Il problema centrale affrontato da questo studio è l'impatto della contaminazione dei dati sulla valutazione dei compiti di previsione temporale degli LLM. Quando gli LLM vengono utilizzati per compiti di serie temporali come previsioni di titoli azionari e previsioni di eventi, il modello potrebbe aver già visto i dati di test durante la fase di preaddestramento, portando a una sovrastima delle prestazioni di previsione.

Importanza del Problema

  1. Credibilità della Valutazione: I modelli di apprendimento automatico tradizionali (come le foreste casuali) vengono addestrati da zero, rendendo le prestazioni di test affidabili; tuttavia, gli LLM potrebbero aver già visto i dati durante il periodo di test, portando a confronti iniqui
  2. Errata Valutazione della Capacità di Generalizzazione: Le "previsioni" basate sulla memorizzazione sovrastimano la vera capacità di generalizzazione del modello
  3. Rischi di Applicazione Pratica: Quando distribuito in scenari reali, le prestazioni del modello potrebbero essere significativamente inferiori alle aspettative

Limitazioni dei Metodi Esistenti

  • I metodi tradizionali di machine unlearning richiedono riaddestramenti o fine-tuning, con costi computazionali elevati
  • Mancano metodi efficaci per simulare lo stato di conoscenza storico degli LLM
  • I framework di valutazione esistenti non considerano adeguatamente il problema della contaminazione temporale

Motivazione della Ricerca

Ispirato dalle tecniche di oblio contestuale recentemente emerse, gli autori propongono di regolare i cutoff di conoscenza degli LLM attraverso ingegneria dei prompt, facendo "dimenticare" al modello tutte le informazioni successive a una data specificata, realizzando così una valutazione più equa della previsione temporale.

Contributi Principali

  1. Primo Studio Sistematico: Prima valutazione sistematica dell'efficacia della simulazione dei cutoff di conoscenza degli LLM attraverso prompt
  2. Framework di Valutazione Multidimensionale: Costruzione di tre dataset su diverse dimensioni per valutare complessivamente le capacità di oblio:
    • Subset Fattuale: oblio della conoscenza fattuale diretta
    • Subset Semantico: oblio dei cambiamenti semantici
    • Subset Controffattuale: oblio della conoscenza causalmente correlata
  3. Scoperte Importanti: Rivelazione delle limitazioni dell'oblio basato su prompt — prestazioni significativamente ridotte in scenari di ragionamento causale
  4. Benchmark di Valutazione: Fornitura di dataset di alta qualità e codice di valutazione, gettando le basi per ricerche future
  5. Guida Pratica: Orientamenti metodologici per la valutazione rigorosa dei compiti di previsione temporale degli LLM

Dettagli del Metodo

Definizione del Compito

Input: Query dell'utente + prompt di sistema con data di cutoff di conoscenza simulata Output: Risposta conforme allo stato di conoscenza della data specificata Vincoli: Il modello dovrebbe "dimenticare" tutte le informazioni successive alla data di cutoff

Strategie di Progettazione dei Prompt

Prompt P1: Tipo di Filtro della Conoscenza

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

Prompt P2: Tipo di Vincolo di Ragionamento

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

Progettazione del Metodo di Valutazione

Calcolo del Tasso di Successo dell'Oblio

Per i subset Fattuale e Controffattuale, viene utilizzato un formato a scelta multipla, con il successo dell'oblio definito come il cambio della risposta originale del modello.

Per il subset Semantico, viene utilizzata la similarità semantica: Success=cos(oa,ya)cos(oa,ya)+cos(oa,yb)>cos(ob,ya)cos(ob,ya)+cos(ob,yb)\text{Success} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}

dove oa,obo_a, o_b sono rispettivamente gli output prima e dopo l'oblio, e ya,yby_a, y_b sono le risposte vere prima e dopo il cutoff.

Configurazione Sperimentale

Costruzione del Dataset

Subset Fattuale (675 campioni)

  • Obiettivo: Valutare l'oblio della conoscenza fattuale diretta
  • Metodo di Costruzione: Utilizzo di GPT-4o per generare importanti eventi storici dal 1960 in poi e coppie di domande-risposte corrispondenti
  • Intervallo Temporale: 1960-2024
  • Esempio: Interrogare il presidente degli Stati Uniti in un determinato momento, dovrebbe rispondere con chi era in carica in quel momento piuttosto che l'attuale

Subset Semantico (303 campioni)

  • Obiettivo: Valutare l'oblio dei cambiamenti semantici del vocabolario
  • Metodo di Costruzione: Raccolta di vocabolario con cambiamenti semantici, come "TikTok" da onomatopea a piattaforma di social media
  • Intervallo Temporale: 2000-2024
  • Valutazione: Utilizzo del modello MPNet per calcolare la similarità semantica

Subset Controffattuale (689 campioni)

  • Obiettivo: Valutare l'oblio della conoscenza causalmente correlata
  • Metodo di Costruzione: Costruzione di scenari di previsione controffattuale basati su eventi importanti
  • Intervallo Temporale: 2000-2024
  • Esempio: Con cutoff nel 2018, prevedere l'anno di svolgimento delle Olimpiadi di Tokyo (dovrebbe rispondere 2020 piuttosto che il 2021 effettivo)

Modelli Sperimentali

  • DeepSeek-V3: Modello open-source più recente
  • LLaMA-3.1-405B: Modello su larga scala di Meta
  • GPT-4o: Modello multimodale di OpenAI
  • DeepSeek-R1 & OpenAI o3: Modelli con ragionamento potenziato (esperimenti comparativi)

Metriche di Valutazione

  • Metrica Principale: Tasso di Successo dell'Oblio (Unlearn Success Rate)
  • Modalità di Calcolo: Numero di campioni dimenticati con successo / Numero totale di campioni

Risultati Sperimentali

Risultati Principali

ModelloFattualeSemanticoControffattuale
DeepSeek-V379,0%57,5%13,9%
LLaMA-3.1-405B82,4%80,4%26,5%
GPT-4o86,0%72,0%17,3%
Media82,5%70,0%19,2%

Scoperte Chiave

  1. Efficacia della Query Diretta: Tasso di successo medio del subset Fattuale dell'82,5%, indicando che l'oblio basato su prompt è relativamente efficace nelle query di fatti diretti
  2. Oblio Semantico Moderato: Tasso di successo medio del subset Semantico del 70,0%, mostrando che il modello può in una certa misura tornare ai significati storici del vocabolario
  3. Difficoltà del Ragionamento Causale: Solo il 19,2% di tasso di successo nel subset Controffattuale, rivelando importanti limitazioni dell'oblio basato su prompt
  4. Vantaggi dei Modelli di Ragionamento: I modelli potenziati dal ragionamento (DeepSeek-R1: 71,2%, OpenAI o3: 50,6%) superano significativamente i modelli ordinari nel subset Controffattuale

Analisi di Ablazione

Confronto delle Strategie di Prompt

  • Le strategie di prompt P1 e P2 mostrano prestazioni simili su diversi subset
  • Ciò suggerisce che la formulazione specifica del prompt ha un impatto limitato sull'effetto di oblio

Differenze nelle Capacità del Modello

  • LLaMA-3.1-405B mostra le migliori prestazioni nel subset Semantico (80,4%)
  • GPT-4o è leader nel subset Fattuale (86,0%)
  • Tutti i modelli mostrano prestazioni scadenti nel subset Controffattuale

Lavori Correlati

Campo del Machine Unlearning

  • Metodi Tradizionali: Realizzazione dell'oblio di dati specifici attraverso riaddestramenti o regolazioni parametriche
  • Oblio Concettuale: Far dimenticare al modello concetti specifici piuttosto che punti dati
  • Oblio Contestuale: Realizzazione dell'oblio attraverso prompt, con costi computazionali bassi

Applicazioni di Previsione Temporale degli LLM

  • Scenari di Applicazione: Previsioni meteorologiche, previsioni di prezzi azionari, previsioni di traffico, previsioni di eventi politici
  • Tipi di Metodo: Apprendimento zero-shot, fine-tuning, apprendimento in contesto
  • Sfide: La contaminazione dei dati porta a valutazioni inique

Ricerca sulla Contaminazione dei Dati

  • Identificazione del Problema: Gli LLM potrebbero memorizzare campioni di test nei dati di addestramento
  • Metodi di Rilevamento: Identificazione della potenziale contaminazione attraverso analisi statistiche
  • Strategie di Mitigazione: L'oblio basato su prompt proposto in questo articolo è un tentativo innovativo

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia Parziale: L'oblio basato su prompt mostra buone prestazioni nelle query di fatti diretti, ma efficacia limitata in scenari che richiedono ragionamento causale
  2. Dipendenza dal Ragionamento: La previsione controffattuale richiede forti capacità di ragionamento causale, e i semplici vincoli di prompt sono difficili da realizzare
  3. Necessità di Valutazione: I risultati della ricerca sottolineano l'importanza della valutazione rigorosa nei compiti di previsione temporale degli LLM

Limitazioni

  1. Limitazioni del Metodo: Esplorazione solo dell'oblio basato su prompt, senza coinvolgimento di altre tecniche di oblio
  2. Scala dei Dati: A causa dei vincoli di risorse computazionali, la scala del dataset è relativamente piccola
  3. Mancanza di Timestamp: L'assenza di timestamp nei dati di preaddestramento potrebbe influenzare l'effetto di oblio
  4. Fine-tuning delle Istruzioni: I modelli potrebbero non essere stati specificamente addestrati su prompt di cutoff di conoscenza

Direzioni Future

  1. Fine-tuning delle Istruzioni: Fine-tuning specializzato dei modelli su prompt di cutoff di conoscenza
  2. Metodi Ibridi: Tecniche di oblio che combinano prompt e regolazioni parametriche
  3. Valutazione su Scala Più Grande: Costruzione di dataset di valutazione più grandi e diversificati
  4. Applicazioni in Tempo Reale: Esplorazione dell'effetto di applicazione in compiti di previsione temporale effettivi

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta un problema critico nella valutazione della previsione temporale degli LLM, con significativo valore pratico
  2. Novità del Metodo: Primo studio sistematico dell'applicazione dell'oblio basato su prompt nella conoscenza temporale, aprendo una nuova direzione di ricerca
  3. Completezza della Valutazione: Il design del dataset su tre dimensioni è ragionevole, valutando complessivamente diversi tipi di capacità di oblio
  4. Rigore Sperimentale:
    • Confronti multi-modello per verificare l'affidabilità dei risultati
    • Processi dettagliati di costruzione e post-elaborazione dei dati
    • Confronti con modelli di ragionamento forniscono approfondimenti
  5. Apertura delle Risorse: Fornitura di dataset completi e codice di valutazione, promuovendo ricerche successive

Insufficienze

  1. Comprensione Insufficiente del Meccanismo di Oblio: Manca un'analisi approfondita del perché alcuni tipi di oblio sono più difficili
  2. Ottimizzazione Limitata dei Prompt: Solo due strategie di prompt testate, potrebbero esistere design di prompt più efficaci
  3. Metriche di Valutazione Singole: Dipendenza principalmente dal tasso di successo, mancanza di valutazione a grana fine del grado di oblio
  4. Verifica dell'Applicazione Pratica: Mancanza di verifica dell'effetto in compiti di previsione temporale effettivi
  5. Analisi dei Costi Computazionali: Nessuna analisi dell'efficienza computazionale dell'oblio basato su prompt rispetto ai metodi tradizionali

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva e benchmark per la ricerca sull'oblio degli LLM, previsto di promuovere lo sviluppo della ricerca correlata
  2. Valore Pratico: Fornisce un framework di valutazione importante per l'applicazione industriale degli LLM nella previsione temporale
  3. Significato Metodologico: Sottolinea l'importanza di considerare i fattori temporali nella valutazione dei sistemi di IA
  4. Riproducibilità: Le risorse open-source complete garantiscono la riproducibilità e l'estensibilità della ricerca

Scenari Applicabili

  1. Previsione Finanziaria: Valutazione equa della previsione di prezzi azionari e tendenze di mercato
  2. Previsione di Eventi: Previsione di elezioni politiche, eventi sportivi e altri eventi
  3. Valutazione del Modello: Valutazione di qualsiasi applicazione LLM che coinvolga serie temporali
  4. Benchmark di Ricerca: Come dataset di benchmark per la valutazione di altre tecniche di oblio

Riferimenti Bibliografici

Questo articolo cita importanti lavori nei campi correlati del machine unlearning, della previsione temporale degli LLM e della contaminazione dei dati, inclusi:

  • Bourtoule et al. (2019): Lavoro fondamentale sul machine unlearning
  • Brown et al. (2020): GPT-3 e apprendimento in contesto
  • Pawelczyk et al. (2024): Tecniche di oblio contestuale
  • Roberts et al. (2024): Studio longitudinale sulla contaminazione dei dati degli LLM

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta un problema importante nell'applicazione degli LLM. Sebbene l'efficacia nell'oblio del ragionamento causale sia limitata, fornisce un lavoro fondamentale importante e un framework di valutazione per il campo. Il metodo di ricerca è rigoroso, il design sperimentale è ragionevole e ha valore significativo sia per il mondo accademico che per l'industria.