Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Gao, Zhang, Du et al.
Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
academic
Possono i Prompt Riavvolgere il Tempo per gli LLM? Valutazione dell'Efficacia dei Cutoff di Conoscenza Sollecitati
I modelli di linguaggio di grandi dimensioni (LLM) sono ampiamente utilizzati in compiti di previsione temporale, ma la loro dipendenza dai dati di preaddestramento suscita preoccupazioni sulla contaminazione dei dati, poiché le previsioni accurate su dati di test precedenti alla data di cutoff del preaddestramento potrebbero riflettere memorizzazione piuttosto che ragionamento, portando a una sovrastima delle loro capacità di generalizzazione. Con l'emergere di tecniche di oblio basate su prompt, sorge una domanda naturale: è possibile utilizzare i prompt per far simulare agli LLM un cutoff di conoscenza più precoce? Questo studio indaga la capacità dei prompt di simulare cutoff di conoscenza precedenti, costruendo tre dataset di valutazione per valutare il grado in cui gli LLM dimenticano (1) conoscenze fattuali dirette, (2) cambiamenti semantici e (3) conoscenze causalmente correlate. I risultati mostrano che, sebbene la simulazione basata su prompt del cutoff di conoscenza sia efficace quando si interrogano direttamente informazioni successive a quella data, gli LLM faticano a indurre l'oblio quando il contenuto da dimenticare non è direttamente interrogato ma è causalmente correlato alla query.
Il problema centrale affrontato da questo studio è l'impatto della contaminazione dei dati sulla valutazione dei compiti di previsione temporale degli LLM. Quando gli LLM vengono utilizzati per compiti di serie temporali come previsioni di titoli azionari e previsioni di eventi, il modello potrebbe aver già visto i dati di test durante la fase di preaddestramento, portando a una sovrastima delle prestazioni di previsione.
Credibilità della Valutazione: I modelli di apprendimento automatico tradizionali (come le foreste casuali) vengono addestrati da zero, rendendo le prestazioni di test affidabili; tuttavia, gli LLM potrebbero aver già visto i dati durante il periodo di test, portando a confronti iniqui
Errata Valutazione della Capacità di Generalizzazione: Le "previsioni" basate sulla memorizzazione sovrastimano la vera capacità di generalizzazione del modello
Rischi di Applicazione Pratica: Quando distribuito in scenari reali, le prestazioni del modello potrebbero essere significativamente inferiori alle aspettative
Ispirato dalle tecniche di oblio contestuale recentemente emerse, gli autori propongono di regolare i cutoff di conoscenza degli LLM attraverso ingegneria dei prompt, facendo "dimenticare" al modello tutte le informazioni successive a una data specificata, realizzando così una valutazione più equa della previsione temporale.
Primo Studio Sistematico: Prima valutazione sistematica dell'efficacia della simulazione dei cutoff di conoscenza degli LLM attraverso prompt
Framework di Valutazione Multidimensionale: Costruzione di tre dataset su diverse dimensioni per valutare complessivamente le capacità di oblio:
Subset Fattuale: oblio della conoscenza fattuale diretta
Subset Semantico: oblio dei cambiamenti semantici
Subset Controffattuale: oblio della conoscenza causalmente correlata
Scoperte Importanti: Rivelazione delle limitazioni dell'oblio basato su prompt — prestazioni significativamente ridotte in scenari di ragionamento causale
Benchmark di Valutazione: Fornitura di dataset di alta qualità e codice di valutazione, gettando le basi per ricerche future
Guida Pratica: Orientamenti metodologici per la valutazione rigorosa dei compiti di previsione temporale degli LLM
Input: Query dell'utente + prompt di sistema con data di cutoff di conoscenza simulata
Output: Risposta conforme allo stato di conoscenza della data specificata
Vincoli: Il modello dovrebbe "dimenticare" tutte le informazioni successive alla data di cutoff
You must answer this question using only knowledge that was publicly available before the year {unlearn_year}.
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.
You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}.
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.
Per i subset Fattuale e Controffattuale, viene utilizzato un formato a scelta multipla, con il successo dell'oblio definito come il cambio della risposta originale del modello.
Per il subset Semantico, viene utilizzata la similarità semantica:
Success=cos(oa,ya)+cos(oa,yb)cos(oa,ya)>cos(ob,ya)+cos(ob,yb)cos(ob,ya)
dove oa,ob sono rispettivamente gli output prima e dopo l'oblio, e ya,yb sono le risposte vere prima e dopo il cutoff.
Obiettivo: Valutare l'oblio della conoscenza fattuale diretta
Metodo di Costruzione: Utilizzo di GPT-4o per generare importanti eventi storici dal 1960 in poi e coppie di domande-risposte corrispondenti
Intervallo Temporale: 1960-2024
Esempio: Interrogare il presidente degli Stati Uniti in un determinato momento, dovrebbe rispondere con chi era in carica in quel momento piuttosto che l'attuale
Efficacia della Query Diretta: Tasso di successo medio del subset Fattuale dell'82,5%, indicando che l'oblio basato su prompt è relativamente efficace nelle query di fatti diretti
Oblio Semantico Moderato: Tasso di successo medio del subset Semantico del 70,0%, mostrando che il modello può in una certa misura tornare ai significati storici del vocabolario
Difficoltà del Ragionamento Causale: Solo il 19,2% di tasso di successo nel subset Controffattuale, rivelando importanti limitazioni dell'oblio basato su prompt
Vantaggi dei Modelli di Ragionamento: I modelli potenziati dal ragionamento (DeepSeek-R1: 71,2%, OpenAI o3: 50,6%) superano significativamente i modelli ordinari nel subset Controffattuale
Efficacia Parziale: L'oblio basato su prompt mostra buone prestazioni nelle query di fatti diretti, ma efficacia limitata in scenari che richiedono ragionamento causale
Dipendenza dal Ragionamento: La previsione controffattuale richiede forti capacità di ragionamento causale, e i semplici vincoli di prompt sono difficili da realizzare
Necessità di Valutazione: I risultati della ricerca sottolineano l'importanza della valutazione rigorosa nei compiti di previsione temporale degli LLM
Importanza del Problema: Affronta un problema critico nella valutazione della previsione temporale degli LLM, con significativo valore pratico
Novità del Metodo: Primo studio sistematico dell'applicazione dell'oblio basato su prompt nella conoscenza temporale, aprendo una nuova direzione di ricerca
Completezza della Valutazione: Il design del dataset su tre dimensioni è ragionevole, valutando complessivamente diversi tipi di capacità di oblio
Rigore Sperimentale:
Confronti multi-modello per verificare l'affidabilità dei risultati
Processi dettagliati di costruzione e post-elaborazione dei dati
Confronti con modelli di ragionamento forniscono approfondimenti
Apertura delle Risorse: Fornitura di dataset completi e codice di valutazione, promuovendo ricerche successive
Contributo Accademico: Fornisce una nuova prospettiva e benchmark per la ricerca sull'oblio degli LLM, previsto di promuovere lo sviluppo della ricerca correlata
Valore Pratico: Fornisce un framework di valutazione importante per l'applicazione industriale degli LLM nella previsione temporale
Significato Metodologico: Sottolinea l'importanza di considerare i fattori temporali nella valutazione dei sistemi di IA
Riproducibilità: Le risorse open-source complete garantiscono la riproducibilità e l'estensibilità della ricerca
Questo articolo cita importanti lavori nei campi correlati del machine unlearning, della previsione temporale degli LLM e della contaminazione dei dati, inclusi:
Bourtoule et al. (2019): Lavoro fondamentale sul machine unlearning
Brown et al. (2020): GPT-3 e apprendimento in contesto
Pawelczyk et al. (2024): Tecniche di oblio contestuale
Roberts et al. (2024): Studio longitudinale sulla contaminazione dei dati degli LLM
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta un problema importante nell'applicazione degli LLM. Sebbene l'efficacia nell'oblio del ragionamento causale sia limitata, fornisce un lavoro fondamentale importante e un framework di valutazione per il campo. Il metodo di ricerca è rigoroso, il design sperimentale è ragionevole e ha valore significativo sia per il mondo accademico che per l'industria.