2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.

Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.

academic

Les Invites Peuvent-elles Rembobiner le Temps pour les LLMs ? Évaluation de l'Efficacité des Dates Limites de Connaissance Provoquées

Informations Fondamentales

ID de l'article : 2510.02340
Titre : Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Auteurs : Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
Institutions : UC San Diego, SUNY Buffalo
Classification : cs.CL cs.LG
Date de publication : 15 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2510.02340

Résumé

Les grands modèles de langage (LLMs) sont largement utilisés dans les tâches de prédiction temporelle, mais leur dépendance aux données d'entraînement soulève des préoccupations concernant la contamination des données, car les prédictions précises sur les données de test antérieures à la date limite de préentraînement pourraient refléter la mémorisation plutôt que le raisonnement, ce qui entraîne une surestimation de leur capacité de généralisation. Avec l'émergence de techniques d'oubli basées sur les invites, une question naturelle se pose : est-il possible de faire simuler aux LLMs une date limite de connaissance antérieure par le biais d'invites ? Cette étude enquête sur la capacité des invites à simuler des dates limites de connaissance antérieures, en construisant trois ensembles de données d'évaluation pour évaluer le degré d'oubli des LLMs concernant (1) les connaissances factuelles directes, (2) les changements sémantiques et (3) les connaissances causalement pertinentes. Les résultats montrent que bien que la simulation provoquée de dates limites de connaissance soit efficace lors de requêtes directes d'informations postérieures à cette date, elle a du mal à induire l'oubli lorsque le contenu à oublier n'est pas directement interrogé mais est causalement pertinent pour la requête.

Contexte et Motivation de la Recherche

Problème Central

Le problème central que cette recherche vise à résoudre est l'impact de la contamination des données sur l'évaluation des tâches de prédiction temporelle des LLMs. Lorsque les LLMs sont utilisés pour des tâches de séries chronologiques telles que la prédiction d'actions ou d'événements, le modèle peut avoir déjà vu les données de test pendant la phase de préentraînement, ce qui entraîne une surestimation de la performance prédictive.

Importance du Problème

Crédibilité de l'évaluation : Les modèles d'apprentissage automatique traditionnels (comme les forêts aléatoires) sont entraînés à partir de zéro, rendant la performance de test fiable ; cependant, les LLMs peuvent avoir déjà vu les données pendant la période de test, ce qui entraîne des comparaisons injustes
Erreur de jugement de la capacité de généralisation : Les « prédictions » basées sur la mémorisation surestiment la véritable capacité de généralisation du modèle
Risques d'application pratique : Lors du déploiement dans des scénarios réels, la performance du modèle peut être bien inférieure aux attentes

Limitations des Méthodes Existantes

Les méthodes traditionnelles d'oubli automatique nécessitent un réentraînement ou un ajustement fin, avec des coûts de calcul élevés
Absence de méthodes efficaces pour simuler l'état de connaissance historique des LLMs
Les cadres d'évaluation existants ne tiennent pas suffisamment compte du problème de contamination temporelle

Motivation de la Recherche

Inspirés par les techniques d'oubli contextuel récemment émergentes, les auteurs proposent d'utiliser l'ingénierie des invites pour ajuster la date limite de connaissance des LLMs, les faisant « oublier » toutes les informations après une date spécifiée, réalisant ainsi une évaluation plus équitable des prédictions temporelles.

Contributions Principales

Première étude systématique : Première évaluation systématique de l'efficacité de la simulation des dates limites de connaissance des LLMs par le biais d'invites
Cadre d'évaluation multidimensionnel : Construction de trois ensembles de données de différentes dimensions pour évaluer complètement la capacité d'oubli :
- Sous-ensemble factuel : oubli de connaissances factuelles directes
- Sous-ensemble sémantique : oubli de changements sémantiques
- Sous-ensemble contrefactuel : oubli de connaissances causalement pertinentes
Découvertes importantes : Révélation des limitations de l'oubli provoqué — la performance diminue significativement dans les scénarios de raisonnement causal
Référence d'évaluation : Fourniture d'ensembles de données de haute qualité et de code d'évaluation, jetant les bases pour les recherches futures
Orientation pratique : Fourniture de conseils méthodologiques pour l'évaluation rigoureuse des tâches de prédiction temporelle des LLMs

Détails de la Méthode

Définition de la Tâche

Entrée : Requête utilisateur + invite système simulant une date limite de connaissance Sortie : Réponse conforme à l'état de connaissance de la date limite spécifiée Contrainte : Le modèle devrait « oublier » toutes les informations après la date limite

Stratégies de Conception d'Invites

Invite P1 : Type de Filtrage de Connaissance

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

Invite P2 : Type de Contrainte de Raisonnement

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

Conception de la Méthode d'Évaluation

Calcul du Taux de Succès d'Oubli

Pour les sous-ensembles factuel et contrefactuel, un format de questions à choix multiples est utilisé, le succès d'oubli étant défini comme le changement de réponse originale du modèle.

Pour le sous-ensemble sémantique, la similarité sémantique est utilisée : $\text{Succès} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}$

où $o_a, o_b$ sont respectivement les sorties avant et après l'oubli, et $y_a, y_b$ sont les réponses vraies avant et après la date limite.

Configuration Expérimentale

Construction de l'Ensemble de Données

Sous-ensemble Factuel (675 échantillons)

Objectif : Évaluer l'oubli de connaissances factuelles directes
Méthode de construction : Utilisation de GPT-4o pour générer des événements historiques majeurs depuis 1960 et les paires de questions-réponses correspondantes
Période couverte : 1960-2024
Exemple : Interroger le président américain à un moment donné, devrait répondre celui en fonction à ce moment plutôt que l'actuel

Sous-ensemble Sémantique (303 échantillons)

Objectif : Évaluer l'oubli des changements sémantiques de vocabulaire
Méthode de construction : Collecte de vocabulaire ayant subi des changements sémantiques, comme « TikTok » passant d'une onomatopée à une plateforme de médias sociaux
Période couverte : 2000-2024
Évaluation : Utilisation du modèle MPNet pour calculer la similarité sémantique

Sous-ensemble Contrefactuel (689 échantillons)

Objectif : Évaluer l'oubli de connaissances causalement pertinentes
Méthode de construction : Construction de scénarios de prédiction contrefactuelle basés sur des événements majeurs
Période couverte : 2000-2024
Exemple : Avec une date limite de 2018, prédire l'année de tenue des Jeux olympiques de Tokyo (devrait répondre 2020 plutôt que 2021 réel)

Modèles Expérimentaux

DeepSeek-V3 : Dernier modèle open-source
LLaMA-3.1-405B : Modèle à grande échelle de Meta
GPT-4o : Modèle multimodal d'OpenAI
DeepSeek-R1 & OpenAI o3 : Modèles améliorés par le raisonnement (expériences comparatives)

Indicateurs d'Évaluation

Indicateur principal : Taux de succès d'oubli (Unlearn Success Rate)
Mode de calcul : Nombre d'échantillons oubliés avec succès / Nombre total d'échantillons

Résultats Expérimentaux

Résultats Principaux

Modèle	Factuel	Sémantique	Contrefactuel
DeepSeek-V3	79,0%	57,5%	13,9%
LLaMA-3.1-405B	82,4%	80,4%	26,5%
GPT-4o	86,0%	72,0%	17,3%
Moyenne	82,5%	70,0%	19,2%

Découvertes Clés

Efficacité des requêtes directes : Taux de succès moyen de 82,5% pour le sous-ensemble factuel, indiquant que l'oubli provoqué est relativement efficace pour les requêtes de faits directs
Oubli sémantique modéré : Taux de succès moyen de 70,0% pour le sous-ensemble sémantique, montrant que le modèle peut dans une certaine mesure revenir aux significations historiques du vocabulaire
Difficulté du raisonnement causal : Taux de succès de seulement 19,2% pour le sous-ensemble contrefactuel, révélant une limitation importante de l'oubli provoqué
Avantage des modèles de raisonnement : Les modèles améliorés par le raisonnement (DeepSeek-R1 : 71,2%, OpenAI o3 : 50,6%) surpassent significativement les modèles ordinaires sur le sous-ensemble contrefactuel

Analyse d'Ablation

Comparaison des Stratégies d'Invites

Les stratégies d'invites P1 et P2 montrent des performances similaires sur différents sous-ensembles
Cela suggère que la formulation spécifique de l'invite a un impact limité sur l'effet d'oubli

Différences de Capacité des Modèles

LLaMA-3.1-405B affiche les meilleures performances sur le sous-ensemble sémantique (80,4%)
GPT-4o est en tête sur le sous-ensemble factuel (86,0%)
Tous les modèles affichent de faibles performances sur le sous-ensemble contrefactuel

Travaux Connexes

Domaine de l'Oubli Automatique

Méthodes traditionnelles : Réalisation de l'oubli de données spécifiques par réentraînement ou ajustement de paramètres
Oubli conceptuel : Faire oublier au modèle des concepts spécifiques plutôt que des points de données
Oubli contextuel : Réalisation de l'oubli par le biais d'invites, avec faible coût de calcul

Applications de Prédiction Temporelle des LLMs

Scénarios d'application : Prévisions météorologiques, prédictions de cours d'actions, prédictions de trafic, prédictions d'événements politiques
Types de méthodes : Apprentissage zéro-shot, ajustement fin, apprentissage en contexte
Défis : La contamination des données entraîne une évaluation injuste

Recherche sur la Contamination des Données

Identification du problème : Les LLMs peuvent mémoriser des échantillons de test dans les données d'entraînement
Méthodes de détection : Identification de la contamination potentielle par analyse statistique
Stratégies d'atténuation : L'oubli provoqué proposé dans cet article est une tentative novatrice

Conclusion et Discussion

Conclusions Principales

Efficacité partielle : L'oubli provoqué fonctionne bien pour les requêtes de faits directs, mais son efficacité est limitée dans les scénarios nécessitant un raisonnement causal
Dépendance au raisonnement : La prédiction contrefactuelle nécessite une puissante capacité de raisonnement causal, que les simples contraintes d'invites ne peuvent pas réaliser
Nécessité de l'évaluation : Les résultats de la recherche soulignent l'importance d'une évaluation rigoureuse dans les tâches de prédiction temporelle des LLMs

Limitations

Limitation de la méthode : Exploration uniquement de l'oubli basé sur les invites, sans exploration d'autres techniques d'oubli
Échelle des données : Taille d'ensemble de données relativement petite en raison des limitations des ressources de calcul
Absence d'horodatage : L'absence d'horodatage dans les données de préentraînement peut affecter l'effet d'oubli
Ajustement d'instructions : Les modèles peuvent ne pas avoir été spécialement entraînés sur les invites de date limite de connaissance

Directions Futures

Ajustement d'instructions : Ajustement fin spécialisé des modèles sur les invites de date limite de connaissance
Méthodes hybrides : Techniques d'oubli combinant invites et ajustement de paramètres
Évaluation à plus grande échelle : Construction d'ensembles de données d'évaluation plus grands et plus diversifiés
Applications en temps réel : Exploration de l'efficacité dans les tâches réelles de prédiction temporelle

Évaluation Approfondie

Points Forts

Importance du problème : Résout un problème clé dans l'évaluation des prédictions temporelles des LLMs, avec une valeur pratique importante
Nouveauté de la méthode : Première étude systématique de l'application de l'oubli provoqué aux connaissances temporelles, ouvrant une nouvelle direction de recherche
Complétude de l'évaluation : Conception raisonnable d'ensembles de données à trois dimensions, évaluant complètement différents types de capacités d'oubli
Rigueur expérimentale :
- Comparaison multi-modèles validant la fiabilité des résultats
- Processus détaillés de construction et de post-traitement des données
- La comparaison des modèles de raisonnement fournit des perspectives approfondies
Ressources ouvertes : Fourniture d'ensembles de données complets et de code d'évaluation, favorisant les recherches ultérieures

Insuffisances

Compréhension insuffisante du mécanisme d'oubli : Manque d'analyse approfondie sur les raisons pour lesquelles certains types d'oubli sont plus difficiles
Optimisation d'invites limitée : Seulement deux stratégies d'invites testées, il peut exister des conceptions d'invites plus efficaces
Indicateurs d'évaluation uniques : Dépendance principalement du taux de succès, manque d'évaluation granulaire du degré d'oubli
Validation d'application pratique : Manque de vérification de l'efficacité dans les tâches réelles de prédiction temporelle
Analyse des coûts de calcul : Pas d'analyse de l'avantage d'efficacité de calcul de l'oubli provoqué par rapport aux méthodes traditionnelles

Impact

Contribution académique : Fournit une nouvelle perspective et une référence pour la recherche sur l'oubli des LLMs, devrait promouvoir le développement de recherches connexes
Valeur pratique : Fournit un cadre d'évaluation important pour l'application industrielle des LLMs dans les prédictions temporelles
Signification méthodologique : Souligne l'importance de considérer les facteurs temporels dans l'évaluation des systèmes d'IA
Reproductibilité : Les ressources open-source complètes garantissent la reproductibilité et l'extensibilité de la recherche

Scénarios Applicables

Prédiction financière : Évaluation équitable des prédictions de cours d'actions et de tendances de marché
Prédiction d'événements : Prédictions d'élections politiques, d'événements sportifs, etc.
Évaluation de modèles : Évaluation de toute application LLM impliquant des séries chronologiques
Référence de recherche : Ensemble de données de référence pour l'évaluation d'autres techniques d'oubli

Références

Cet article cite des travaux importants dans les domaines connexes de l'oubli automatique, de la prédiction temporelle des LLMs et de la contamination des données, notamment :

Bourtoule et al. (2019) : Travail fondateur sur l'oubli automatique
Brown et al. (2020) : GPT-3 et apprentissage en contexte
Pawelczyk et al. (2024) : Techniques d'oubli contextuel
Roberts et al. (2024) : Étude longitudinale de la contamination des données LLM

Évaluation Globale : Ceci est un article de recherche de haute qualité qui résout un problème important dans l'application des LLMs. Bien que l'efficacité soit limitée dans l'oubli du raisonnement causal, il fournit un travail fondamental important et un cadre d'évaluation pour ce domaine. La méthode de recherche est rigoureuse, la conception expérimentale est raisonnable, et elle a une valeur importante pour le monde académique et l'industrie.