2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.
Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
academic

Les Invites Peuvent-elles Rembobiner le Temps pour les LLMs ? Évaluation de l'Efficacité des Dates Limites de Connaissance Provoquées

Informations Fondamentales

  • ID de l'article : 2510.02340
  • Titre : Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
  • Auteurs : Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
  • Institutions : UC San Diego, SUNY Buffalo
  • Classification : cs.CL cs.LG
  • Date de publication : 15 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2510.02340

Résumé

Les grands modèles de langage (LLMs) sont largement utilisés dans les tâches de prédiction temporelle, mais leur dépendance aux données d'entraînement soulève des préoccupations concernant la contamination des données, car les prédictions précises sur les données de test antérieures à la date limite de préentraînement pourraient refléter la mémorisation plutôt que le raisonnement, ce qui entraîne une surestimation de leur capacité de généralisation. Avec l'émergence de techniques d'oubli basées sur les invites, une question naturelle se pose : est-il possible de faire simuler aux LLMs une date limite de connaissance antérieure par le biais d'invites ? Cette étude enquête sur la capacité des invites à simuler des dates limites de connaissance antérieures, en construisant trois ensembles de données d'évaluation pour évaluer le degré d'oubli des LLMs concernant (1) les connaissances factuelles directes, (2) les changements sémantiques et (3) les connaissances causalement pertinentes. Les résultats montrent que bien que la simulation provoquée de dates limites de connaissance soit efficace lors de requêtes directes d'informations postérieures à cette date, elle a du mal à induire l'oubli lorsque le contenu à oublier n'est pas directement interrogé mais est causalement pertinent pour la requête.

Contexte et Motivation de la Recherche

Problème Central

Le problème central que cette recherche vise à résoudre est l'impact de la contamination des données sur l'évaluation des tâches de prédiction temporelle des LLMs. Lorsque les LLMs sont utilisés pour des tâches de séries chronologiques telles que la prédiction d'actions ou d'événements, le modèle peut avoir déjà vu les données de test pendant la phase de préentraînement, ce qui entraîne une surestimation de la performance prédictive.

Importance du Problème

  1. Crédibilité de l'évaluation : Les modèles d'apprentissage automatique traditionnels (comme les forêts aléatoires) sont entraînés à partir de zéro, rendant la performance de test fiable ; cependant, les LLMs peuvent avoir déjà vu les données pendant la période de test, ce qui entraîne des comparaisons injustes
  2. Erreur de jugement de la capacité de généralisation : Les « prédictions » basées sur la mémorisation surestiment la véritable capacité de généralisation du modèle
  3. Risques d'application pratique : Lors du déploiement dans des scénarios réels, la performance du modèle peut être bien inférieure aux attentes

Limitations des Méthodes Existantes

  • Les méthodes traditionnelles d'oubli automatique nécessitent un réentraînement ou un ajustement fin, avec des coûts de calcul élevés
  • Absence de méthodes efficaces pour simuler l'état de connaissance historique des LLMs
  • Les cadres d'évaluation existants ne tiennent pas suffisamment compte du problème de contamination temporelle

Motivation de la Recherche

Inspirés par les techniques d'oubli contextuel récemment émergentes, les auteurs proposent d'utiliser l'ingénierie des invites pour ajuster la date limite de connaissance des LLMs, les faisant « oublier » toutes les informations après une date spécifiée, réalisant ainsi une évaluation plus équitable des prédictions temporelles.

Contributions Principales

  1. Première étude systématique : Première évaluation systématique de l'efficacité de la simulation des dates limites de connaissance des LLMs par le biais d'invites
  2. Cadre d'évaluation multidimensionnel : Construction de trois ensembles de données de différentes dimensions pour évaluer complètement la capacité d'oubli :
    • Sous-ensemble factuel : oubli de connaissances factuelles directes
    • Sous-ensemble sémantique : oubli de changements sémantiques
    • Sous-ensemble contrefactuel : oubli de connaissances causalement pertinentes
  3. Découvertes importantes : Révélation des limitations de l'oubli provoqué — la performance diminue significativement dans les scénarios de raisonnement causal
  4. Référence d'évaluation : Fourniture d'ensembles de données de haute qualité et de code d'évaluation, jetant les bases pour les recherches futures
  5. Orientation pratique : Fourniture de conseils méthodologiques pour l'évaluation rigoureuse des tâches de prédiction temporelle des LLMs

Détails de la Méthode

Définition de la Tâche

Entrée : Requête utilisateur + invite système simulant une date limite de connaissance Sortie : Réponse conforme à l'état de connaissance de la date limite spécifiée Contrainte : Le modèle devrait « oublier » toutes les informations après la date limite

Stratégies de Conception d'Invites

Invite P1 : Type de Filtrage de Connaissance

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

Invite P2 : Type de Contrainte de Raisonnement

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

Conception de la Méthode d'Évaluation

Calcul du Taux de Succès d'Oubli

Pour les sous-ensembles factuel et contrefactuel, un format de questions à choix multiples est utilisé, le succès d'oubli étant défini comme le changement de réponse originale du modèle.

Pour le sous-ensemble sémantique, la similarité sémantique est utilisée : Succeˋs=cos(oa,ya)cos(oa,ya)+cos(oa,yb)>cos(ob,ya)cos(ob,ya)+cos(ob,yb)\text{Succès} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}

oa,obo_a, o_b sont respectivement les sorties avant et après l'oubli, et ya,yby_a, y_b sont les réponses vraies avant et après la date limite.

Configuration Expérimentale

Construction de l'Ensemble de Données

Sous-ensemble Factuel (675 échantillons)

  • Objectif : Évaluer l'oubli de connaissances factuelles directes
  • Méthode de construction : Utilisation de GPT-4o pour générer des événements historiques majeurs depuis 1960 et les paires de questions-réponses correspondantes
  • Période couverte : 1960-2024
  • Exemple : Interroger le président américain à un moment donné, devrait répondre celui en fonction à ce moment plutôt que l'actuel

Sous-ensemble Sémantique (303 échantillons)

  • Objectif : Évaluer l'oubli des changements sémantiques de vocabulaire
  • Méthode de construction : Collecte de vocabulaire ayant subi des changements sémantiques, comme « TikTok » passant d'une onomatopée à une plateforme de médias sociaux
  • Période couverte : 2000-2024
  • Évaluation : Utilisation du modèle MPNet pour calculer la similarité sémantique

Sous-ensemble Contrefactuel (689 échantillons)

  • Objectif : Évaluer l'oubli de connaissances causalement pertinentes
  • Méthode de construction : Construction de scénarios de prédiction contrefactuelle basés sur des événements majeurs
  • Période couverte : 2000-2024
  • Exemple : Avec une date limite de 2018, prédire l'année de tenue des Jeux olympiques de Tokyo (devrait répondre 2020 plutôt que 2021 réel)

Modèles Expérimentaux

  • DeepSeek-V3 : Dernier modèle open-source
  • LLaMA-3.1-405B : Modèle à grande échelle de Meta
  • GPT-4o : Modèle multimodal d'OpenAI
  • DeepSeek-R1 & OpenAI o3 : Modèles améliorés par le raisonnement (expériences comparatives)

Indicateurs d'Évaluation

  • Indicateur principal : Taux de succès d'oubli (Unlearn Success Rate)
  • Mode de calcul : Nombre d'échantillons oubliés avec succès / Nombre total d'échantillons

Résultats Expérimentaux

Résultats Principaux

ModèleFactuelSémantiqueContrefactuel
DeepSeek-V379,0%57,5%13,9%
LLaMA-3.1-405B82,4%80,4%26,5%
GPT-4o86,0%72,0%17,3%
Moyenne82,5%70,0%19,2%

Découvertes Clés

  1. Efficacité des requêtes directes : Taux de succès moyen de 82,5% pour le sous-ensemble factuel, indiquant que l'oubli provoqué est relativement efficace pour les requêtes de faits directs
  2. Oubli sémantique modéré : Taux de succès moyen de 70,0% pour le sous-ensemble sémantique, montrant que le modèle peut dans une certaine mesure revenir aux significations historiques du vocabulaire
  3. Difficulté du raisonnement causal : Taux de succès de seulement 19,2% pour le sous-ensemble contrefactuel, révélant une limitation importante de l'oubli provoqué
  4. Avantage des modèles de raisonnement : Les modèles améliorés par le raisonnement (DeepSeek-R1 : 71,2%, OpenAI o3 : 50,6%) surpassent significativement les modèles ordinaires sur le sous-ensemble contrefactuel

Analyse d'Ablation

Comparaison des Stratégies d'Invites

  • Les stratégies d'invites P1 et P2 montrent des performances similaires sur différents sous-ensembles
  • Cela suggère que la formulation spécifique de l'invite a un impact limité sur l'effet d'oubli

Différences de Capacité des Modèles

  • LLaMA-3.1-405B affiche les meilleures performances sur le sous-ensemble sémantique (80,4%)
  • GPT-4o est en tête sur le sous-ensemble factuel (86,0%)
  • Tous les modèles affichent de faibles performances sur le sous-ensemble contrefactuel

Travaux Connexes

Domaine de l'Oubli Automatique

  • Méthodes traditionnelles : Réalisation de l'oubli de données spécifiques par réentraînement ou ajustement de paramètres
  • Oubli conceptuel : Faire oublier au modèle des concepts spécifiques plutôt que des points de données
  • Oubli contextuel : Réalisation de l'oubli par le biais d'invites, avec faible coût de calcul

Applications de Prédiction Temporelle des LLMs

  • Scénarios d'application : Prévisions météorologiques, prédictions de cours d'actions, prédictions de trafic, prédictions d'événements politiques
  • Types de méthodes : Apprentissage zéro-shot, ajustement fin, apprentissage en contexte
  • Défis : La contamination des données entraîne une évaluation injuste

Recherche sur la Contamination des Données

  • Identification du problème : Les LLMs peuvent mémoriser des échantillons de test dans les données d'entraînement
  • Méthodes de détection : Identification de la contamination potentielle par analyse statistique
  • Stratégies d'atténuation : L'oubli provoqué proposé dans cet article est une tentative novatrice

Conclusion et Discussion

Conclusions Principales

  1. Efficacité partielle : L'oubli provoqué fonctionne bien pour les requêtes de faits directs, mais son efficacité est limitée dans les scénarios nécessitant un raisonnement causal
  2. Dépendance au raisonnement : La prédiction contrefactuelle nécessite une puissante capacité de raisonnement causal, que les simples contraintes d'invites ne peuvent pas réaliser
  3. Nécessité de l'évaluation : Les résultats de la recherche soulignent l'importance d'une évaluation rigoureuse dans les tâches de prédiction temporelle des LLMs

Limitations

  1. Limitation de la méthode : Exploration uniquement de l'oubli basé sur les invites, sans exploration d'autres techniques d'oubli
  2. Échelle des données : Taille d'ensemble de données relativement petite en raison des limitations des ressources de calcul
  3. Absence d'horodatage : L'absence d'horodatage dans les données de préentraînement peut affecter l'effet d'oubli
  4. Ajustement d'instructions : Les modèles peuvent ne pas avoir été spécialement entraînés sur les invites de date limite de connaissance

Directions Futures

  1. Ajustement d'instructions : Ajustement fin spécialisé des modèles sur les invites de date limite de connaissance
  2. Méthodes hybrides : Techniques d'oubli combinant invites et ajustement de paramètres
  3. Évaluation à plus grande échelle : Construction d'ensembles de données d'évaluation plus grands et plus diversifiés
  4. Applications en temps réel : Exploration de l'efficacité dans les tâches réelles de prédiction temporelle

Évaluation Approfondie

Points Forts

  1. Importance du problème : Résout un problème clé dans l'évaluation des prédictions temporelles des LLMs, avec une valeur pratique importante
  2. Nouveauté de la méthode : Première étude systématique de l'application de l'oubli provoqué aux connaissances temporelles, ouvrant une nouvelle direction de recherche
  3. Complétude de l'évaluation : Conception raisonnable d'ensembles de données à trois dimensions, évaluant complètement différents types de capacités d'oubli
  4. Rigueur expérimentale :
    • Comparaison multi-modèles validant la fiabilité des résultats
    • Processus détaillés de construction et de post-traitement des données
    • La comparaison des modèles de raisonnement fournit des perspectives approfondies
  5. Ressources ouvertes : Fourniture d'ensembles de données complets et de code d'évaluation, favorisant les recherches ultérieures

Insuffisances

  1. Compréhension insuffisante du mécanisme d'oubli : Manque d'analyse approfondie sur les raisons pour lesquelles certains types d'oubli sont plus difficiles
  2. Optimisation d'invites limitée : Seulement deux stratégies d'invites testées, il peut exister des conceptions d'invites plus efficaces
  3. Indicateurs d'évaluation uniques : Dépendance principalement du taux de succès, manque d'évaluation granulaire du degré d'oubli
  4. Validation d'application pratique : Manque de vérification de l'efficacité dans les tâches réelles de prédiction temporelle
  5. Analyse des coûts de calcul : Pas d'analyse de l'avantage d'efficacité de calcul de l'oubli provoqué par rapport aux méthodes traditionnelles

Impact

  1. Contribution académique : Fournit une nouvelle perspective et une référence pour la recherche sur l'oubli des LLMs, devrait promouvoir le développement de recherches connexes
  2. Valeur pratique : Fournit un cadre d'évaluation important pour l'application industrielle des LLMs dans les prédictions temporelles
  3. Signification méthodologique : Souligne l'importance de considérer les facteurs temporels dans l'évaluation des systèmes d'IA
  4. Reproductibilité : Les ressources open-source complètes garantissent la reproductibilité et l'extensibilité de la recherche

Scénarios Applicables

  1. Prédiction financière : Évaluation équitable des prédictions de cours d'actions et de tendances de marché
  2. Prédiction d'événements : Prédictions d'élections politiques, d'événements sportifs, etc.
  3. Évaluation de modèles : Évaluation de toute application LLM impliquant des séries chronologiques
  4. Référence de recherche : Ensemble de données de référence pour l'évaluation d'autres techniques d'oubli

Références

Cet article cite des travaux importants dans les domaines connexes de l'oubli automatique, de la prédiction temporelle des LLMs et de la contamination des données, notamment :

  • Bourtoule et al. (2019) : Travail fondateur sur l'oubli automatique
  • Brown et al. (2020) : GPT-3 et apprentissage en contexte
  • Pawelczyk et al. (2024) : Techniques d'oubli contextuel
  • Roberts et al. (2024) : Étude longitudinale de la contamination des données LLM

Évaluation Globale : Ceci est un article de recherche de haute qualité qui résout un problème important dans l'application des LLMs. Bien que l'efficacité soit limitée dans l'oubli du raisonnement causal, il fournit un travail fondamental important et un cadre d'évaluation pour ce domaine. La méthode de recherche est rigoureuse, la conception expérimentale est raisonnable, et elle a une valeur importante pour le monde académique et l'industrie.