Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Gao, Zhang, Du et al.
Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
academic
Les Invites Peuvent-elles Rembobiner le Temps pour les LLMs ? Évaluation de l'Efficacité des Dates Limites de Connaissance Provoquées
Les grands modèles de langage (LLMs) sont largement utilisés dans les tâches de prédiction temporelle, mais leur dépendance aux données d'entraînement soulève des préoccupations concernant la contamination des données, car les prédictions précises sur les données de test antérieures à la date limite de préentraînement pourraient refléter la mémorisation plutôt que le raisonnement, ce qui entraîne une surestimation de leur capacité de généralisation. Avec l'émergence de techniques d'oubli basées sur les invites, une question naturelle se pose : est-il possible de faire simuler aux LLMs une date limite de connaissance antérieure par le biais d'invites ? Cette étude enquête sur la capacité des invites à simuler des dates limites de connaissance antérieures, en construisant trois ensembles de données d'évaluation pour évaluer le degré d'oubli des LLMs concernant (1) les connaissances factuelles directes, (2) les changements sémantiques et (3) les connaissances causalement pertinentes. Les résultats montrent que bien que la simulation provoquée de dates limites de connaissance soit efficace lors de requêtes directes d'informations postérieures à cette date, elle a du mal à induire l'oubli lorsque le contenu à oublier n'est pas directement interrogé mais est causalement pertinent pour la requête.
Le problème central que cette recherche vise à résoudre est l'impact de la contamination des données sur l'évaluation des tâches de prédiction temporelle des LLMs. Lorsque les LLMs sont utilisés pour des tâches de séries chronologiques telles que la prédiction d'actions ou d'événements, le modèle peut avoir déjà vu les données de test pendant la phase de préentraînement, ce qui entraîne une surestimation de la performance prédictive.
Crédibilité de l'évaluation : Les modèles d'apprentissage automatique traditionnels (comme les forêts aléatoires) sont entraînés à partir de zéro, rendant la performance de test fiable ; cependant, les LLMs peuvent avoir déjà vu les données pendant la période de test, ce qui entraîne des comparaisons injustes
Erreur de jugement de la capacité de généralisation : Les « prédictions » basées sur la mémorisation surestiment la véritable capacité de généralisation du modèle
Risques d'application pratique : Lors du déploiement dans des scénarios réels, la performance du modèle peut être bien inférieure aux attentes
Inspirés par les techniques d'oubli contextuel récemment émergentes, les auteurs proposent d'utiliser l'ingénierie des invites pour ajuster la date limite de connaissance des LLMs, les faisant « oublier » toutes les informations après une date spécifiée, réalisant ainsi une évaluation plus équitable des prédictions temporelles.
Première étude systématique : Première évaluation systématique de l'efficacité de la simulation des dates limites de connaissance des LLMs par le biais d'invites
Cadre d'évaluation multidimensionnel : Construction de trois ensembles de données de différentes dimensions pour évaluer complètement la capacité d'oubli :
Sous-ensemble factuel : oubli de connaissances factuelles directes
Sous-ensemble sémantique : oubli de changements sémantiques
Sous-ensemble contrefactuel : oubli de connaissances causalement pertinentes
Découvertes importantes : Révélation des limitations de l'oubli provoqué — la performance diminue significativement dans les scénarios de raisonnement causal
Référence d'évaluation : Fourniture d'ensembles de données de haute qualité et de code d'évaluation, jetant les bases pour les recherches futures
Orientation pratique : Fourniture de conseils méthodologiques pour l'évaluation rigoureuse des tâches de prédiction temporelle des LLMs
Entrée : Requête utilisateur + invite système simulant une date limite de connaissance
Sortie : Réponse conforme à l'état de connaissance de la date limite spécifiée
Contrainte : Le modèle devrait « oublier » toutes les informations après la date limite
You must answer this question using only knowledge that was publicly available before the year {unlearn_year}.
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.
You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}.
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.
Pour les sous-ensembles factuel et contrefactuel, un format de questions à choix multiples est utilisé, le succès d'oubli étant défini comme le changement de réponse originale du modèle.
Pour le sous-ensemble sémantique, la similarité sémantique est utilisée :
Succeˋs=cos(oa,ya)+cos(oa,yb)cos(oa,ya)>cos(ob,ya)+cos(ob,yb)cos(ob,ya)
où oa,ob sont respectivement les sorties avant et après l'oubli, et ya,yb sont les réponses vraies avant et après la date limite.
Objectif : Évaluer l'oubli de connaissances factuelles directes
Méthode de construction : Utilisation de GPT-4o pour générer des événements historiques majeurs depuis 1960 et les paires de questions-réponses correspondantes
Période couverte : 1960-2024
Exemple : Interroger le président américain à un moment donné, devrait répondre celui en fonction à ce moment plutôt que l'actuel
Objectif : Évaluer l'oubli des changements sémantiques de vocabulaire
Méthode de construction : Collecte de vocabulaire ayant subi des changements sémantiques, comme « TikTok » passant d'une onomatopée à une plateforme de médias sociaux
Période couverte : 2000-2024
Évaluation : Utilisation du modèle MPNet pour calculer la similarité sémantique
Efficacité des requêtes directes : Taux de succès moyen de 82,5% pour le sous-ensemble factuel, indiquant que l'oubli provoqué est relativement efficace pour les requêtes de faits directs
Oubli sémantique modéré : Taux de succès moyen de 70,0% pour le sous-ensemble sémantique, montrant que le modèle peut dans une certaine mesure revenir aux significations historiques du vocabulaire
Difficulté du raisonnement causal : Taux de succès de seulement 19,2% pour le sous-ensemble contrefactuel, révélant une limitation importante de l'oubli provoqué
Avantage des modèles de raisonnement : Les modèles améliorés par le raisonnement (DeepSeek-R1 : 71,2%, OpenAI o3 : 50,6%) surpassent significativement les modèles ordinaires sur le sous-ensemble contrefactuel
Efficacité partielle : L'oubli provoqué fonctionne bien pour les requêtes de faits directs, mais son efficacité est limitée dans les scénarios nécessitant un raisonnement causal
Dépendance au raisonnement : La prédiction contrefactuelle nécessite une puissante capacité de raisonnement causal, que les simples contraintes d'invites ne peuvent pas réaliser
Nécessité de l'évaluation : Les résultats de la recherche soulignent l'importance d'une évaluation rigoureuse dans les tâches de prédiction temporelle des LLMs
Importance du problème : Résout un problème clé dans l'évaluation des prédictions temporelles des LLMs, avec une valeur pratique importante
Nouveauté de la méthode : Première étude systématique de l'application de l'oubli provoqué aux connaissances temporelles, ouvrant une nouvelle direction de recherche
Complétude de l'évaluation : Conception raisonnable d'ensembles de données à trois dimensions, évaluant complètement différents types de capacités d'oubli
Rigueur expérimentale :
Comparaison multi-modèles validant la fiabilité des résultats
Processus détaillés de construction et de post-traitement des données
La comparaison des modèles de raisonnement fournit des perspectives approfondies
Ressources ouvertes : Fourniture d'ensembles de données complets et de code d'évaluation, favorisant les recherches ultérieures
Compréhension insuffisante du mécanisme d'oubli : Manque d'analyse approfondie sur les raisons pour lesquelles certains types d'oubli sont plus difficiles
Optimisation d'invites limitée : Seulement deux stratégies d'invites testées, il peut exister des conceptions d'invites plus efficaces
Indicateurs d'évaluation uniques : Dépendance principalement du taux de succès, manque d'évaluation granulaire du degré d'oubli
Validation d'application pratique : Manque de vérification de l'efficacité dans les tâches réelles de prédiction temporelle
Analyse des coûts de calcul : Pas d'analyse de l'avantage d'efficacité de calcul de l'oubli provoqué par rapport aux méthodes traditionnelles
Contribution académique : Fournit une nouvelle perspective et une référence pour la recherche sur l'oubli des LLMs, devrait promouvoir le développement de recherches connexes
Valeur pratique : Fournit un cadre d'évaluation important pour l'application industrielle des LLMs dans les prédictions temporelles
Signification méthodologique : Souligne l'importance de considérer les facteurs temporels dans l'évaluation des systèmes d'IA
Reproductibilité : Les ressources open-source complètes garantissent la reproductibilité et l'extensibilité de la recherche
Cet article cite des travaux importants dans les domaines connexes de l'oubli automatique, de la prédiction temporelle des LLMs et de la contamination des données, notamment :
Bourtoule et al. (2019) : Travail fondateur sur l'oubli automatique
Brown et al. (2020) : GPT-3 et apprentissage en contexte
Pawelczyk et al. (2024) : Techniques d'oubli contextuel
Roberts et al. (2024) : Étude longitudinale de la contamination des données LLM
Évaluation Globale : Ceci est un article de recherche de haute qualité qui résout un problème important dans l'application des LLMs. Bien que l'efficacité soit limitée dans l'oubli du raisonnement causal, il fournit un travail fondamental important et un cadre d'évaluation pour ce domaine. La méthode de recherche est rigoureuse, la conception expérimentale est raisonnable, et elle a une valeur importante pour le monde académique et l'industrie.