Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Gao, Zhang, Du et al.
Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.
대규모 언어 모델(LLM)은 시간 예측 작업에 광범위하게 적용되고 있으나, 사전학습 데이터에 대한 의존성으로 인해 데이터 오염 문제가 야기된다. 사전학습 기한 이전의 테스트 데이터에 대한 정확한 예측은 추론이 아닌 기억을 반영할 수 있으므로 일반화 능력을 과대평가할 수 있다. 프롬프트 기반 망각 기술의 등장으로, 프롬프트를 통해 LLM이 더 이른 지식 기한을 모방할 수 있는지가 자연스러운 질문으로 제기된다. 본 연구는 프롬프트 기반 초기 지식 기한 모방 능력을 조사하고, LLM이 (1) 직접적인 사실 지식, (2) 의미론적 변화, (3) 인과관계 관련 지식을 망각하는 정도를 평가하기 위해 세 개의 평가 데이터셋을 구축했다. 결과는 프롬프트 기반 지식 기한 모방이 해당 날짜 이후의 정보를 직접 조회할 때는 효과적이지만, 망각해야 할 내용이 직접 질문되지 않고 쿼리와 인과관계가 있을 때는 망각을 유도하기 어렵다는 것을 보여준다.
You must answer this question using only knowledge that was publicly available before the year {unlearn_year}.
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.
You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}.
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.
본 논문은 기계 망각, LLM 시간 예측, 데이터 오염 등 관련 분야의 중요한 연구를 인용하고 있으며, 다음을 포함한다:
Bourtoule et al. (2019): 기계 망각의 기초 연구
Brown et al. (2020): GPT-3 및 문맥 학습
Pawelczyk et al. (2024): 문맥 망각 기술
Roberts et al. (2024): LLM 데이터 오염의 종단 연구
종합 평가: 이는 LLM 응용의 중요한 문제를 해결하는 고품질 연구 논문이다. 인과 추론 망각 측면에서 효과가 제한적이지만, 해당 분야에 중요한 기초 작업과 평가 프레임워크를 제공한다. 연구 방법이 엄격하고 실험 설계가 합리적이며, 학계와 산업계 모두에 중요한 가치를 가진다.