2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.

Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.

academic

프롬프트가 LLM의 시간을 되돌릴 수 있을까? 프롬프트 기반 지식 기한의 효과성 평가

기본 정보

논문 ID: 2510.02340
제목: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
저자: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
기관: UC San Diego, SUNY Buffalo
분류: cs.CL cs.LG
발표 시간: 2025년 10월 15일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2510.02340

초록

대규모 언어 모델(LLM)은 시간 예측 작업에 광범위하게 적용되고 있으나, 사전학습 데이터에 대한 의존성으로 인해 데이터 오염 문제가 야기된다. 사전학습 기한 이전의 테스트 데이터에 대한 정확한 예측은 추론이 아닌 기억을 반영할 수 있으므로 일반화 능력을 과대평가할 수 있다. 프롬프트 기반 망각 기술의 등장으로, 프롬프트를 통해 LLM이 더 이른 지식 기한을 모방할 수 있는지가 자연스러운 질문으로 제기된다. 본 연구는 프롬프트 기반 초기 지식 기한 모방 능력을 조사하고, LLM이 (1) 직접적인 사실 지식, (2) 의미론적 변화, (3) 인과관계 관련 지식을 망각하는 정도를 평가하기 위해 세 개의 평가 데이터셋을 구축했다. 결과는 프롬프트 기반 지식 기한 모방이 해당 날짜 이후의 정보를 직접 조회할 때는 효과적이지만, 망각해야 할 내용이 직접 질문되지 않고 쿼리와 인과관계가 있을 때는 망각을 유도하기 어렵다는 것을 보여준다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는 LLM의 시간 예측 작업 평가에 미치는 데이터 오염의 영향이다. LLM이 주식 예측, 사건 예측 등 시계열 작업에 사용될 때, 모델이 사전학습 단계에서 이미 테스트 데이터를 접했을 수 있으므로 예측 성능이 과대평가될 수 있다.

문제의 중요성

평가 신뢰성: 전통적인 기계학습 모델(예: 랜덤 포레스트)은 처음부터 학습되므로 테스트 성능이 신뢰할 수 있으나, LLM은 테스트 기간의 데이터를 이미 접했을 수 있어 부공정한 비교를 초래한다.
일반화 능력 오판: 기억에 기반한 "예측"은 모델의 실제 일반화 능력을 과대평가한다.
실제 응용 위험: 실제 시나리오에 배포할 때 모델 성능이 예상보다 훨씬 낮을 수 있다.

기존 방법의 한계

전통적인 기계 망각 방법은 재학습이나 미세조정이 필요하여 계산 비용이 높다.
LLM의 역사적 지식 상태를 모방할 효과적인 방법이 부족하다.
기존 평가 프레임워크는 시간 오염 문제를 충분히 고려하지 않는다.

연구 동기

최근 등장한 문맥 망각 기술에서 영감을 받아, 저자들은 프롬프트 엔지니어링을 통해 LLM의 지식 기한을 조정하여 지정된 날짜 이후의 모든 정보를 "망각"하게 함으로써 더욱 공정한 시간 예측 평가를 실현할 것을 제안한다.

핵심 기여

최초의 체계적 연구: 프롬프트를 통한 LLM 지식 기한 모방의 효과성을 최초로 체계적으로 평가했다.
다차원 평가 프레임워크: 망각 능력을 포괄적으로 평가하기 위해 세 가지 다른 차원의 데이터셋을 구축했다:
- Factual subset: 직접적인 사실 지식 망각
- Semantic subset: 의미론적 변화 망각
- Counterfactual subset: 인과관계 관련 지식 망각
중요한 발견: 프롬프트 망각의 한계를 밝혔다 — 인과 추론 시나리오에서 성능이 현저히 저하된다.
평가 벤치마크: 고품질 데이터셋과 평가 코드를 제공하여 향후 연구의 기초를 마련했다.
실용적 지침: LLM 시간 예측 작업의 엄격한 평가를 위한 방법론적 지침을 제공했다.

방법론 상세 설명

작업 정의

입력: 사용자 쿼리 + 모의 지식 기한의 시스템 프롬프트 출력: 지정된 기한의 지식 상태에 부합하는 답변 제약: 모델은 기한 이후의 모든 정보를 "망각"해야 한다.

프롬프트 설계 전략

프롬프트 P1: 지식 필터링 유형

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

프롬프트 P2: 추론 제약 유형

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

평가 방법 설계

망각 성공률 계산

Factual 및 Counterfactual 부분집합의 경우, 객관식 형식을 사용하며 망각 성공은 모델이 원래 답변을 변경하는 것으로 정의된다.

Semantic 부분집합의 경우, 의미론적 유사도를 사용한다: $\text{Success} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}$

여기서 $o_a, o_b$ 는 각각 망각 전후의 출력이고, $y_a, y_b$ 는 기한 전후의 실제 답변이다.

실험 설정

데이터셋 구축

Factual Subset (675개 샘플)

목표: 직접적인 사실 지식 망각 평가
구축 방법: GPT-4o를 사용하여 1960년 이후의 주요 역사 사건 및 대응 Q&A 쌍 생성
시간 범위: 1960-2024년
예시: 특정 시점의 미국 대통령을 질문하면 당시 재임자를 답변해야 하며 현직자가 아니어야 한다.

Semantic Subset (303개 샘플)

목표: 어휘 의미론적 변화 망각 평가
구축 방법: 의미가 변한 어휘를 수집 (예: "TikTok"이 의성어에서 소셜 플랫폼으로 변화)
시간 범위: 2000-2024년
평가: MPNet 모델을 사용하여 의미론적 유사도 계산

Counterfactual Subset (689개 샘플)

목표: 인과관계 관련 지식 망각 평가
구축 방법: 주요 사건을 기반으로 반사실적 예측 시나리오 구축
시간 범위: 2000-2024년
예시: 2018년 기한 하에서 도쿄 올림픽 개최 연도 예측 (2021년 실제가 아닌 2020년으로 답변해야 함)

실험 모델

DeepSeek-V3: 최신 오픈소스 모델
LLaMA-3.1-405B: Meta의 대규모 모델
GPT-4o: OpenAI의 멀티모달 모델
DeepSeek-R1 & OpenAI o3: 추론 강화 모델 (비교 실험)

평가 지표

주요 지표: 망각 성공률(Unlearn Success Rate)
계산 방식: 성공적으로 망각한 샘플 수 / 전체 샘플 수

실험 결과

주요 결과

모델	Factual	Semantic	Counterfactual
DeepSeek-V3	79.0%	57.5%	13.9%
LLaMA-3.1-405B	82.4%	80.4%	26.5%
GPT-4o	86.0%	72.0%	17.3%
평균	82.5%	70.0%	19.2%

주요 발견

직접 쿼리의 효과성: Factual 부분집합의 평균 성공률 82.5%는 프롬프트 망각이 직접적인 사실 조회에서 상당히 효과적임을 나타낸다.
의미론적 망각의 중간 수준: Semantic 부분집합의 평균 성공률 70.0%는 모델이 어휘의 역사적 의미로 어느 정도 회귀할 수 있음을 보여준다.
인과 추론의 어려움: Counterfactual 부분집합의 19.2% 성공률은 프롬프트 망각의 중요한 한계를 드러낸다.
추론 모델의 우위: 추론 강화 모델(DeepSeek-R1: 71.2%, OpenAI o3: 50.6%)은 Counterfactual 부분집합에서 일반 모델보다 현저히 우수하다.

제거 분석

프롬프트 전략 비교

P1과 P2 프롬프트 전략은 다양한 부분집합에서 유사한 성능을 보인다.
구체적인 프롬프트 표현이 망각 효과에 미치는 영향이 제한적임을 시사한다.

모델 능력 차이

LLaMA-3.1-405B는 Semantic 부분집합에서 최고 성능(80.4%)을 보인다.
GPT-4o는 Factual 부분집합에서 선도(86.0%)한다.
모든 모델은 Counterfactual 부분집합에서 저조한 성능을 보인다.

결론 및 논의

주요 결론

부분적 효과성: 프롬프트 망각은 직접적인 사실 조회에서 양호한 성능을 보이지만, 인과 추론이 필요한 시나리오에서는 효과가 제한적이다.
추론 의존성: 반사실적 예측은 강력한 인과 추론 능력을 필요로 하며, 단순한 프롬프트 제약만으로는 이를 실현하기 어렵다.
평가의 필요성: 연구 결과는 LLM 시간 예측 작업에서 엄격한 평가의 중요성을 강조한다.

한계

방법론적 한계: 프롬프트 기반 망각만 탐구했으며 다른 망각 기술은 포함하지 않았다.
데이터 규모: 계산 자원의 제약으로 인해 데이터셋 규모가 상대적으로 작다.
타임스탬프 부재: 사전학습 데이터의 타임스탬프 부재가 망각 효과에 영향을 미칠 수 있다.
지시 미세조정: 모델이 지식 기한 프롬프트에 대해 특별히 학습되지 않았을 수 있다.

향후 방향

지시 미세조정: 지식 기한 프롬프트에 대한 모델의 전문 미세조정
혼합 방법: 프롬프트와 매개변수 조정을 결합한 망각 기술
대규모 평가: 더 큰 규모의 다양한 평가 데이터셋 구축
실시간 응용: 실제 시간 예측 작업에서의 응용 효과 탐구

심층 평가

장점

문제의 중요성: LLM 시간 예측 평가의 핵심 문제를 해결하며 중요한 실용 가치를 가진다.
방법론의 참신성: 프롬프트 망각을 시간 지식에 처음으로 체계적으로 연구하여 새로운 연구 방향을 개척했다.
평가의 포괄성: 세 가지 차원의 데이터셋 설계가 합리적이며 다양한 유형의 망각 능력을 포괄적으로 평가한다.
실험의 엄격성:
- 다중 모델 비교로 결과 신뢰성 검증
- 상세한 데이터 구축 및 후처리 절차
- 추론 모델 비교로 심층적 통찰 제공
자원 개방: 완전한 데이터셋과 평가 코드를 제공하여 후속 연구를 촉진한다.

부족한 점

망각 메커니즘 이해 부족: 특정 유형의 망각이 더 어려운 이유에 대한 심층 분석이 부족하다.
프롬프트 최적화 제한: 두 가지 프롬프트 전략만 테스트했으며 더 효과적인 프롬프트 설계가 존재할 수 있다.
평가 지표의 단순성: 주로 성공률에 의존하며 망각 정도에 대한 세밀한 평가가 부족하다.
실제 응용 검증 부재: 실제 시간 예측 작업에서의 효과 검증이 부족하다.
계산 비용 분석 부재: 프롬프트 망각과 전통적 방법의 계산 효율성 우위 분석이 없다.

영향력

학술적 기여: LLM 망각 연구에 새로운 관점과 벤치마크를 제공하여 관련 연구 발전을 촉진할 것으로 예상된다.
실용적 가치: 산업계에서 LLM을 시간 예측에 적용할 때 중요한 평가 프레임워크를 제공한다.
방법론적 의의: AI 시스템 평가에서 시간 요소를 고려하는 것의 중요성을 강조한다.
재현성: 완전한 오픈소스 자원으로 연구의 재현성과 확장성을 보장한다.

적용 시나리오

금융 예측: 주가, 시장 동향 예측의 공정한 평가
사건 예측: 정치 선거, 스포츠 경기 등 사건 예측
모델 평가: 시계열을 포함하는 모든 LLM 응용 평가
연구 벤치마크: 다른 망각 기술 평가의 벤치마크 데이터셋

참고문헌

본 논문은 기계 망각, LLM 시간 예측, 데이터 오염 등 관련 분야의 중요한 연구를 인용하고 있으며, 다음을 포함한다:

Bourtoule et al. (2019): 기계 망각의 기초 연구
Brown et al. (2020): GPT-3 및 문맥 학습
Pawelczyk et al. (2024): 문맥 망각 기술
Roberts et al. (2024): LLM 데이터 오염의 종단 연구

종합 평가: 이는 LLM 응용의 중요한 문제를 해결하는 고품질 연구 논문이다. 인과 추론 망각 측면에서 효과가 제한적이지만, 해당 분야에 중요한 기초 작업과 평가 프레임워크를 제공한다. 연구 방법이 엄격하고 실험 설계가 합리적이며, 학계와 산업계 모두에 중요한 가치를 가진다.