2025-11-18T08:22:12.824474

Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs

Gao, Zhang, Du et al.

Large Language Models (LLMs) are widely used for temporal prediction, but their reliance on pretraining data raises contamination concerns, as accurate predictions on pre-cutoff test data may reflect memorization rather than reasoning, leading to an overestimation of their generalization capability. With the recent emergence of prompting-based unlearning techniques, a natural question arises: Can LLMs be prompted to simulate an earlier knowledge cutoff? In this work, we investigate the capability of prompting to simulate earlier knowledge cutoff in LLMs. We construct three evaluation datasets to assess the extent to which LLMs can forget (1) direct factual knowledge, (2) semantic shifts, and (3) causally related knowledge. Results demonstrate that while prompt-based simulated knowledge cutoffs show effectiveness when directly queried with the information after that date, they struggle to induce forgetting when the forgotten content is not directly asked but causally related to the query. These findings highlight the need for more rigorous evaluation settings when applying LLMs for temporal prediction tasks. The full dataset and evaluation code are available at https://github.com/gxx27/time_unlearn.

academic

Могут ли подсказки повернуть время вспять для LLM? Оценка эффективности подсказанных сроков знаний

Основная информация

ID статьи: 2510.02340
Название: Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs
Авторы: Xin Gao, Ruiyi Zhang, Daniel Du, Saurabh Mahindre, Sai Ashish Somayajula, Pengtao Xie
Учреждения: UC San Diego, SUNY Buffalo
Классификация: cs.CL cs.LG
Дата публикации: 15 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.02340

Аннотация

Большие языковые модели (LLM) широко применяются в задачах временного прогнозирования, однако их зависимость от данных предварительного обучения вызывает опасения по поводу загрязнения данных, поскольку точные предсказания на тестовых данных, предшествующих дате отсечки предварительного обучения, могут отражать запоминание, а не рассуждение, что приводит к переоценке способности к обобщению. С появлением методов забывания на основе подсказок возникает естественный вопрос: можно ли использовать подсказки, чтобы заставить LLM имитировать более ранние сроки знаний? Данное исследование изучает способность подсказок имитировать ранние сроки знаний и создает три набора данных для оценки для оценки степени забывания LLM (1) прямого фактического знания, (2) семантических изменений и (3) причинно-связанного знания. Результаты показывают, что хотя имитация сроков знаний на основе подсказок эффективна при прямых запросах информации после этой даты, она с трудом вызывает забывание, когда забываемое содержание не запрашивается напрямую, а причинно связано с запросом.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование, — это влияние загрязнения данных на оценку задач временного прогнозирования LLM. Когда LLM используются для прогнозирования акций, прогнозирования событий и других задач временных рядов, модель может уже видеть тестовые данные на этапе предварительного обучения, что приводит к переоценке производительности прогнозирования.

Важность проблемы

Надежность оценки: Традиционные модели машинного обучения (например, случайные леса) обучаются с нуля, поэтому производительность тестирования надежна; однако LLM могут уже видеть данные в период тестирования, что приводит к несправедливому сравнению
Неправильная оценка способности к обобщению: "Прогнозы" на основе запоминания переоценивают истинную способность модели к обобщению
Риски практического применения: При развертывании в реальных сценариях производительность модели может быть намного ниже ожидаемой

Ограничения существующих методов

Традиционные методы машинного забывания требуют переобучения или тонкой настройки, что требует больших вычислительных затрат
Отсутствуют эффективные методы для имитации исторического состояния знаний LLM
Существующие рамки оценки недостаточно учитывают проблему временного загрязнения

Исследовательская мотивация

Вдохновленные недавно появившимися методами контекстного забывания, авторы предлагают использовать инженерию подсказок для корректировки сроков знаний LLM, заставляя их "забыть" всю информацию после указанной даты, тем самым обеспечивая более справедливую оценку временного прогнозирования.

Основные вклады

Первое систематическое исследование: Первое систематическое изучение эффективности имитации сроков знаний LLM через подсказки
Многомерная рамка оценки: Создание трех наборов данных различных измерений для комплексной оценки способности к забыванию:
- Factual subset: забывание прямого фактического знания
- Semantic subset: забывание семантических изменений
- Counterfactual subset: забывание причинно-связанного знания
Важные выводы: Выявление ограничений забывания на основе подсказок — значительное снижение эффективности в сценариях причинного вывода
Оценочный эталон: Предоставление высококачественных наборов данных и кода оценки в качестве основы для будущих исследований
Практическое руководство: Предоставление методологического руководства для строгой оценки задач временного прогнозирования LLM

Подробное описание методов

Определение задачи

Входные данные: Пользовательский запрос + системная подсказка с имитируемым сроком знаний Выходные данные: Ответ, соответствующий состоянию знаний на указанную дату отсечки Ограничения: Модель должна "забыть" всю информацию после даты отсечки

Стратегии проектирования подсказок

Подсказка P1: Тип фильтрации знаний

You must answer this question using only knowledge that was publicly available before the year {unlearn_year}. 
Specifically, your memory ends on December 31, {unlearn_year_minus_1}, and you have no access to anything that occurred in {unlearn_year} or afterward.

Подсказка P2: Тип ограничения рассуждений

You may think step by step internally, but your memory ends on December 31, {unlearn_year_minus_1}. 
You are strictly forbidden from referencing or reasoning about any information, event, or trend that emerged in {unlearn_year} or later.

Проектирование методов оценки

Расчет коэффициента успешного забывания

Для подмножеств Factual и Counterfactual используется формат множественного выбора, где успешное забывание определяется как изменение исходного ответа модели.

Для подмножества Semantic используется семантическое сходство: $\text{Success} = \frac{\cos(o_a, y_a)}{\cos(o_a, y_a) + \cos(o_a, y_b)} > \frac{\cos(o_b, y_a)}{\cos(o_b, y_a) + \cos(o_b, y_b)}$

где $o_a, o_b$ — выходные данные до и после забывания соответственно, $y_a, y_b$ — истинные ответы до и после отсечки.

Экспериментальная установка

Построение набора данных

Подмножество Factual (675 образцов)

Цель: Оценка забывания прямого фактического знания
Метод построения: Использование GPT-4o для создания пар вопрос-ответ о крупных исторических событиях с 1960 года
Временной диапазон: 1960-2024 годы
Пример: Вопрос о президенте США в определенный момент времени должен быть ответом о том, кто был у власти в то время, а не о нынешнем президенте

Подмножество Semantic (303 образца)

Цель: Оценка забывания семантических изменений словарного запаса
Метод построения: Сбор слов с семантическими изменениями, таких как "TikTok" от звукоподражания к социальной платформе
Временной диапазон: 2000-2024 годы
Оценка: Использование модели MPNet для расчета семантического сходства

Подмножество Counterfactual (689 образцов)

Цель: Оценка забывания причинно-связанного знания
Метод построения: Построение контрфактических сценариев прогнозирования на основе крупных событий
Временной диапазон: 2000-2024 годы
Пример: При отсечке 2018 года прогнозирование года проведения Олимпийских игр в Токио (должен быть ответ 2020, а не фактический 2021)

Экспериментальные модели

DeepSeek-V3: Новейшая открытая модель
LLaMA-3.1-405B: Крупномасштабная модель Meta
GPT-4o: Мультимодальная модель OpenAI
DeepSeek-R1 и OpenAI o3: Модели с улучшенным рассуждением (сравнительные эксперименты)

Метрики оценки

Основная метрика: Коэффициент успешного забывания (Unlearn Success Rate)
Способ расчета: Количество успешно забытых образцов / Общее количество образцов

Результаты экспериментов

Основные результаты

Модель	Factual	Semantic	Counterfactual
DeepSeek-V3	79.0%	57.5%	13.9%
LLaMA-3.1-405B	82.4%	80.4%	26.5%
GPT-4o	86.0%	72.0%	17.3%
Среднее	82.5%	70.0%	19.2%

Ключевые выводы

Эффективность прямых запросов: Средний коэффициент успеха подмножества Factual составляет 82.5%, что указывает на относительную эффективность забывания на основе подсказок при прямых запросах фактов
Среднее семантическое забывание: Средний коэффициент успеха подмножества Semantic составляет 70.0%, что показывает, что модель может в определенной степени вернуться к историческому значению словарного запаса
Сложность причинного вывода: Подмножество Counterfactual показывает только 19.2% коэффициент успеха, выявляя важные ограничения забывания на основе подсказок
Преимущество моделей с рассуждением: Модели с улучшенным рассуждением (DeepSeek-R1: 71.2%, OpenAI o3: 50.6%) значительно превосходят обычные модели на подмножестве Counterfactual

Абляционный анализ

Сравнение стратегий подсказок

Стратегии подсказок P1 и P2 показывают сходную производительность на различных подмножествах
Это указывает на то, что конкретная формулировка подсказки оказывает ограниченное влияние на эффект забывания

Различия в способностях моделей

LLaMA-3.1-405B показывает лучшие результаты на подмножестве Semantic (80.4%)
GPT-4o лидирует на подмножестве Factual (86.0%)
Все модели показывают плохую производительность на подмножестве Counterfactual

Связанные работы

Область машинного забывания

Традиционные методы: Реализация забывания конкретных данных путем переобучения или корректировки параметров
Забывание концепций: Заставление модели забыть конкретные концепции, а не точки данных
Контекстное забывание: Реализация забывания через подсказки с низкими вычислительными затратами

Приложения временного прогнозирования LLM

Сценарии применения: Прогноз погоды, прогноз цен акций, прогноз трафика, прогноз политических событий
Типы методов: Обучение без примеров, тонкая настройка, контекстное обучение
Вызовы: Загрязнение данных приводит к несправедливой оценке

Исследования загрязнения данных

Выявление проблемы: LLM могут запомнить тестовые образцы в данных обучения
Методы обнаружения: Выявление потенциального загрязнения путем статистического анализа
Стратегии смягчения: Предложенное в данной статье забывание на основе подсказок является новым подходом

Выводы и обсуждение

Основные выводы

Частичная эффективность: Забывание на основе подсказок показывает хорошие результаты при прямых запросах фактов, но имеет ограниченную эффективность в сценариях, требующих причинного вывода
Зависимость от рассуждений: Контрфактическое прогнозирование требует сильных способностей причинного вывода, простые ограничения подсказок недостаточны
Необходимость строгой оценки: Результаты исследования подчеркивают важность проведения строгой оценки при использовании LLM для задач временного прогнозирования

Ограничения

Ограничения метода: Исследование охватывает только забывание на основе подсказок, не включая другие методы забывания
Размер данных: Из-за ограничений вычислительных ресурсов размер набора данных относительно небольшой
Отсутствие временных меток: Отсутствие временных меток в данных предварительного обучения может влиять на эффект забывания
Инструкционная тонкая настройка: Модели могут не пройти специальное обучение на подсказках сроков знаний

Направления будущих исследований

Инструкционная тонкая настройка: Специальная тонкая настройка моделей на подсказках сроков знаний
Гибридные методы: Методы забывания, сочетающие подсказки и корректировку параметров
Оценка в большем масштабе: Построение более крупных и разнообразных наборов данных для оценки
Практическое применение: Исследование эффектов в реальных задачах временного прогнозирования

Глубокая оценка

Преимущества

Важность проблемы: Решение ключевой проблемы в оценке временного прогнозирования LLM с важной практической ценностью
Новизна метода: Первое систематическое исследование применения забывания на основе подсказок к временному знанию, открывающее новое направление исследований
Полнота оценки: Разумное проектирование наборов данных трех измерений, комплексная оценка различных типов способности к забыванию
Строгость экспериментов:
- Сравнение нескольких моделей для проверки надежности результатов
- Подробные процессы построения и постобработки данных
- Сравнение моделей с рассуждением обеспечивает глубокие insights
Открытие ресурсов: Предоставление полных наборов данных и кода оценки для содействия последующим исследованиям

Недостатки

Недостаточное понимание механизма забывания: Отсутствие глубокого анализа причин, по которым некоторые типы забывания более сложны
Ограниченная оптимизация подсказок: Тестирование только двух стратегий подсказок, возможно существование более эффективных проектов подсказок
Единственная метрика оценки: Основное полагание на коэффициент успеха, отсутствие тонкозернистой оценки степени забывания
Отсутствие проверки практического применения: Отсутствие проверки эффектов в реальных задачах временного прогнозирования
Отсутствие анализа вычислительных затрат: Отсутствие анализа преимуществ вычислительной эффективности забывания на основе подсказок по сравнению с традиционными методами

Влияние

Академический вклад: Предоставление новой перспективы и эталона для исследований забывания LLM, ожидается стимулирование развития соответствующих исследований
Практическая ценность: Предоставление важной рамки оценки для промышленного применения LLM при временном прогнозировании
Методологическое значение: Подчеркивание важности учета временного фактора при оценке систем ИИ
Воспроизводимость: Полные открытые ресурсы обеспечивают воспроизводимость и масштабируемость исследований

Применимые сценарии

Финансовое прогнозирование: Справедливая оценка прогнозирования цен акций и рыночных тенденций
Прогнозирование событий: Прогнозирование политических выборов, спортивных событий и других событий
Оценка моделей: Оценка любых приложений LLM, связанных с временными рядами
Исследовательский эталон: Использование в качестве эталонного набора данных для оценки других методов забывания

Библиография

Данная статья ссылается на важные работы в соответствующих областях машинного забывания, временного прогнозирования LLM и загрязнения данных, включая:

Bourtoule et al. (2019): Основополагающая работа в машинном забывании
Brown et al. (2020): GPT-3 и контекстное обучение
Pawelczyk et al. (2024): Методы контекстного забывания
Roberts et al. (2024): Продольное исследование загрязнения данных LLM

Общая оценка: Это высококачественная исследовательская статья, решающая важную проблему в приложениях LLM. Хотя эффективность при забывании причинного вывода ограничена, она предоставляет важную базовую работу и рамку оценки для этой области. Методология исследования строга, проектирование экспериментов разумно, и работа имеет важную ценность как для академического сообщества, так и для промышленности.