Machine unlearning, which selectively removes harmful knowledge from a pre-trained model without retraining from scratch, is crucial for addressing privacy, regulatory compliance, and ethical concerns in Large Language Models (LLMs). However, existing unlearning methods often struggle to thoroughly remove harmful knowledge, leaving residual harmful knowledge that can be easily recovered. To address these limitations, we propose Knowledge Density-Guided Unlearning via Blocks Reinsertion (KUnBR), a novel approach that first identifies layers with rich harmful knowledge and then thoroughly eliminates the harmful knowledge via re-insertion strategy. Our method introduces knowledge density estimation to quantify and locate layers containing the most harmful knowledge, enabling precise unlearning. Additionally, we design a layer re-insertion strategy that extracts and re-inserts harmful knowledge-rich layers into the original LLM, bypassing gradient obstruction caused by cover layers and ensuring effective gradient propagation during unlearning. Extensive experiments conducted on several unlearning and general capability benchmarks demonstrate that KUnBR achieves state-of-the-art forgetting performance while maintaining model utility.
- ID статьи: 2511.11667
- Название: Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion
- Авторы: Feng Guo, Yuntao Wen, Shen Gao, Junshuo Zhang, Shuo Shang (Университет электронной науки и технологии Китая)
- Классификация: cs.LG, cs.AI
- Время публикации/конференция: AAAI 2026 (ожидается)
- Ссылка на статью: https://arxiv.org/abs/2511.11667
- Ссылка на код: github.com/llmgfffffff/Beyond-Superficial-Forgetting-KUnBR
В данной статье предложен новый метод KUnBR (Knowledge Density-Guided Unlearning via Blocks Reinsertion) для решения проблемы машинного забывания в больших языковых моделях (LLM). Существующие методы забывания часто не могут полностью удалить вредоносные знания, оставляя остаточные знания, которые легко восстанавливаются. KUnBR использует оценку плотности знаний для определения слоев, богатых вредоносными знаниями, а затем применяет стратегию переинсерции блоков для полного устранения вредоносных знаний. Метод обходит блокировку градиентов, вызванную "покрывающими слоями" (cover layers), обеспечивая эффективное распространение градиентов. Эксперименты на нескольких эталонных наборах показывают, что KUnBR достигает передовых результатов забывания, одновременно сохраняя общие способности модели.
Машинное забывание направлено на выборочное удаление определенного подмножества знаний из предварительно обученной модели (например, конфиденциальной информации или вредоносного контента) без необходимости переобучения модели с нуля. Это имеет решающее значение для развития LLM, поскольку затрагивает вопросы конфиденциальности данных, соответствия нормативным требованиям (например, "право на забывание") и этики систем искусственного интеллекта.
- Защита конфиденциальности: LLM могут поглощать большие объемы конфиденциальных данных во время предварительного обучения
- Соответствие нормативным требованиям: Нормативные акты, такие как GDPR, требуют возможности удаления данных конкретных пользователей
- Безопасность: Предотвращение злонамеренного использования вредоносных знаний, содержащихся в модели
- Этическое согласование: Обеспечение соответствия LLM общественным ценностям
Существующие методы забывания (такие как градиентный подъем, введение в заблуждение представлений) имеют серьезные недостатки:
- Поверхностное забывание: Изменение только нескольких параметров (покрывающих слоев) для подавления выходных данных, а не для истинного удаления знаний
- Легкость восстановления: Атаки RTT (Retraining on T) показывают, что большая часть "забытых" знаний может быть восстановлена путем минимального переобучения на подмножестве набора для забывания
- Остаточные знания: Вредоносные знания остаются в параметрах модели, только маскируются, а не удаляются
- Низкая робастность: Уязвимость к атакам на обход и параметрическим атакам
Авторы обнаружили, что существующие методы в основном полагаются на корректировку "покрывающих слоев" для маскировки представлений вредоносных знаний, только предотвращая вывод нежелательного контента, но не удаляя его из внутренних представлений модели. Это фундаментальное ограничение указывает на необходимость более надежного и полного метода забывания.
- Предложена структура KUnBR: Новая структура забывания, способная определять слои, содержащие вредоносные знания, и проводить целевое обучение для полного устранения вредоносных знаний
- Метод оценки плотности знаний: Введен показатель оценки плотности знаний на основе градиентов, который может количественно оценивать и локализовать слои в LLM, содержащие наибольшее количество вредоносных знаний, обеспечивая точное забывание
- Стратегия переинсерции блоков: Разработана новая стратегия переинсерции слоев, которая извлекает блоки, богатые вредоносными знаниями, и переинсертирует их в исходную LLM, обходя блокировку градиентов, вызванную покрывающими слоями, обеспечивая эффективное распространение градиентов во время процесса забывания
- Производительность SOTA: Достигнуты передовые результаты забывания на нескольких эталонных наборах для забывания и общих способностей, одновременно сохраняя полезность модели, особенно при защите от атак RTT
Дано:
- Набор данных для забывания Dforget: содержит знания, которые необходимо удалить
- Набор данных для сохранения Dretain: помогает модели сохранять общие способности во время процесса забывания
Цель:
- Оптимизировать параметры модели для максимально полного удаления знаний, связанных с Dforget
- Обеспечить, чтобы производительность полезности модели не пострадала
- Когда подвергается атаке RTT (тонкая настройка на подмножестве T из Dforget), модель все еще не может генерировать знания из другого непересекающегося подмножества V из Dforget
Метод KUnBR состоит из трех основных этапов:
Использование стандартного метода градиентной разности для полнопараметрической тонкой настройки исходной LLM в качестве "разминки":
θt+1=θt−η(α∇θLretain(θt)−∇θLforget(θt))
где:
- η — скорость обучения
- α — коэффициент сохранения
- Lretain и Lforget — потери на наборах сохранения и забывания соответственно
Расчет плотности знаний:
Для слоя l плотность знаний определяется как:
Kl=E(x,y)∼Dforget[∥∇θlL(x,y;θl)∥1]
где L(x,y;θ)=−log(p(y∣x;θ)) — потеря отрицательного логарифма правдоподобия.
Нормализованная плотность знаний:
Klnorm=∑i=1HKiKl
представляет долю плотности знаний слоя l относительно всех слоев.
Плотность знаний на уровне блоков:
H слоев разделены на M блоков, каждый блок содержит N=⌊H/M⌋ слоев, накопленная плотность знаний m-го блока:
Kblock,m=∑i=(m−1)N+1mNKinorm
Стратегия выбора блоков:
- Выбор Top-K: выбираются K блоков с наивысшей плотностью знаний
- Игнорирование верхних слоев: исключаются блоки, содержащие последние два слоя, чтобы избежать помех от слоев генерации выходных данных
Это ключевое инновационное решение KUnBR:
- Извлечение выбранных высокоплотных блоков знаний из LLMunlearning (модель после предварительного забывания)
- Переинсерция этих блоков в соответствующие позиции в LLMoriginal (исходная незабытая модель)
- Замораживание других слоев, применение метода градиентной разности только к вставленным блокам
- Поскольку другие слои в LLMoriginal остаются неизменными и замороженными, не возникает помех от покрывающих слоев
- После завершения обучения обновленные блоки помещаются обратно в LLMunlearning
- Повторение этого процесса для всех выбранных блоков
Статья впервые четко указывает на фундаментальную проблему существующих методов: они только изменяют несколько слоев (покрывающие слои) для подавления вредоносных выходных данных, а не для истинного удаления знаний. Это объясняет, почему атаки RTT могут легко восстановить "забытые" знания.
- На основе исследований, показывающих MLP как единицы нейронной памяти
- Абсолютное значение градиента интуитивно отражает количество целевых знаний, содержащихся в слое
- Предоставляет количественный показатель для точной локализации слоев, требующих приоритетного забывания
- Обход покрывающих слоев: путем вставки слоев для забывания в исходную модель избегается блокировка градиентов, вызванная покрывающими слоями
- Глубокое забывание: способна более глубоко изменять остаточные знания, а не только поверхностное подавление
- Итеративная обработка: независимое глубокое забывание каждого высокоплотного блока обеспечивает полноту
- GA/GD: глобальная оптимизация, легко образуются покрывающие слои
- RMU: корректировка представлений промежуточных слоев, но все еще поверхностная модификация
- KUnBR: локализация + изоляция + глубокое забывание, фундаментальное изменение структуры знаний
- Random Birthdays: случайно сгенерированные имена и годы рождения, подходят для тестирования задач забывания
- WMDP-Deduped: 3668 вопросов с множественным выбором о вредоносных знаниях, оценивают способность LLM обрабатывать чувствительную информацию
- Years: запись крупных событий 20-го века и соответствующих им лет
- MMLU: комплексный многозадачный эталон, содержащий вопросы с множественным выбором из 57 задач, тестирует мировые знания и способность решения проблем
Разделение данных:
- Dforget / Dretain разделены в стандартных пропорциях
- Dforget дополнительно разделен на набор T (для атак RTT) и набор V (для оценки восстановления)
- Forget Accuracy (AUnlearn): точность модели на наборе забывания после забывания
AUnlearn=N1∑i=1NI(funlearn(xi)=yi)
- RTT Accuracy (ARTT): точность после атаки RTT
- Recovery Rate (ARecover): коэффициент восстановления
ARecover=ARTT−AUnlearn
Более низкое значение указывает на более полное забывание
- Способность рассуждения (Rea.): оценка на Big-Bench-Hard с использованием 3-shot CoT
- Правдивость (Tru.): оценка на задаче MC1 TruthfulQA, точность 6-shot
- Фактичность (Fac.): оценка на TriviaQA, 6-shot оценка F1
- Плавность (Flu.): использование инструкций AlpacaEval, отчет о взвешенном среднем энтропии bi-gram и tri-gram
- GA (Gradient Ascent): реализация забывания путем максимизации потерь на наборе забывания
- GD (Gradient Difference): градиентный подъем на наборе забывания, градиентный спуск на наборе сохранения
- RMU (Representation Misdirection): стратегическая модификация внутренних представлений промежуточных слоев
- RIA (Random Incorrect Answer): применение градиентного спуска к неправильным вариантам
- NPO (Negative Preference Optimization): оптимизация модели для отрицательного предпочтения удаленной информации
Модели: LLaMA3-8B-Instruct и Zephyr-7B-beta
Гиперпараметры KUnBR:
- Скорость обучения: 1.5×10⁻⁷
- Коэффициент сохранения: 0.1
- Шаги разминки: 24
- Количество блоков: M=8
- Выбор Top-K: K=6
Оборудование: один GPU NVIDIA A800
| Набор данных | Метод | Forget↓ | RTT↓ | Rec↓ |
|---|
| Random Birthdays | NPO | 71.3 | 78.3 | 7.0 |
| KUnBR | 36.9 | 43.9 | 7.0 |
| WMDP-Deduped | GD | 30.5 | 62.4 | 31.9 |
| KUnBR | 29.2 | 38.8 | 9.6 |
| Years | GD | 25.9 | 68.3 | 42.4 |
| KUnBR | 25.9 | 36.0 | 10.1 |
| MMLU | NPO | 31.2 | 38.8 | 7.6 |
| KUnBR | 16.5 | 28.0 | 11.5 |
Ключевые выводы:
- Минимальная точность RTT: KUnBR достигает минимальной точности атаки RTT на всех 4 наборах данных
- Минимальный коэффициент восстановления: На LLaMA3 коэффициент восстановления KUnBR постоянно остается на минимальном уровне
- Кроссмодельная обобщаемость: Также показывает отличные результаты на Zephyr-7B, доказывая универсальность метода
KUnBR достигает лучших или вторых лучших результатов в большинстве тестов общих способностей:
- Способность рассуждения: достигает 41.2 на Random Birthdays (лучший результат)
- Фактичность: достигает 56.4 на Years (лучший результат)
- Плавность: достигает 708.8 на MMLU (лучший результат)
В сравнении, RIA и NPO, хотя и показывают хороший эффект забывания на некоторых наборах данных, серьезно повреждают общие способности (например, способность рассуждения RIA на WMDP составляет всего 1.20).
| Вариант | WMDP Forget | WMDP RTT |
|---|
| KUnBR | 29.2 | 38.8 |
| - w/o re-insert | 30.5 | 62.4 |
| - w/o pre-unl | 29.9 | 56.6 |
Анализ:
- После удаления стратегии переинсерции метод деградирует до исходного GD, точность RTT скачет с 38.8% до 62.4%
- После удаления предварительного забывания точность RTT также повышается до 56.6%
- Доказывает, что оба компонента необходимы
Сравнение четырех стратегий:
- Head layers: выбор блоков, близких к выходному слою — плохой результат
- Bottom layers: выбор блоков, близких к входному слою — ограниченный результат
- Average: равномерный выбор всех блоков — средний результат, но нестабильный
- KUnBR (управляемый плотностью знаний): лучший результат, точность забывания постоянно снижается
Вывод: показатель плотности знаний точно количественно оценивает содержание вредоносных знаний в каждом слое, обеспечивая эффективное руководство для выбора.
Тестирование различных конфигураций (M, K) на наборе данных Years:
- M=4 (слишком мало блоков): ограниченный эффект, сложно изолировать знания
- M=32 (слишком много блоков): может игнорировать зависимости между слоями
- M=8, K=6: оптимальная конфигурация
- Большинство конфигураций значительно превосходят базовый метод, показывая робастность метода к гиперпараметрам
Построены 9 противоборствующих вариантов:
- Инъекция префикса
- Утвердительный суффикс
- Ролевая игра
- Множественный выбор
- Обратный запрос
- Манипуляция синонимами
- Подсказка контекста
- Контекстное обучение
- Кроссязычный
Результаты: традиционный метод GD восстанавливается с 18.18% до 21.21% при атаке инъекции префикса, тогда как KUnBR остается на 18.18%, доказывая робастность к атакам на уровне подсказок.
Вопрос: "When was Julia Brown born?"
Правильный ответ (требуется забыть): B. 1989
Производительность различных методов:
- RMU: после забывания выводит бессмысленный контент, после RTT восстанавливает правильный ответ
- GA: после забывания выводит путаницу, после RTT восстанавливает правильный ответ
- GD: забывание не удается, прямой вывод правильного ответа; после RTT продолжает выводить
- RIA/NPO: после забывания выводит неправильный ответ, после RTT восстанавливает правильный ответ
- KUnBR: после забывания выводит неправильный ответ (C. 1960) с объяснением, после RTT все еще выводит неправильный ответ (D. 1986), сохраняя полный формат ответа
Вывод: только KUnBR успешно реализует полное забывание и сохраняет забытое состояние при атаке RTT, одновременно сохраняя хорошие способности генерации.
Время обучения на наборе данных Years (в минутах):
- GA: 24
- GD: 20
- RMU: 9
- RIA: 8
- NPO: 16
- KUnBR: 17
Вычислительные затраты KUnBR сопоставимы с основными методами, на 15% быстрее, чем текущий SOTA метод GD, одновременно достигая лучшего эффекта забывания.
- Методы на основе градиентов:
- Gradient Ascent (Jang et al. 2022): максимизация потерь на наборе забывания
- Gradient Difference (Liu et al. 2022): балансировка забывания и сохранения
- Методы корректировки представлений:
- RMU (Li et al. 2024): корректировка представлений промежуточных слоев
- NPO (Zhang et al. 2024): оптимизация отрицательного предпочтения
- Исследования безопасности:
- Атаки на обход (Liu et al. 2023; Zhou et al. 2024)
- Атаки через черный ход (Liu et al. 2022)
- Атаки RTT (Deeb & Roger 2025): раскрытие остаточных знаний
- Geva et al. (2021): MLP как единицы памяти ключ-значение
- Hong et al. (2024): ключевая роль слоев MLP в процессе забывания
- Теоретическое понимание: впервые четко предложена проблема покрывающих слоев
- Инновация метода: стратегия переинсерции обходит блокировку градиентов
- Комплексная оценка: включает атаки RTT и множество противоборствующих сценариев
- Практичность: сохранение общих способностей при достижении полного забывания
- Покрывающие слои — источник поверхностного забывания: существующие методы в основном полагаются на корректировку нескольких слоев для подавления выходных данных, а не для удаления знаний
- Оценка плотности знаний эффективна: показатель плотности знаний на основе градиентов точно локализует слои, богатые вредоносными знаниями
- Стратегия переинсерции реализует глубокое забывание: путем изоляции высокоплотных блоков и обучения в исходной модели обходит помехи от покрывающих слоев
- Производительность SOTA: KUnBR достигает лучшего баланса между полнотой забывания и сохранением общих способностей
- Вычислительные затраты: хотя и сопоставимы с базовыми методами, итеративная переинсерция все еще требует дополнительных вычислений (на 88.9% выше, чем RMU)
- Чувствительность гиперпараметров: требуется выбор подходящего количества блоков M и значения Top-K, хотя статья показывает относительную робастность метода
- Ограничение гранулярности блоков: статья не углубляется в обсуждение того, почему забывание на уровне блоков не приводит к более тонкому поверхностному забыванию
- Ограничения оценки: в основном оценивается на наборах данных с множественным выбором, эффект на задачах открытой генерации недостаточно проверен
- Масштаб модели: тестирование только на моделях размером 8B и ниже, эффект на более крупных моделях (70B+) неизвестен
- Адаптивный выбор блоков: автоматическая корректировка гранулярности и количества блоков в зависимости от типов знаний
- Оптимизация эффективности: исследование методов параллелизации или аппроксимации для снижения вычислительных затрат
- Теоретический анализ: предоставление теоретических гарантий эффективности стратегии переинсерции
- Расширение приложений: тестирование на более крупных моделях и более разнообразных задачах
- Непрерывное забывание: исследование инкрементального забывания во время процесса непрерывного обучения модели
- Впервые четко предложена концепция "покрывающих слоев", раскрывающая фундаментальный дефект существующих методов
- Атаки RTT четко демонстрируют проблему поверхностного забывания
- Четкое определение проблемы с практической значимостью
- Оценка плотности знаний: простой, но эффективный показатель, основанный на твердой теоретической базе (MLP как единица памяти)
- Стратегия переинсерции: умное проектирование, обход покрывающих слоев через "трансплантацию"
- Итеративная обработка: независимое глубокое забывание каждого высокоплотного блока обеспечивает полноту
- Несколько наборов данных (4) и два основных модели
- Комплексные показатели оценки (производительность забывания + общие способности)
- Достаточные абляционные эксперименты для проверки вклада каждого компонента
- Оценка в сценариях множественных атак (9 противоборствующих вариантов)
- Анализ случаев обеспечивает интуитивное понимание
- Достижение минимальной точности RTT на всех наборах данных
- Значительное превосходство над SOTA методами (например, RTT GD снижается с 68.3% до 36.0%)
- Одновременное сохранение или даже улучшение общих способностей
- Хорошая кроссмодельная обобщаемость
- Открытый исходный код, сильная воспроизводимость
- Приемлемые вычислительные затраты
- Относительная робастность к гиперпараметрам
- Прямое применение к сценариям развертывания реальных LLM
- Отсутствие теоретического доказательства эффективности стратегии переинсерции
- Почему забывание на уровне блоков не приводит к более тонкому поверхностному забыванию? Статья только кратко упоминает "блоки как составные единицы памяти"
- Теоретические свойства оценки плотности знаний (такие как сходимость, уникальность) не обсуждаются
- Требуется несколько итераций (для каждого выбранного блока)
- Включает несколько гиперпараметров (M, K, α, скорость обучения и т.д.)
- Сложность реализации выше, чем у простых методов GA/GD
- Смещение наборов данных: в основном вопросы с множественным выбором, отсутствуют задачи открытой генерации
- Масштаб модели: только 8B и ниже, современные LLM часто достигают 70B+
- Типы забывания: в основном фактические знания, эффект на концептуальные и рассуждающие знания неизвестен
- Долгосрочные эффекты: не оценены кумулятивные эффекты после множественных забываний
- "Игнорирование верхних слоев" основано на эмпирических наблюдениях, отсутствует принципиальное объяснение
- Является ли выбор Top-K оптимальным? Существуют ли лучшие стратегии выбора?
- Различные типы знаний могут требовать различных стратегий выбора
- Образуются ли новые покрывающие слои в новых позициях после переинсерции?
- Статья недостаточно обсуждает эту потенциальную проблему
- Как гарантируется сходимость итеративного процесса?
- Хотя эталон RKWU комплексен, он все еще ограничен
- Некоторые задачи (такие как генерация кода, математические рассуждения) не охватываются
- Не оценено влияние забывания на структуру внутренних представлений модели
- Новаторство: впервые систематически решена проблема покрывающих слоев, предоставляя новое направление для исследований забывания
- Методология: оценка плотности знаний и стратегия переинсерции могут вдохновить другие исследования
- Установка эталона: установление новых стандартов производительности в сценариях атак RTT
- Немедленное применение: может быть непосредственно использовано для защиты конфиденциальности и безопасного развертывания LLM
- Соответствие нормативным требованиям: помощь в соответствии требованиям GDPR и другим нормативным актам
- Снижение рисков: снижение риска утечки чувствительной информации из LLM
- Открытый исходный код
- Подробные детали реализации и установки гиперпараметров
- Стандартизированный протокол оценки
- Краткосрочное: ожидается, что станет важным базовым методом в исследованиях забывания
- Среднесрочное: может стимулировать больше исследований механизмов глубокого забывания
- Долгосрочное: вклад в развитие надежного и ответственного искусственного интеллекта
- Приложения, чувствительные к конфиденциальности: сценарии, требующие удаления данных пользователей (такие как здравоохранение, финансы)
- Соответствие нормативным требованиям: системы, требующие соответствия "праву на забывание"
- Приложения, критичные для безопасности: сценарии, требующие удаления вредоносных знаний
- Системы непрерывного обучения: LLM, требующие периодического обновления знаний
- Защита авторских прав: модели, требующие удаления контента, защищенного авторским правом
- Сценарии с экстремально ограниченными ресурсами: среды с очень ограниченными вычислительными ресурсами
- Системы реального времени: онлайн-сервисы, требующие чрезвычайно быстрого ответа
- Сверхкрупные модели: модели с параметрами 100B+ могут требовать дополнительной оптимизации
- Открытая генерация: требуется больше оценки и возможных корректировок метода
- Мультимодальные модели: требуется расширение на визуально-языковые модели
- Кроссязычное забывание: требуется учет связей многоязычных знаний
- Deeb & Roger (2025): метод атаки RTT, раскрывающий проблему поверхностного забывания
- Li et al. (2024): эталон WMDP и метод RMU
- Geva et al. (2021): теоретическая основа MLP как единицы памяти ключ-значение
- Hong et al. (2024): эмпирическое исследование модификации уровней слоев в процессе забывания
- Zhang et al. (2024): метод NPO, один из текущих SOTA
- Liu, Liu, & Stone (2022): фундаментальная работа метода градиентной разности
Это высококачественная исследовательская статья, достигшая существенного прогресса в решении важной проблемы машинного забывания. Основные преимущества статьи заключаются в: (1) глубоком определении фундаментального дефекта существующих методов (проблема покрывающих слоев), (2) предложении инновационного и эффективного решения (оценка плотности знаний + стратегия переинсерции), (3) комплексной экспериментальной проверке эффективности метода.
Инновационность: ★★★★☆ (4.5/5) - стратегия переинсерции является истинной инновацией, оценка плотности знаний хотя и проста, но эффективна
Техническая глубина: ★★★★☆ (4/5) - умное проектирование метода, но теоретический анализ может быть более глубоким
Полнота экспериментов: ★★★★★ (5/5) - комплексный дизайн экспериментов, разнообразные показатели оценки, достаточные абляционные исследования
Практическая ценность: ★★★★★ (5/5) - прямое решение практических проблем, открытый исходный код, немедленное применение
Качество написания: ★★★★☆ (4.5/5) - ясное и понятное изложение, логичная структура, эффективная визуализация
Общая оценка: ★★★★☆ (4.4/5)
Рекомендация к прочтению: Настоятельно рекомендуется исследователям и инженерам, работающим в области безопасности LLM, защиты конфиденциальности и машинного забывания. Эта статья не только предоставляет эффективное техническое решение, но и, что более важно, предоставляет глубокое понимание механизмов забывания.