Reasoning LLMs have demonstrated remarkable breakthroughs in solving complex problems that were previously out of reach. To ensure LLMs do not assist with harmful requests, safety alignment fine-tuning is necessary in the post-training phase. However, safety alignment fine-tuning has recently been shown to significantly degrade reasoning abilities, a phenomenon known as the "Safety Tax". In this work, we show that using LoRA for SFT on refusal datasets effectively aligns the model for safety without harming its reasoning capabilities. This is because restricting the safety weight updates to a low-rank space minimizes the interference with the reasoning weights. Our extensive experiments across four benchmarks covering math, science, and coding show that this approach produces highly safe LLMs--with safety levels comparable to full-model fine-tuning--without compromising their reasoning abilities. Our ablation studies further identify three key factors in LoRA: (1) rank-$1$ updates are sufficient to achieve the best reasoning and safety performance, (2) the up projection layers are the most critical modules, with LoRA applied to them alone achieving even better results, and (3) middle layers are more effective than early or late layers. Together, these findings show that strong safety and reasoning can be achieved at minimal computational cost when updates are applied in the right places. Additionally, we observe that LoRA induces weight updates with smaller overlap with the initial weights compared to full-model fine-tuning. Finally, while our attempts to further reduce this overlap yield only modest improvements on some tasks, they highlight the potential of developing methods that more reliably optimize the reasoning-safety tradeoff.
- ID статьи: 2507.17075
- Название: LoRA is All You Need for Safety Alignment of Reasoning LLMs
- Авторы: Yihao Xue, Baharan Mirzasoleiman (UCLA)
- Категория: cs.AI
- Дата публикации: июль 2025 г. (arXiv v3: 24 октября 2025 г.)
- Ссылка на статью: https://arxiv.org/abs/2507.17075
- Ссылка на код: https://github.com/YihaoXue/lora-safety-reasoning
Большие языковые модели с мощными способностями к рассуждению достигли значительных прорывов в решении сложных задач, однако микротонкая настройка для выравнивания безопасности часто серьёзно повреждает их способности к рассуждению — явление, известное как «налог безопасности» (Safety Tax). В данной работе доказывается, что использование LoRA для контролируемой микротонкой настройки (SFT) на наборах данных отказов может эффективно достичь выравнивания безопасности без ущерба для способностей к рассуждению. Это происходит потому, что ограничение обновлений весов безопасности низкоранговым пространством минимизирует помехи для весов рассуждения. Обширные эксперименты на четырёх контрольных наборах (математика, естественные науки и программирование) показывают, что полученные модели достигают уровня безопасности, сравнимого с полной микротонкой настройкой, сохраняя при этом мощные способности к рассуждению. Исследования абляции дополнительно выявляют: (1) обновлений ранга-1 достаточно для оптимального баланса рассуждение-безопасность; (2) слой up projection является наиболее критичным модулем; (3) промежуточные слои более эффективны, чем ранние или поздние слои.
- Риски безопасности рассуждающих моделей: LLM с возможностями рассуждения (например, серия DeepSeek-R1) часто теряют исходное выравнивание безопасности после микротонкой настройки рассуждения, даже если исходная модель уже была выровнена по безопасности.
- Явление «налога безопасности»: Последующая микротонкая настройка для выравнивания безопасности, хотя и повышает безопасность, значительно снижает способности модели к рассуждению. Даже добавление цепочки рассуждений (CoT) в данные микротонкой настройки безопасности не может полностью сохранить способности к рассуждению.
- Способность к рассуждению — это значительный прорыв в современных LLM, позволяющий им решать ранее недостижимые сложные задачи
- Выравнивание безопасности — необходимое условие развёртывания модели, обеспечивающее, что модель не будет помогать вредоносным запросам
- Компромисс между рассуждением и безопасностью напрямую влияет на практическую ценность модели
- Методы защиты безопасности при инструкционной микротонкой настройке неприменимы:
- Методы фильтрации данных (например, Shen et al., 2024) неприменимы, поскольку наборы данных микротонкой настройки рассуждения обычно тщательно отобраны и вряд ли содержат небезопасный контент
- Методы ограничения обновлений модели (например, Hsu et al., 2024) неэффективны, поскольку получение способностей к рассуждению требует более длительного обучения и более крупных обновлений весов
- Проблемы полной микротонкой настройки:
- Авторы обнаружили, что полная микротонкая настройка приводит к высокоранговым изменениям весов (стабильный ранг от 40 до 100), как показано на рисунке 1
- Эти высокоранговые изменения вносят множество ненужных модификаций, нарушающих веса, связанные с рассуждением
Имеющиеся доказательства указывают на то, что поведение, связанное с безопасностью в LLM, обычно контролируется несколькими доминирующими направлениями:
- В пространстве активаций: такие как steering vectors (Panickssery et al., 2023) или refusal features (Arditi et al., 2024)
- В пространстве весов: веса, критичные для безопасности, имеют тенденцию располагаться в низкоранговом подпространстве (Jain et al., 2024; Wei et al., 2024)
Следовательно, авторы предполагают, что низкоранговые модификации могут быть достаточны для индуцирования поведения безопасности без изменения всего пространства весов.
- Предложение простого и эффективного решения: Доказано, что использование LoRA для микротонкой настройки выравнивания безопасности может достичь мощной безопасности без ущерба для способностей к рассуждению, эффективно избегая «налога безопасности».
- Комплексная экспериментальная проверка:
- Проверка на 4 контрольных наборах (AIME, GPQA, HumanEval+, MBPP+)
- Охват областей математики, естественных наук и программирования
- Эффективность на моделях размером 7B и 14B
- Углубленные исследования абляции, выявляющие три ключевых открытия:
- Обновлений ранга-1 достаточно: Минимальная конфигурация затрат для достижения оптимального баланса рассуждение-безопасность
- Слой up projection наиболее критичен: Обновление только слоя up projection даже превосходит обновление всего MLP
- Промежуточные слои наиболее важны: Обновление 16 промежуточных слоёв обычно уже достаточно
- Анализ структуры весов:
- Обнаружено, что обновления LoRA имеют меньшее перекрытие с исходными весами
- Исследованы методы дальнейшего снижения перекрытия, достигнув скромных улучшений на некоторых задачах
- Достижение «трёх в одном»: Одновременное достижение мощной безопасности, мощных способностей к рассуждению и вычислительной эффективности
- Входные данные: Языковая модель с возможностями рассуждения (reasoning-capable LLM)
- Цель: Через микротонкую настройку выравнивания безопасности сделать модель способной отклонять вредоносные запросы, сохраняя при этом способности к рассуждению
- Ограничения: Минимизация помех для исходных весов рассуждения
LoRA (Low-Rank Adaptation) модифицирует веса путём внедрения обучаемых низкоранговых матриц, сохраняя исходные веса замороженными:
W′=W+ΔW,гдеΔW=rαBA
Где:
- B∈Rd×r и A∈Rr×k — обучаемые низкоранговые матрицы
- r≪min(d,k) — ранг
- rα — коэффициент масштабирования, α — гиперпараметр
- Низкоранговое ограничение: Ограничение обновлений низкоранговым подпространством значительно снижает помехи для исходных весов
- Соответствие механизмам безопасности:
- Поведение безопасности обычно контролируется одним или несколькими направлениями
- Низкоранговые модификации достаточны для достижения выравнивания безопасности
- Избегаются высокоранговые, ненужные изменения при полной микротонкой настройке
- Вычислительная эффективность:
- Значительное снижение количества параметров
- Значительное снижение затрат на обучение и использования памяти
Базовая линия полной микротонкой настройки:
- Обучение на 5 эпохах
- Все параметры обновляются через стандартную оптимизацию градиента
Микротонкая настройка LoRA:
- Обучение на 10 эпохах
- Обновление только низкоранговых матриц B и A
- Конфигурация по умолчанию: применение только к слоям MLP, ранг r=1
- DeepSeek-R1-Distill-Qwen-7B: Рассуждающая модель с 7B параметрами
- DeepSeek-R1-Distill-Qwen-14B: Рассуждающая модель с 14B параметрами
- Llama-Guard-3-8B: Для оценки безопасности, доказано Jiang et al. (2025) как самый мощный оценивающий инструмент безопасности
Набор данных для микротонкой настройки безопасности:
- DirectRefusal: Адаптирован из Rosati et al. (2024), отрегулирован Huang et al. (2025)
- Содержит пары вредоносных запросов с ответами отказа
- Каждый ответ содержит краткое рассуждение ("I should not answer this question!") + ответ отказа
Набор данных для оценки безопасности:
- StrongREJECT (Souly et al., 2024): 310 запросов, нарушающих политику
Контрольные наборы для рассуждения:
- AIME 2024: Американский математический конкурс приглашённых, оценивает математическое рассуждение
- GPQA-diamond (Rein et al., 2024): Научные вопросы уровня выпускника
- HumanEval+ (Chen et al., 2021 + Liu et al., 2023): Расширенная версия контрольного набора генерации кода
- MBPP+ (Austin et al., 2021 + Liu et al., 2023): Расширенная версия контрольного набора генерации кода
Безопасность:
- Использование Llama-Guard-3-8B для определения, является ли ответ модели вредоносным
- Оценка безопасности: Доля вопросов, на которые ответ модели определён как вредоносный (чем ниже, тем лучше)
Способность к рассуждению:
- Pass@1: Для каждого вопроса выборка n=8 ответов, расчёт доли правильных ответов, затем усреднение по всем вопросам
- AIME использует Qwen2.5-32B-Instruct в качестве оценивающего инструмента
- GPQA использует сопоставление регулярных выражений (вопросы с множественным выбором)
- HumanEval+ и MBPP+ используют тестирование выполнения кода
Модель 7B:
- Полная микротонкая настройка: 4 GPU, размер пакета на устройство=2, 5 эпох
- Микротонкая настройка LoRA: 2 GPU, размер пакета на устройство=2, 10 эпох
- Параметры LoRA: α=16, dropout=0.05
Модель 14B:
- Полная микротонкая настройка: 8 GPU, размер пакета на устройство=1, 5 эпох
- Микротонкая настройка LoRA: 4 GPU, размер пакета на устройство=2, 10 эпох
- Параметры LoRA: α=16, dropout=0.05
Общие параметры:
- Скорость обучения: 5e-5
- Затухание весов: 1e-4
- Сохранение и оценка контрольной точки на каждой эпохе
- Температура генерации: 0.6, top-p: 0.95, максимальное количество токенов: 32,768
На рисунке 2 показана производительность различных контрольных точек (эпох) по рассуждению и безопасности:
Модель 7B:
- Базовая модель: Высокая точность, но низкая безопасность
- Полная микротонкая настройка: Хорошая безопасность, но значительное снижение точности (явный налог безопасности)
- Микротонкая настройка LoRA: Сильная производительность как в рассуждении, так и в безопасности
- Лучшая контрольная точка LoRA превосходит базовую модель на всех задачах
- Безопасность немного ниже, чем при полной микротонкой настройке (среднее снижение ~0.03)
Модель 14B:
- Микротонкая настройка LoRA показывает небольшое, но последовательное снижение точности рассуждения по сравнению с базовой моделью
- Производительность безопасности сравнима с полной микротонкой настройкой
- Образует фронт Парето в правом верхнем углу плоскости рассуждение-безопасность
Ключевое открытие: LoRA достигает идеального сочетания «способности к рассуждению, близкой к базовой модели + безопасность, близкая к полной микротонкой настройке».
Тестирование различных значений ранга (r=1, 4, 8, 64) и полной микротонкой настройки на модели 14B:
Производительность рассуждения:
- Производительность рассуждения в целом снижается с увеличением r
- Снижение между r=1 и r=8 относительно небольшое
- Полная микротонкая настройка (полный ранг) показывает наихудшую производительность
Производительность безопасности:
- Значительное снижение при увеличении r с 4 до 64
- Оценка безопасности при полной микротонкой настройке превосходит r=64
- Предположение: среднеранговые значения могут испытывать трудности оптимизации, тогда как экстремально низкоранговые или полноранговые параметры оптимизируются легче
Анализ фронта Парето (рисунок 3c):
- r=1 достигает оптимального баланса на AIME
- r=1 близок к оптимальному на GPQA
- Доказывает возможность достижения сильной производительности при минимальных затратах на микротонкую настройку
Теоретическое объяснение: r=1 достаточен для отражения низкоранговой природы самой задачи выравнивания безопасности, что согласуется с предыдущими исследованиями, показывающими, что поведение безопасности контролируется одним направлением.
MLP против слоёв внимания (рисунок 4):
- Фронт Парето применения только к слоям MLP аналогичен одновременному применению к слоям внимания и MLP
- Вывод: Обновление только слоёв MLP уже достаточно
Слои проекции внутри MLP (рисунок 5):
Тестирование слоёв gate, up и down проекции в структуре SwiGLU модели Qwen:
- Up projection наиболее критичен:
- Фронт Парето обновления только up projection сравним с обновлением всего MLP
- На HumanEval+ и MBPP+ даже превосходит обновление всего MLP
- Down projection показывает наихудшую производительность
- Вывод: Различные слои проекции вносят разный вклад в баланс рассуждение-безопасность, up projection особенно важен и его использования в отдельности уже достаточно
Обновление только 16 слоёв из 48 слоёв модели 14B, тестирование трёх конфигураций:
- Ранние слои (5-20)
- Промежуточные слои (17-32)
- Поздние слои (25-40)
Результаты:
- Промежуточные слои достигают оптимального баланса:
- Сравнимы с обновлением всех слоёв на AIME и GPQA
- Только немного уступают обновлению всех слоёв на HumanEval+ и MBPP+
- Ранние или поздние слои показывают значительно более слабую производительность
Связь с предыдущими исследованиями:
- Steering vectors (Panickssery et al., 2023)
- Refusal features (Arditi et al., 2024)
- Эти исследования показывают, что направления, ответственные за поведение безопасности, наиболее выражены в промежуточных слоях
Определение четырёх метрик для количественного определения перекрытия:
- ∥WI∥∥ΔW∥∥WI⊤ΔW∥: Косинусное сходство на уровне матрицы в пространстве столбцов
- ∥ΔW∥∥U16U16⊤ΔW∥: Проекция на первые 16 главных направлений WI
- ∥WI∥∥ΔW∥∥WIΔW⊤∥: Сходство в пространстве строк
- ∥ΔW∥∥V16V16⊤ΔW⊤∥: Проекция в пространстве строк
Сравнение: полная микротонкая настройка против LoRA (r=4, применение к слоям внимания и MLP)
Открытия:
- LoRA достигает меньшего перекрытия в большинстве модулей (с редкими исключениями)
- Более ортогонально в пространстве столбцов и строк
- Обновления LoRA, ориентированные на безопасность, используют подпространство, более отделённое от подпространства, используемого исходными весами, связанными с рассуждением
- Хотя снижение значений перекрытия иногда невелико, это может указывать на меньшие помехи обновлений LoRA для компонентов, связанных с рассуждением
Два подхода:
- Регуляризация (Regularization):
- reg-col: Добавление штрафного члена β(∥WI∥∥ΔW∥∥WI⊤ΔW∥)2 при обучении
- reg-both: Одновременное наказание перекрытия в пространстве столбцов и строк
- Установка β=1
- Постобработка ортогонализации (OrthoMerge):
- OrthoMerge-col: ΔW←(I−UkUk⊤)ΔW
- OrthoMerge-both: ΔW←λ(I−UkUk⊤)ΔW(I−VkVk⊤)
- Использование коэффициента масштабирования λ для компенсации потери безопасности
- Тестирование λ ∈ {1, 1.15, 1.75, 1.2, 1.25}, k=64
Результаты:
- Вариант "both" превосходит вариант "col"
- OrthoMerge-both наиболее перспективен:
- Строго превосходит vanilla LoRA на AIME и GPQA
- Немного превосходит на MBPP+
- Немного уступает на HumanEval+
- Общие улучшения скромны и непоследовательны, указывая на необходимость более тонких методов
- Проблема: Инструкционная микротонкая настройка приводит к снижению безопасности (Qi et al., 2023; Hsiung et al., 2025)
- Решения:
- Фильтрация данных (Shen et al., 2024; Choi et al., 2024)
- Внедрение образцов безопасности (Bianchi et al., 2023)
- Использование моделей guardrail (Peng et al., 2025)
- Важность шаблонов подсказок (Lyu et al., 2024)
- Алгоритмические методы: проекция на «подпространство безопасности» (Hsu et al., 2024), регуляризация (Mukhoti et al., 2023)
- Ограничения: Неприменимы к рассуждающим моделям, поскольку получение способностей к рассуждению требует более длительного обучения и более крупных обновлений весов
- Методы: SFT и/или RL (Wei et al., 2021; Ouyang et al., 2022; Rafailov et al., 2023)
- Проблема: Явление «налога безопасности» (Huang et al., 2025)
- Выравнивание безопасности значительно повреждает производительность рассуждения
- Даже добавление рассуждений CoT в данные микротонкой настройки безопасности не может полностью сохранить способности к рассуждению (Jiang et al., 2025)
Доказано, что простое применение LoRA может эффективно выровнять рассуждающие модели без ущерба для производительности, заполняя пробел в существующей литературе.
- LoRA — эффективное решение для выравнивания безопасности рассуждающих LLM:
- Достижение безопасности, сравнимой с полной микротонкой настройкой
- Сохранение способностей к рассуждению, близких к исходной модели
- Эффективное преодоление «налога безопасности»
- Рекомендации по минимальной конфигурации:
- Ранга-1 достаточно: Минимальные затраты для достижения оптимального баланса
- Обновление только слоя up projection: Даже превосходит обновление всего MLP
- Сосредоточение на промежуточных слоях: 16 промежуточных слоёв обычно уже достаточно
- Механистические инсайты:
- Обновления LoRA имеют меньшее перекрытие с исходными весами
- Низкоранговое ограничение минимизирует помехи для весов рассуждения
- Согласуется с теорией о том, что поведение безопасности контролируется низкомерными направлениями
- Остаточный разрыв в производительности:
- Модель 14B всё ещё показывает небольшое снижение на некоторых задачах (AIME, HumanEval+, MBPP+)
- Методы дальнейшего снижения перекрытия показывают ограниченные и непоследовательные улучшения
- Ограничения архитектуры:
- Эксперименты проводились в основном на архитектуре Qwen
- Требуется проверка на других архитектурах LLM
- Недостаточная абляция слоёв внимания:
- Основное внимание уделяется слоям MLP
- Детальная абляция слоёв внимания оставлена на будущие работы
- Понимание механизма:
- Требуется более глубокое исследование того, почему up projection так эффективен
- Требуются более точные метрики для захвата эффектов помех
- Улучшение методов:
- Разработка более надёжных методов оптимизации баланса рассуждение-безопасность
- Лучший контроль геометрии подпространства обновлений LoRA
- Расширение архитектуры:
- Проверка открытий на других архитектурах LLM
- Исследование детальной абляции слоёв внимания
- Углубление теории:
- Глубокое понимание эффективности up projection
- Разработка более точных метрик помех
- Выравнивание на основе RL:
- Расширение открытий на методы выравнивания безопасности на основе RL
- Исследование приложений:
- Исследование применения в других сценариях, требующих баланса нескольких целей
- Важная и практическая проблема:
- Прямое решение ключевого вызова в развёртывании рассуждающих LLM
- «Налог безопасности» — реальная боль в практических приложениях
- Широкая практическая ценность
- Простой и эффективный метод:
- Использование готовой технологии LoRA без сложных модификаций
- Лёгкая реализация, сильная воспроизводимость
- Высокая вычислительная эффективность, простота практического развёртывания
- Комплексные и углубленные эксперименты:
- Несколько размеров моделей (7B, 14B)
- Несколько областей (математика, естественные науки, программирование)
- Четыре контрольных набора, широкое охватывание
- Детальные исследования абляции, предоставляющие чёткие рекомендации по конфигурации
- Глубокие инсайты:
- Открытие о достаточности ранга-1 просто и убедительно
- Важность up projection указывает направление для будущих исследований
- Ключевая роль промежуточных слоёв согласуется с теорией
- Анализ перекрытия весов обеспечивает механистическое понимание
- Ясное изложение:
- Разумная структура, ясная логика
- Богатые графики, хороший визуальный эффект
- Достаточные технические детали, сильная воспроизводимость
- Разрыв в производительности не полностью устранён:
- Модель 14B всё ещё показывает небольшое снижение на некоторых задачах
- Методы дальнейшей оптимизации (OrthoMerge) показывают ограниченные улучшения
- Указывает на то, что проблема не полностью решена
- Ограниченное охватывание архитектуры:
- Эксперименты только на архитектуре Qwen
- Обобщаемость на другие архитектуры (Llama, Mistral) неизвестна
- Ограничивает универсальность выводов
- Недостаточное объяснение механизма:
- Отсутствует глубокий анализ того, почему up projection так важен
- Причинно-следственная связь между снижением перекрытия весов и улучшением производительности недостаточно ясна
- Требуется больше теоретического анализа
- Недостаточное исследование слоёв внимания:
- Основное внимание на MLP, ограниченная абляция слоёв внимания
- Может пропустить важные открытия
- Ограничения оценки:
- Оценка безопасности зависит от одного оценивающего инструмента (Llama-Guard-3-8B)
- Метрика Pass@1 может быть недостаточно полной
- Отсутствует оценка человеком
- Академический вклад:
- Заполнение пробела в исследовании выравнивания безопасности рассуждающих моделей
- Предоставление чётких практических рекомендаций
- Предоставление новой перспективы на роль LoRA в оптимизации нескольких целей
- Ожидается, что вызовет последующие исследования
- Практическая ценность:
- Прямое применение к развёртыванию практических моделей
- Снижение вычислительных затрат на выравнивание безопасности
- Повышение применимости рассуждающих моделей
- Важное справочное значение для промышленности
- Воспроизводимость:
- Открытый исходный код (GitHub)
- Достаточные детали экспериментов
- Использование открытых наборов данных и моделей
- Лёгкая проверка и расширение
- Выравнивание безопасности рассуждающих LLM:
- Модели математического рассуждения (например, помощники по решению математических задач)
- Модели научного рассуждения (например, помощники для научных исследований)
- Модели генерации кода (например, помощники по программированию)
- Среды с ограниченными ресурсами:
- Сценарии, требующие низкозатратной микротонкой настройки
- Среды развёртывания с ограниченной памятью
- Процессы разработки с быстрой итерацией
- Сценарии оптимизации нескольких целей:
- Задачи микротонкой настройки, требующие баланса нескольких целей
- Сохранение исходных возможностей при добавлении новых возможностей
- Адаптация к области без ущерба для универсальных возможностей
- Неприменимые сценарии:
- Критические приложения, требующие полного устранения разрыва в производительности
- Модели архитектуры, отличной от Qwen (требуется проверка)
- Фундаментальные преобразования, требующие обновления большого количества параметров
Ключевые ссылки:
- Huang et al., 2025: "Safety Tax: Safety alignment makes your large reasoning models less reasonable" — Первое систематическое описание явления «налога безопасности»
- Jiang et al., 2025: "SafeChain: Safety of language models with long chain-of-thought reasoning capabilities" — Отчёт об угрозах безопасности рассуждающих моделей
- Hu et al., 2022: "LoRA: Low-Rank Adaptation of Large Language Models" — Оригинальная статья LoRA
- Panickssery et al., 2023: "Steering llama 2 via contrastive activation addition" — Исследование steering vectors
- Arditi et al., 2024: "Refusal in language models is mediated by a single direction" — Исследование refusal features
- Jain et al., 2024: "What makes and breaks safety fine-tuning? a mechanistic study" — Механистическое исследование микротонкой настройки безопасности
- Wei et al., 2024: "Assessing the brittleness of safety alignment via pruning and low-rank modifications" — Исследование хрупкости выравнивания безопасности
Общая оценка: Это высококачественная исследовательская статья, предлагающая простое и эффективное решение важной проблемы выравнивания безопасности рассуждающих LLM. Хотя существуют некоторые ограничения (такие как неполное устранение разрыва в производительности и ограниченное охватывание архитектуры), её основной вклад является прочным, эксперименты комплексны, а инсайты глубоки, имея важную ценность как для академического сообщества, так и для промышленности. В частности, три открытия — достаточность ранга-1, критичность up projection и важность промежуточных слоёв — предоставляют чёткое руководство для будущих исследований и практического применения.