2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

Управление в рамках распределения: Балансирование контроля и согласованности при генерации текста языковыми моделями

Основная информация

ID статьи: 2510.13285
Название: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Авторы: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13285

Аннотация

Методы управления активациями контролируют поведение больших языковых моделей (LLM) путём модификации внутренних активаций во время вывода. Однако большинство существующих методов управления активациями полагаются на фиксированную интенсивность управления, что приводит к недостаточному или чрезмерному вмешательству и снижает достоверность и согласованность текста. В данной работе предлагается управление в рамках распределения (IDS) — новый метод, который адаптивно регулирует интенсивность управления на основе распределения входных данных в пространстве представлений. IDS динамически адаптирует вмешательство в зависимости от положения данного входа в распределении, достигая адаптивного вмешательства и стабильности генерации текста. Экспериментальные результаты показывают, что IDS достигает высокой точности в задачах классификации при одновременном создании согласованного текста без коллапса, что делает IDS особенно пригодным для практических приложений.

Исследовательский контекст и мотивация

Определение проблемы

Хотя большие языковые модели обладают превосходными способностями к обобщению, они могут демонстрировать нежелательное поведение, включая:

Фактическую неточность: генерация ошибочной информации
Проблемы безопасности: создание вредоносного контента
Проблемы выравнивания: несоответствие конкретным требованиям приложения

Ограничения существующих методов

RLHF (обучение с подкреплением на основе обратной связи человека): требует больших объёмов данных и вычислительных ресурсов, непрозрачный способ модификации весов модели, может привести к введению новых предубеждений
Инженерия подсказок: косвенный эффект, высокая чувствительность к контексту
Существующие методы управления активациями:
- Использование фиксированной интенсивности управления приводит к недостаточному или чрезмерному управлению
- Недостаточное тестирование на открытой генерации текста
- Невозможность генерировать достоверный управляемый текст

Исследовательская мотивация

Необходим метод, способный обеспечить точный контроль поведения LLM при сохранении качества текста, особенно в высокорисковых сценариях приложений.

Основные вклады

Предложение метода IDS: новый метод управления активациями, который динамически регулирует интенсивность управления для каждого входа, достигая точного контроля поведения при сохранении достоверности и согласованности текста
Комплексная экспериментальная оценка: оценка производительности IDS на 6 LLM и 7 наборах данных с сравнением двумя конкурирующими методами, демонстрирующая эффективность, робастность и универсальность на задачах предсказания одного токена и открытой генерации текста
Исследование абляции: глубокий анализ компонентов производительности IDS, раскрывающий механизмы её успеха
Теоретическое основание: основано на предположении линейного представления, обеспечивающее замкнутое решение для эффективного вычисления в реальном времени

Подробное описание метода

Определение задачи

Учитывая исходные активации h_{l,p} ∈ R^d языковой модели на слое l и позиции токена p, управление активациями модифицирует поведение посредством следующего вмешательства:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

где v_l ∈ R^d — вектор управления, кодирующий направление желаемого поведения, а α_{l,p} ∈ R контролирует интенсивность вмешательства для конкретного слоя и позиции токена.

Архитектура модели

Метод IDS состоит из трёх основных этапов:

1. Моделирование распределения (Distribution Modeling)

Построение контрастивного набора данных: отдельное моделирование распределений активаций положительного поведения (D^+_l) и отрицательного поведения (D^-_l)
Снижение размерности PCA: применение анализа главных компонент для решения проблемы проклятия размерности в высокомерном пространстве
Моделирование расстояния Махаланобиса: использование расстояния Махаланобиса для измерения расстояния активации до целевого распределения, установка 95-го процентиля в качестве порога распределения ε

2. Определение оптимального коэффициента управления

Определение коэффициента управления формулируется как задача ограниченной оптимизации:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Предоставляется замкнутое решение:

α = {
  (-b + √(b² - 4ac))/(2a), если b² - 4ac ≥ 0
  -b/(2a), если b² - 4ac < 0
}

где:

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Выбор слоя

Оценка дискриминативной способности вектора управления на основе F1-оценки
Установка порога 0,7, вмешательство только в слои с высокой дискриминативной способностью

Технические инновации

Адаптивная интенсивность управления: динамическая регулировка интенсивности вмешательства в зависимости от положения входа в распределении целевого поведения
Ограничения распределения: обеспечение того, чтобы управляемые активации оставались в пределах распределения целевого поведения
Замкнутое решение: обеспечение эффективного метода вычисления в реальном времени
Механизм выбора слоя: вмешательство только в слои с высокой дискриминативной способностью

Экспериментальная установка

Наборы данных

Задачи классификации: фильтрация спама SMS, MMLU
Поведение безопасности ИИ: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
Открытая генерация: комбинация наборов данных вредоносных и безвредных инструкций

Модели

Тестирование 6 моделей типа decoder-only:

Gemma-2 (2B-it, 9B-it)
Qwen-2.5 (1.5B-it, 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

Метрики оценки

Влияние производительности управления (SPI): количественная оценка доли неправильных ответов, исправленных управлением
Недоумение (PPL): оценка достоверности текста
Оценка GPT-4: автоматическая оценка демонстрирует ли сгенерированный текст целевое поведение

Методы сравнения

CAA-1 и CAA-1.5: методы контрастивного добавления активаций с фиксированными коэффициентами управления 1 и 1,5
MERA: метод механизированного снижения ошибок на основе линейных зондов

Результаты экспериментов

Основные результаты

Задачи генерации одного токена

Общий рейтинг: IDS имеет средний рейтинг 1,67, значительно превосходя MERA (1,93), CAA-1.5 (2,52) и CAA-1 (3,07)
Производительность модели: занимает первое место на 5 из 6 моделей
Производительность набора данных: занимает первое место на 5 из 7 наборов данных
Улучшение производительности: улучшение на 18 процентных пункта по сравнению с MERA на некоторых моделях

Открытая генерация текста

Рейтинг SPI: IDS имеет средний рейтинг 1,39, занимает первое место на всех 6 моделях и 4 наборах данных
Последовательность: постоянно занимает первые два места в 18 конфигурациях, демонстрируя отличную робастность
Сбалансированная производительность: достигает оптимального баланса между эффектом управления и достоверностью текста

Исследование абляции

Доля объяснённой дисперсии PCA: сохранение 30%-42% дисперсии даёт наивысшие и наиболее стабильные результаты SPI
Порог расстояния Махаланобиса: слабая положительная корреляция между порогом и производительностью управления
Порог F1-оценки: производительность управления начинает снижаться при превышении 80%

Анализ примеров

В статье представлено сравнение IDS и MERA при обработке вредоносных подсказок:

Подсказка: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
Вывод IDS: предоставляет соответствующие, но безопасные описания симптомов
Вывод MERA: создаёт повторяющиеся и бессмысленные последовательности токенов, происходит коллапс текста

Связь чрезмерного управления и коллапса

Эксперименты показывают, что MERA имеет тенденцию создавать большие средние коэффициенты управления, что приводит к отклонению активаций от распределения, в конечном итоге вызывая коллапс текста и высокое недоумение.

Связанные работы

Методы управления активациями

CAA (контрастивное добавление активаций): использование фиксированного коэффициента управления, может привести к недостаточному или чрезмерному управлению
MERA: основано на линейных зондах для предсказания ошибок при регулировке интенсивности управления, но в основном ориентировано на контролируемые задачи

Теоретическое основание

Предположение линейного представления: высокоуровневые концепции могут быть закодированы как направления в пространстве активаций
Вычисление вектора управления: метод разности средних и методы контролируемого зондирования

Заключение и обсуждение

Основные выводы

IDS достигает оптимального баланса между контролем поведения и согласованностью текста путём динамической регулировки интенсивности управления
Ограничения на основе распределения эффективно предотвращают чрезмерное управление и коллапс текста
Метод демонстрирует сильную робастность и универсальность на различных моделях и задачах

Ограничения

В настоящее время сосредоточено на направленном управлении, не охватывает угловое управление
Требует построения контрастивных наборов данных для моделирования распределения
Снижение размерности PCA может привести к потере некоторой важной информации

Будущие направления

Расширение на методы углового управления
Применение к генерации правдивости в задачах сложного рассуждения
Применение управления в процессе рассуждения моделей рассуждения

Глубокая оценка

Преимущества

Прочное теоретическое основание: теоретическая база, основанная на предположении линейного представления и ограничениях распределения
Сильная методологическая инновация: первое предложение адаптивной регулировки интенсивности управления на основе распределения
Комплексные и достаточные эксперименты: систематическая оценка на нескольких моделях, наборах данных и задачах
Высокая практическая ценность: предоставляет замкнутое решение, пригодное для приложений в реальном времени
Убедительные результаты: достигает оптимума Парето между эффектом управления и качеством текста

Недостатки

Вычислительная сложность: требует вычисления PCA и расстояния Махаланобиса, может увеличить накладные расходы вывода
Чувствительность к гиперпараметрам: множество гиперпараметров (доля дисперсии PCA, порог расстояния, порог F1-оценки) требуют настройки
Зависимость от данных: требует высококачественных контрастивных наборов данных для моделирования распределения
Недостаточный теоретический анализ: отсутствуют теоретические гарантии сходимости и стабильности метода

Влияние

Академический вклад: предоставляет новую теоретическую базу и практический метод для области управления активациями
Практическое применение: особенно подходит для высокорисковых сценариев приложений, требующих точного контроля поведения LLM
Воспроизводимость: предоставляет подробные детали реализации и открытый исходный код

Применимые сценарии

Безопасность контента: предотвращение генерации вредоносного или неуместного контента
Контроль фактичности: снижение галлюцинаций и ошибочной информации
Выравнивание поведения: приведение поведения модели в соответствие с конкретными требованиями приложения
Приложения в реальном времени: сценарии, требующие динамической регулировки поведения модели во время вывода

Библиография

В статье цитируются важные работы в области управления активациями, представления обучения и безопасности ИИ, включая:

Rimsky et al. (2024): оригинальная статья метода CAA
Hedström et al. (2025): метод MERA
Turner et al. (2024): обзор инженерии активаций
Mikolov et al. (2013): ранние работы по предположению линейного представления

Резюме: Предложенный в данной работе метод IDS имеет важное инновационное значение в области управления активациями. Путём введения ограничений распределения и механизма адаптивной регулировки метод эффективно решает проблему чрезмерного управления существующих методов. Результаты экспериментов полностью доказывают эффективность и практическую ценность метода, предоставляя важный инструмент для безопасного развёртывания LLM.