In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic
Управление в рамках распределения: Балансирование контроля и согласованности при генерации текста языковыми моделями
Методы управления активациями контролируют поведение больших языковых моделей (LLM) путём модификации внутренних активаций во время вывода. Однако большинство существующих методов управления активациями полагаются на фиксированную интенсивность управления, что приводит к недостаточному или чрезмерному вмешательству и снижает достоверность и согласованность текста. В данной работе предлагается управление в рамках распределения (IDS) — новый метод, который адаптивно регулирует интенсивность управления на основе распределения входных данных в пространстве представлений. IDS динамически адаптирует вмешательство в зависимости от положения данного входа в распределении, достигая адаптивного вмешательства и стабильности генерации текста. Экспериментальные результаты показывают, что IDS достигает высокой точности в задачах классификации при одновременном создании согласованного текста без коллапса, что делает IDS особенно пригодным для практических приложений.
RLHF (обучение с подкреплением на основе обратной связи человека): требует больших объёмов данных и вычислительных ресурсов, непрозрачный способ модификации весов модели, может привести к введению новых предубеждений
Инженерия подсказок: косвенный эффект, высокая чувствительность к контексту
Существующие методы управления активациями:
Использование фиксированной интенсивности управления приводит к недостаточному или чрезмерному управлению
Недостаточное тестирование на открытой генерации текста
Невозможность генерировать достоверный управляемый текст
Предложение метода IDS: новый метод управления активациями, который динамически регулирует интенсивность управления для каждого входа, достигая точного контроля поведения при сохранении достоверности и согласованности текста
Комплексная экспериментальная оценка: оценка производительности IDS на 6 LLM и 7 наборах данных с сравнением двумя конкурирующими методами, демонстрирующая эффективность, робастность и универсальность на задачах предсказания одного токена и открытой генерации текста
Исследование абляции: глубокий анализ компонентов производительности IDS, раскрывающий механизмы её успеха
Теоретическое основание: основано на предположении линейного представления, обеспечивающее замкнутое решение для эффективного вычисления в реальном времени
Учитывая исходные активации h_{l,p} ∈ R^d языковой модели на слое l и позиции токена p, управление активациями модифицирует поведение посредством следующего вмешательства:
h_{l,p} ← h_{l,p} + α_{l,p}v_l
где v_l ∈ R^d — вектор управления, кодирующий направление желаемого поведения, а α_{l,p} ∈ R контролирует интенсивность вмешательства для конкретного слоя и позиции токена.
Снижение размерности PCA: применение анализа главных компонент для решения проблемы проклятия размерности в высокомерном пространстве
Моделирование расстояния Махаланобиса: использование расстояния Махаланобиса для измерения расстояния активации до целевого распределения, установка 95-го процентиля в качестве порога распределения ε
Адаптивная интенсивность управления: динамическая регулировка интенсивности вмешательства в зависимости от положения входа в распределении целевого поведения
Ограничения распределения: обеспечение того, чтобы управляемые активации оставались в пределах распределения целевого поведения
Замкнутое решение: обеспечение эффективного метода вычисления в реальном времени
Механизм выбора слоя: вмешательство только в слои с высокой дискриминативной способностью
Эксперименты показывают, что MERA имеет тенденцию создавать большие средние коэффициенты управления, что приводит к отклонению активаций от распределения, в конечном итоге вызывая коллапс текста и высокое недоумение.
CAA (контрастивное добавление активаций): использование фиксированного коэффициента управления, может привести к недостаточному или чрезмерному управлению
MERA: основано на линейных зондах для предсказания ошибок при регулировке интенсивности управления, но в основном ориентировано на контролируемые задачи
В статье цитируются важные работы в области управления активациями, представления обучения и безопасности ИИ, включая:
Rimsky et al. (2024): оригинальная статья метода CAA
Hedström et al. (2025): метод MERA
Turner et al. (2024): обзор инженерии активаций
Mikolov et al. (2013): ранние работы по предположению линейного представления
Резюме: Предложенный в данной работе метод IDS имеет важное инновационное значение в области управления активациями. Путём введения ограничений распределения и механизма адаптивной регулировки метод эффективно решает проблему чрезмерного управления существующих методов. Результаты экспериментов полностью доказывают эффективность и практическую ценность метода, предоставляя важный инструмент для безопасного развёртывания LLM.