Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic
Точное управление интенсивностью атрибутов в больших языковых моделях посредством целевого редактирования представлений
В данной работе предложен метод PRE-CONTROL для точного управления интенсивностью атрибутов в больших языковых моделях (БЯМ). Метод реализует точное управление интенсивностью атрибутов через три ключевых компонента: (1) переформулировка точного управления интенсивностью атрибутов как задачи достижения цели, а не простой максимизации; (2) обучение легковесной функции ценности с использованием обучения временным разностям для предсказания финальной оценки интенсивности атрибута из частичной генерации; (3) применение градиентного вмешательства на скрытых представлениях для точной навигации модели к целевой интенсивности атрибута. Экспериментальные результаты показывают, что метод способен направлять генерацию текста к пользовательской интенсивности атрибута и демонстрирует повышение эффективности в нисходящих задачах, включая синтез данных предпочтений, аппроксимацию фронта Парето и дистилляцию поведения при выравнивании.
Современные методы выравнивания БЯМ имеют критическое ограничение: они могут предоставлять только направленное или открытое руководство, но не могут надежно достичь точной интенсивности атрибута. Например, пользователь может пожелать, чтобы формальность электронного письма была 3 (по 5-балльной шкале), а не просто "более формальное" или "менее формальное".
Точное управление интенсивностью атрибутов критически важно для создания систем искусственного интеллекта, адаптированных к разнообразным ожиданиям пользователей, особенно в сценариях многоцелевого выравнивания, где существуют конфликты между различными атрибутами и требуется скалярная регулировка на непрерывной шкале для поиска оптимального компромисса.
Существующие методы не обладают способностью точного управления интенсивностью атрибутов. Данная работа направлена на реализацию мелкозернистого, непрерывного управления интенсивностью атрибутов, выходящего за рамки простого направленного выравнивания.
Переформулировка проблемы: представление точного управления интенсивностью атрибутов как задачи достижения цели, а не простой максимизации/минимизации
Метод функции ценности: обучение легковесной функции ценности с использованием обучения временным разностям для предсказания финальной оценки атрибута из частичной генерации
Техника редактирования представлений: применение градиентного вмешательства на скрытых представлениях для точной навигации к целевой интенсивности атрибута
Эффективные приложения: демонстрация преимуществ эффективности при аппроксимации фронта Парето (снижение временной сложности с O(m^d) до O(n+k)) и управляемой дистилляции моделей
Учитывая целевую интенсивность атрибута τ ∈ 0,1 и функцию вознаграждения R(x), цель состоит в генерации текста, оценка интенсивности атрибута которого соответствует целевому значению, а не просто максимизирует вознаграждение.
Code-UltraFeedback: 10 000 сложных инструкций, содержащих 5 атрибутов, связанных с программированием (сложность и эффективность, стиль, объяснение, следование инструкциям, читаемость)
PRE-CONTROL демонстрирует постоянное повышение производительности при множественных итерациях, тогда как другие методы стабилизируются после второй итерации.
Достижение гиперобъема 16,81 с использованием 15k образцов и 2,1 часов GPU, что превосходит метод Best-of-N с 15,27 (требует 50k образцов и 7,8 часов GPU).
Функция ценности как прокси модели вознаграждения: легковесный MLP может не захватить все детали исходного сигнала вознаграждения
Вмешательство на последнем слое: текущая реализация применяет вмешательство только на последнем слое трансформера, что может недостаточно использовать иерархию представлений модели
Вычислительные затраты: хотя относительно эффективно, все еще требует дополнительного обучения функции ценности и вычисления во время вывода
Высокая инновационность: переформулировка управления атрибутами как задачи достижения цели преодолевает ограничения традиционного направленного выравнивания
Системность метода: обучение функции ценности, обучение временным разностям и градиентное вмешательство образуют полную техническую систему
Полнота экспериментов: комплексная оценка на двух наборах данных, двух моделях, включая абляционные исследования и проверку приложений
Высокая практическая ценность: демонстрирует значительное повышение эффективности при аппроксимации фронта Парето и дистилляции моделей
Статья цитирует 46 связанных работ, охватывающих ключевые области выравнивания БЯМ, многоцелевой оптимизации и инженерии представлений, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационный метод точного управления интенсивностью атрибутов, демонстрирующая отличные результаты как в теоретическом вкладе, так и в практической ценности. Метод хорошо спроектирован, эксперименты полны, и работа вносит значительный вклад в область управления БЯМ.