2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic

Точное управление интенсивностью атрибутов в больших языковых моделях посредством целевого редактирования представлений

Основная информация

  • ID статьи: 2510.12121
  • Название: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
  • Авторы: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
  • Классификация: cs.AI cs.CL cs.LG
  • Дата публикации/конференция: Препринт (на рецензии)
  • Ссылка на статью: https://arxiv.org/abs/2510.12121

Аннотация

В данной работе предложен метод PRE-CONTROL для точного управления интенсивностью атрибутов в больших языковых моделях (БЯМ). Метод реализует точное управление интенсивностью атрибутов через три ключевых компонента: (1) переформулировка точного управления интенсивностью атрибутов как задачи достижения цели, а не простой максимизации; (2) обучение легковесной функции ценности с использованием обучения временным разностям для предсказания финальной оценки интенсивности атрибута из частичной генерации; (3) применение градиентного вмешательства на скрытых представлениях для точной навигации модели к целевой интенсивности атрибута. Экспериментальные результаты показывают, что метод способен направлять генерацию текста к пользовательской интенсивности атрибута и демонстрирует повышение эффективности в нисходящих задачах, включая синтез данных предпочтений, аппроксимацию фронта Парето и дистилляцию поведения при выравнивании.

Исследовательский контекст и мотивация

Определение проблемы

Современные методы выравнивания БЯМ имеют критическое ограничение: они могут предоставлять только направленное или открытое руководство, но не могут надежно достичь точной интенсивности атрибута. Например, пользователь может пожелать, чтобы формальность электронного письма была 3 (по 5-балльной шкале), а не просто "более формальное" или "менее формальное".

Важность проблемы

Точное управление интенсивностью атрибутов критически важно для создания систем искусственного интеллекта, адаптированных к разнообразным ожиданиям пользователей, особенно в сценариях многоцелевого выравнивания, где существуют конфликты между различными атрибутами и требуется скалярная регулировка на непрерывной шкале для поиска оптимального компромисса.

Ограничения существующих методов

  1. RLHF и DPO: производят статические модели, захватывающие среднее значение желаемого поведения, требуют дорогостоящего переобучения для корректировки приоритетов
  2. Методы на основе подсказок: полностью зависят от интерпретации моделью инструкций по стилю, результаты непостоянны
  3. Управляемое декодирование: обычно рассматривает интенсивность атрибута как классификацию, а не как непрерывное значение
  4. Методы многоцелевого выравнивания: требуют значительного объема обучения для аппроксимации глобального множества Парето

Исследовательская мотивация

Существующие методы не обладают способностью точного управления интенсивностью атрибутов. Данная работа направлена на реализацию мелкозернистого, непрерывного управления интенсивностью атрибутов, выходящего за рамки простого направленного выравнивания.

Основные вклады

  1. Переформулировка проблемы: представление точного управления интенсивностью атрибутов как задачи достижения цели, а не простой максимизации/минимизации
  2. Метод функции ценности: обучение легковесной функции ценности с использованием обучения временным разностям для предсказания финальной оценки атрибута из частичной генерации
  3. Техника редактирования представлений: применение градиентного вмешательства на скрытых представлениях для точной навигации к целевой интенсивности атрибута
  4. Эффективные приложения: демонстрация преимуществ эффективности при аппроксимации фронта Парето (снижение временной сложности с O(m^d) до O(n+k)) и управляемой дистилляции моделей

Подробное описание метода

Определение задачи

Учитывая целевую интенсивность атрибута τ ∈ 0,1 и функцию вознаграждения R(x), цель состоит в генерации текста, оценка интенсивности атрибута которого соответствует целевому значению, а не просто максимизирует вознаграждение.

Архитектура модели

1. Переконструирование задачи достижения цели

Традиционная цель выравнивания:

max_θ E_{x~π_θ}[R(x)]

Формулировка задачи достижения цели в данной работе:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

где R̂(x) — функция вознаграждения, нормализованная к 0,1.

2. Обучение функции ценности

Использование TD(λ) для обучения функции ценности V_φ(h_t) предсказанию ожидаемой интенсивности атрибута для частичной последовательности:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

Расчет обобщенного возврата:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

Потеря функции ценности:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. Вмешательство во время тестирования

Корректировка скрытого состояния посредством градиентного спуска:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

Случай с несколькими атрибутами:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

Технические инновации

  1. Целеориентированный дизайн: переход от направленной оптимизации к точному достижению цели
  2. Механизм обратной связи в реальном времени: функция ценности обеспечивает промежуточную обратную связь в процессе генерации
  3. Навигация в пространстве представлений: прямая точная навигация в высокомерном пространстве представлений
  4. Координация нескольких атрибутов: одновременное управление несколькими потенциально конфликтующими атрибутами

Экспериментальная установка

Наборы данных

  1. HelpSteer2: 20 324 обучающих образца, 1 038 тестовых образцов, содержащих 5 атрибутов (полезность, корректность, связность, сложность, многословность)
  2. Code-UltraFeedback: 10 000 сложных инструкций, содержащих 5 атрибутов, связанных с программированием (сложность и эффективность, стиль, объяснение, следование инструкциям, читаемость)

Метрики оценки

  1. Оценка Self-BLEU: измерение разнообразия генерируемого текста (чем ниже, тем лучше)
  2. Расстояние ℓ1 до цели: оценка близости выходных данных модели к пользовательской оценке интенсивности атрибута
  3. Коэффициент успеха: частота, с которой выходные данные модели точно соответствуют ожидаемой конфигурации атрибутов

Методы сравнения

  • Base: прямая генерация базовой моделью
  • Prompting: включение целевой оценки интенсивности атрибута в подсказку
  • ITI: обучение линейного слоя для предсказания вознаграждения и корректировка активаций вдоль изученного направления
  • MAT-Steer: обучение разреженным, ортогональным векторам многоатрибутного управления
  • RE-Control: выполнение открытой оптимизации вмешательства во время тестирования

Детали реализации

  • Базовая модель: LLaMA-3.2-3b и Phi-4-mini
  • Функция ценности: 4-слойный MLP
  • Модель вознаграждения: ArmoRM-Llama3-8B
  • Слой вмешательства: последний слой трансформера
  • Оптимизатор: Adam, техника ранней остановки

Экспериментальные результаты

Основные результаты

Результаты экспериментов на репрезентативных целевых оценках показывают:

Положительная цель (HelpSteer2 4,4,4,2,2):

  • LLaMA-3.2-3b: коэффициент успеха PRE-CONTROL 7,96% против 5,39% лучшего базового метода
  • Phi-4-mini: коэффициент успеха PRE-CONTROL 8,31% против 5,70% лучшего базового метода

Отрицательная цель (HelpSteer2 3,3,3,2,2):

  • LLaMA-3.2-3b: коэффициент успеха PRE-CONTROL 6,60% против 5,84% лучшего базового метода
  • Phi-4-mini: коэффициент успеха PRE-CONTROL 9,11% против 8,73% лучшего базового метода

Результаты Code-UltraFeedback:

  • Положительная цель 3,3,3,3,3: коэффициент успеха повышается до 17,46%-26,16%
  • Отрицательная цель 2,2,2,2,2: коэффициент успеха повышается до 22,34%-30,68%

Результаты итеративного вмешательства

PRE-CONTROL демонстрирует постоянное повышение производительности при множественных итерациях, тогда как другие методы стабилизируются после второй итерации.

Аппроксимация фронта Парето

  • Повышение качества: гиперобъем увеличивается с 7,54 до 12,66
  • Повышение эффективности: вычислительные затраты снижаются с 3,3 часов GPU до 0,4 часов (8-кратное снижение)
  • Обнаружение большего количества точек: недоминируемые точки увеличиваются с 45 до 69

Управляемая дистилляция

Достижение гиперобъема 16,81 с использованием 15k образцов и 2,1 часов GPU, что превосходит метод Best-of-N с 15,27 (требует 50k образцов и 7,8 часов GPU).

Анализ примеров

Качественный анализ показывает, что PRE-CONTROL способен:

  • Отрицательное управление: точная корректировка чрезмерно подробных ответов 4,4,4,3,3 к краткой версии 3,3,3,2,2
  • Положительное управление: расширение простых ответов 4,4,4,1,1 к более подробной версии 4,4,4,2,2

Связанные работы

Выравнивание БЯМ

  1. Парадигмы тонкой настройки: RLHF и DPO требуют многоэтапного обучения, ресурсоемкие
  2. Вмешательство во время вывода: инженерия подсказок и управляемое декодирование не обладают механизмами точного управления
  3. Многоцелевое выравнивание: существующие методы требуют дорогостоящего переобучения для внедрения многоцелевых предпочтений

Инженерия представлений

  1. Возмущение активаций: развитие от методов plug-and-play к обучению векторов управления
  2. Тонкая настройка представлений: эффективное редактирование активаций с использованием матриц низкого ранга
  3. Ограничения: в основном сосредоточены на двоичном или категориальном управлении атрибутами, а не на точной целевой установке на непрерывной шкале

Заключение и обсуждение

Основные выводы

  1. PRE-CONTROL реализует точное управление интенсивностью атрибутов в БЯМ
  2. Формулировка задачи достижения цели более подходит для точного управления, чем традиционные методы максимизации
  3. Комбинация функции ценности и градиентного вмешательства обеспечивает эффективный механизм управления
  4. Метод демонстрирует преимущества эффективности в нескольких нисходящих приложениях

Ограничения

  1. Функция ценности как прокси модели вознаграждения: легковесный MLP может не захватить все детали исходного сигнала вознаграждения
  2. Вмешательство на последнем слое: текущая реализация применяет вмешательство только на последнем слое трансформера, что может недостаточно использовать иерархию представлений модели
  3. Вычислительные затраты: хотя относительно эффективно, все еще требует дополнительного обучения функции ценности и вычисления во время вывода

Направления будущих исследований

  1. Исследование более сложных архитектур функции ценности для лучшей аппроксимации возможностей модели вознаграждения
  2. Изучение многослойных стратегий вмешательства или модификаций на уровне внимания
  3. Разработка адаптивных механизмов для выборочного запроса полной модели вознаграждения в сложных случаях

Глубокая оценка

Преимущества

  1. Высокая инновационность: переформулировка управления атрибутами как задачи достижения цели преодолевает ограничения традиционного направленного выравнивания
  2. Системность метода: обучение функции ценности, обучение временным разностям и градиентное вмешательство образуют полную техническую систему
  3. Полнота экспериментов: комплексная оценка на двух наборах данных, двух моделях, включая абляционные исследования и проверку приложений
  4. Высокая практическая ценность: демонстрирует значительное повышение эффективности при аппроксимации фронта Парето и дистилляции моделей

Недостатки

  1. Недостаточный теоретический анализ: отсутствуют гарантии сходимости и теоретический анализ стабильности вмешательства
  2. Зависимость от функции ценности: производительность метода в значительной степени зависит от качества функции ценности
  3. Способность к обобщению: проверена только на конкретных атрибутах и моделях, способность к обобщению требует дальнейшей проверки
  4. Вычислительная сложность: хотя относительно эффективно, все еще требует дополнительных вычислений во время вывода

Влияние

  1. Академический вклад: предоставляет новую исследовательскую парадигму для точного управления БЯМ
  2. Практическая ценность: предоставляет эффективный инструмент для персонализированных систем искусственного интеллекта и многоцелевой оптимизации
  3. Воспроизводимость: авторы предоставляют полный код и конфигурацию экспериментов

Применимые сценарии

  1. Персонализированная генерация контента: требуется точное управление стилем текста, сложностью и другими атрибутами
  2. Многоцелевая оптимизация: поиск оптимального баланса между конфликтующими атрибутами
  3. Выравнивание моделей: эффективная генерация обучающих данных, соответствующих конкретным требованиям атрибутов
  4. Интерактивные системы искусственного интеллекта: динамическая корректировка выходных атрибутов на основе обратной связи пользователя

Библиография

Статья цитирует 46 связанных работ, охватывающих ключевые области выравнивания БЯМ, многоцелевой оптимизации и инженерии представлений, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационный метод точного управления интенсивностью атрибутов, демонстрирующая отличные результаты как в теоретическом вкладе, так и в практической ценности. Метод хорошо спроектирован, эксперименты полны, и работа вносит значительный вклад в область управления БЯМ.