2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.

Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control

academic

Control Preciso de la Intensidad de Atributos en Modelos de Lenguaje Grande mediante Edición de Representación Dirigida

Información Básica

ID del Artículo: 2510.12121
Título: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Autores: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
Clasificación: cs.AI cs.CL cs.LG
Fecha de Publicación/Conferencia: Preimpresión (En revisión)
Enlace del Artículo: https://arxiv.org/abs/2510.12121

Resumen

Este artículo propone PRE-CONTROL, un método para controlar con precisión la intensidad de atributos en modelos de lenguaje grande (LLM). El método logra control preciso de intensidad de atributos mediante tres diseños clave: (1) reformular el control preciso de intensidad de atributos como un problema de logro de objetivos, en lugar de simple maximización; (2) entrenar una función de valor ligera mediante aprendizaje de diferencia temporal para predecir puntuaciones de intensidad de atributos finales a partir de generaciones parciales; (3) aplicar intervención basada en gradientes en representaciones ocultas para navegar con precisión el modelo hacia objetivos específicos de intensidad de atributos. Los experimentos demuestran que el método puede guiar la generación de texto hacia intensidades de atributos especificadas por el usuario, mostrando mejoras de eficiencia en tareas posteriores como síntesis de datos de preferencia, aproximación de frontera de Pareto y destilación de comportamiento alineado.

Contexto de Investigación y Motivación

Definición del Problema

Los métodos actuales de alineación de LLM presentan una limitación crítica: solo pueden proporcionar orientación direccional o abierta, sin poder alcanzar de manera confiable intensidades de atributos precisas. Por ejemplo, un usuario podría desear que un correo electrónico tenga un nivel de formalidad de 3 (en una escala de 5), en lugar de simplemente "más formal" o "menos formal".

Importancia del Problema

El control preciso de intensidad de atributos es crucial para construir sistemas de IA que se adapten a las expectativas diversas de los usuarios, particularmente en escenarios de alineación multiobjetivo donde existen conflictos entre diferentes atributos, requiriendo ajustes a nivel escalar en escalas continuas para encontrar compromisos óptimos.

Limitaciones de Métodos Existentes

RLHF y DPO: Producen modelos estáticos que capturan el promedio del comportamiento deseado, requiriendo reentrenamiento costoso para ajustar prioridades
Métodos de Indicaciones: Dependen completamente de la interpretación del modelo de instrucciones de estilo, resultando en inconsistencias
Decodificación Guiada: Típicamente trata la intensidad de atributos como clasificación en lugar de valor continuo
Métodos de Alineación Multiobjetivo: Requieren entrenamiento extenso para aproximar el conjunto de Pareto global

Motivación de la Investigación

Los métodos existentes carecen de capacidad para control preciso de intensidad de atributos. Este trabajo tiene como objetivo lograr control de grano fino y continuo de intensidad de atributos, superando la simple alineación direccional.

Contribuciones Principales

Reformulación del Problema: Expresar el control preciso de intensidad de atributos como un problema de logro de objetivos, en lugar de simple maximización/minimización
Enfoque de Función de Valor: Entrenar una función de valor ligera mediante aprendizaje de diferencia temporal para predecir puntuaciones de atributos finales a partir de generaciones parciales
Técnica de Edición de Representación: Aplicar intervención de representación oculta basada en gradientes para navegar con precisión hacia objetivos específicos de intensidad de atributos
Aplicación Eficiente: Demostrar ventajas de eficiencia en aproximación de frontera de Pareto (reduciendo complejidad temporal de O(m^d) a O(n+k)) y destilación de modelo controlable

Explicación Detallada del Método

Definición de la Tarea

Dado un objetivo de intensidad de atributo τ ∈ 0,1 y una función de recompensa R(x), el objetivo es generar texto cuya puntuación de intensidad de atributo coincida con el valor objetivo, en lugar de simplemente maximizar la recompensa.

Arquitectura del Modelo

1. Reconstrucción del Problema de Logro de Objetivos

Objetivo de alineación tradicional:

max_θ E_{x~π_θ}[R(x)]

Formulación de logro de objetivos del presente trabajo:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

donde R̂(x) es la función de recompensa normalizada a 0,1.

2. Entrenamiento de Función de Valor

Usar TD(λ) para entrenar la función de valor V_φ(h_t) que predice la intensidad de atributo esperada de secuencias parciales:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

Cálculo de retorno generalizado:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

Pérdida de función de valor:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. Intervención en Tiempo de Prueba

Ajustar estados ocultos mediante descenso de gradiente:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

Caso multiobjetivo:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

Puntos de Innovación Técnica

Diseño Orientado a Objetivos: Transición de optimización direccional a logro de objetivos preciso
Mecanismo de Retroalimentación en Tiempo Real: La función de valor proporciona retroalimentación intermedia durante el proceso de generación
Navegación en Espacio de Representación: Navegación precisa directa en espacio de representación de alta dimensión
Coordinación Multiobjetivo: Control simultáneo de múltiples atributos potencialmente conflictivos

Configuración Experimental

Conjuntos de Datos

HelpSteer2: 20,324 muestras de entrenamiento, 1,038 muestras de prueba, conteniendo 5 atributos (helpfulness, correctness, coherence, complexity, verbosity)
Code-UltraFeedback: 10,000 instrucciones complejas, conteniendo 5 atributos relacionados con programación (complexity & efficiency, style, explanation, instruction-following, readability)

Métricas de Evaluación

Puntuación Self-BLEU: Mide la diversidad del texto generado (menor es mejor)
Distancia ℓ1 al Objetivo: Evalúa la proximidad de la salida del modelo a la puntuación de atributo especificada por el usuario
Tasa de Éxito: Frecuencia con la que la salida del modelo coincide exactamente con la configuración de atributo esperada

Métodos de Comparación

Base: Generación directa del modelo base
Prompting: Incluir puntuaciones de atributo objetivo en la indicación
ITI: Entrenar capa lineal para predecir recompensa y ajustar activaciones a lo largo de dirección aprendida
MAT-Steer: Aprender vectores de guía multiobjetivo escasos y ortogonales
RE-Control: Realizar optimización de forma abierta con intervención en tiempo de prueba

Detalles de Implementación

Modelo Base: LLaMA-3.2-3b y Phi-4-mini
Función de Valor: MLP de 4 capas
Modelo de Recompensa: ArmoRM-Llama3-8B
Capa de Intervención: Última capa de transformer
Optimizador: Adam, técnicas de parada temprana

Resultados Experimentales

Resultados Principales

Resultados experimentales en puntuaciones objetivo representativas:

Objetivo Positivo (HelpSteer2 4,4,4,2,2):

LLaMA-3.2-3b: Tasa de éxito de PRE-CONTROL 7.96% vs 5.39% de mejor línea base
Phi-4-mini: Tasa de éxito de PRE-CONTROL 8.31% vs 5.70% de mejor línea base

Objetivo Negativo (HelpSteer2 3,3,3,2,2):

LLaMA-3.2-3b: Tasa de éxito de PRE-CONTROL 6.60% vs 5.84% de mejor línea base
Phi-4-mini: Tasa de éxito de PRE-CONTROL 9.11% vs 8.73% de mejor línea base

Resultados de Code-UltraFeedback:

Objetivo positivo 3,3,3,3,3: Tasa de éxito mejorada a 17.46%-26.16%
Objetivo negativo 2,2,2,2,2: Tasa de éxito mejorada a 22.34%-30.68%

Resultados de Intervención Iterativa

PRE-CONTROL muestra mejora de rendimiento continua en múltiples iteraciones, mientras que otros métodos se estabilizan después de la segunda iteración.

Aproximación de Frontera de Pareto

Mejora de Calidad: Hipervolumen aumenta de 7.54 a 12.66
Mejora de Eficiencia: Carga computacional reducida de 3.3 horas GPU a 0.4 horas (reducción de 8 veces)
Más Puntos Descubiertos: Puntos no dominados aumentan de 45 a 69

Destilación Controlable

Alcanzar hipervolumen de 16.81 usando 15k muestras y 2.1 horas GPU, superando el método Best-of-N de 15.27 (requiriendo 50k muestras y 7.8 horas GPU).

Análisis de Casos

El análisis cualitativo muestra que PRE-CONTROL puede:

Control Negativo: Ajustar con precisión respuestas excesivamente detalladas 4,4,4,3,3 a versión concisa 3,3,3,2,2
Control Positivo: Expandir respuestas simples 4,4,4,1,1 a versión más detallada 4,4,4,2,2

Trabajo Relacionado

Alineación de LLM

Paradigmas de Ajuste Fino: RLHF y DPO requieren entrenamiento multietapa, intensivo en recursos
Intervención en Tiempo de Inferencia: Ingeniería de indicaciones y decodificación guiada carecen de mecanismos de control preciso
Alineación Multiobjetivo: Los métodos existentes requieren reentrenamiento costoso para inyectar preferencias multiobjetivo

Ingeniería de Representación

Perturbación de Activación: Evolución desde métodos plug-and-play hacia aprendizaje de vectores guía
Ajuste Fino de Representación: Edición eficiente de activaciones usando matrices de proyección de bajo rango
Limitaciones: Enfoque principal en control de atributos binarios o categóricos, no en objetivos precisos en escala continua

Conclusiones y Discusión

Conclusiones Principales

PRE-CONTROL logra control preciso de intensidad de atributos en LLM
La formulación de logro de objetivos es más adecuada que métodos de maximización tradicionales para control preciso
La combinación de función de valor e intervención basada en gradientes proporciona mecanismo de control efectivo
El método demuestra ventajas de eficiencia en múltiples aplicaciones posteriores

Limitaciones

Función de Valor como Proxy de Modelo de Recompensa: El MLP ligero puede no capturar todos los detalles de la señal de recompensa original
Intervención de Última Capa: La implementación actual solo aplica intervención en la última capa de transformer, posiblemente sin aprovechar completamente la jerarquía de representación del modelo
Carga Computacional: Aunque relativamente eficiente, aún requiere entrenamiento de función de valor adicional y computación en tiempo de inferencia

Direcciones Futuras

Explorar arquitecturas de función de valor más complejas para aproximar mejor las capacidades del modelo de recompensa
Investigar estrategias de intervención multicapa o modificaciones a nivel de atención
Desarrollar mecanismos adaptativos para consultar selectivamente el modelo de recompensa completo en casos difíciles

Evaluación Profunda

Fortalezas

Innovación Fuerte: Reformulación del control de atributos como problema de logro de objetivos, superando limitaciones de alineación direccional tradicional
Sistematicidad del Método: Entrenamiento de función de valor, aprendizaje TD e intervención de gradiente forman sistema técnico completo
Experimentación Exhaustiva: Evaluación integral en dos conjuntos de datos, dos modelos, incluyendo experimentos de ablación y validación de aplicaciones
Alto Valor Práctico: Demuestra mejoras significativas de eficiencia en aproximación de frontera de Pareto y destilación de modelo

Deficiencias

Análisis Teórico Insuficiente: Falta garantías de convergencia y análisis teórico de estabilidad de intervención
Dependencia de Función de Valor: El rendimiento del método depende en gran medida de la calidad de la función de valor
Capacidad de Generalización: Validación solo en atributos y modelos específicos, capacidad de generalización requiere verificación adicional
Complejidad Computacional: Aunque relativamente eficiente, aún requiere computación adicional en tiempo de inferencia

Impacto

Contribución Académica: Proporciona nuevo paradigma de investigación para control preciso de LLM
Valor Práctico: Proporciona herramienta efectiva para sistemas de IA personalizados y optimización multiobjetivo
Reproducibilidad: Los autores proporcionan código completo y configuración experimental

Escenarios Aplicables

Generación de Contenido Personalizado: Requiere control preciso de atributos de estilo de texto, complejidad, etc.
Optimización Multiobjetivo: Búsqueda de equilibrio óptimo entre atributos conflictivos
Alineación de Modelo: Generación eficiente de datos de entrenamiento que satisfacen requisitos de atributo específicos
Sistemas de IA Interactivos: Ajuste dinámico de atributos de salida basado en retroalimentación del usuario

Referencias

El artículo cita 46 referencias relacionadas, abarcando trabajos importantes en campos clave como alineación de LLM, optimización multiobjetivo e ingeniería de representación, proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que propone un método innovador para control preciso de intensidad de atributos, demostrando excelencia tanto en contribución teórica como en valor práctico. El diseño del método es razonable, la verificación experimental es exhaustiva, realizando contribución importante al campo del control de LLM.