Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic
Control Preciso de la Intensidad de Atributos en Modelos de Lenguaje Grande mediante Edición de Representación Dirigida
Este artículo propone PRE-CONTROL, un método para controlar con precisión la intensidad de atributos en modelos de lenguaje grande (LLM). El método logra control preciso de intensidad de atributos mediante tres diseños clave: (1) reformular el control preciso de intensidad de atributos como un problema de logro de objetivos, en lugar de simple maximización; (2) entrenar una función de valor ligera mediante aprendizaje de diferencia temporal para predecir puntuaciones de intensidad de atributos finales a partir de generaciones parciales; (3) aplicar intervención basada en gradientes en representaciones ocultas para navegar con precisión el modelo hacia objetivos específicos de intensidad de atributos. Los experimentos demuestran que el método puede guiar la generación de texto hacia intensidades de atributos especificadas por el usuario, mostrando mejoras de eficiencia en tareas posteriores como síntesis de datos de preferencia, aproximación de frontera de Pareto y destilación de comportamiento alineado.
Los métodos actuales de alineación de LLM presentan una limitación crítica: solo pueden proporcionar orientación direccional o abierta, sin poder alcanzar de manera confiable intensidades de atributos precisas. Por ejemplo, un usuario podría desear que un correo electrónico tenga un nivel de formalidad de 3 (en una escala de 5), en lugar de simplemente "más formal" o "menos formal".
El control preciso de intensidad de atributos es crucial para construir sistemas de IA que se adapten a las expectativas diversas de los usuarios, particularmente en escenarios de alineación multiobjetivo donde existen conflictos entre diferentes atributos, requiriendo ajustes a nivel escalar en escalas continuas para encontrar compromisos óptimos.
RLHF y DPO: Producen modelos estáticos que capturan el promedio del comportamiento deseado, requiriendo reentrenamiento costoso para ajustar prioridades
Métodos de Indicaciones: Dependen completamente de la interpretación del modelo de instrucciones de estilo, resultando en inconsistencias
Decodificación Guiada: Típicamente trata la intensidad de atributos como clasificación en lugar de valor continuo
Métodos de Alineación Multiobjetivo: Requieren entrenamiento extenso para aproximar el conjunto de Pareto global
Los métodos existentes carecen de capacidad para control preciso de intensidad de atributos. Este trabajo tiene como objetivo lograr control de grano fino y continuo de intensidad de atributos, superando la simple alineación direccional.
Reformulación del Problema: Expresar el control preciso de intensidad de atributos como un problema de logro de objetivos, en lugar de simple maximización/minimización
Enfoque de Función de Valor: Entrenar una función de valor ligera mediante aprendizaje de diferencia temporal para predecir puntuaciones de atributos finales a partir de generaciones parciales
Técnica de Edición de Representación: Aplicar intervención de representación oculta basada en gradientes para navegar con precisión hacia objetivos específicos de intensidad de atributos
Aplicación Eficiente: Demostrar ventajas de eficiencia en aproximación de frontera de Pareto (reduciendo complejidad temporal de O(m^d) a O(n+k)) y destilación de modelo controlable
Dado un objetivo de intensidad de atributo τ ∈ 0,1 y una función de recompensa R(x), el objetivo es generar texto cuya puntuación de intensidad de atributo coincida con el valor objetivo, en lugar de simplemente maximizar la recompensa.
PRE-CONTROL muestra mejora de rendimiento continua en múltiples iteraciones, mientras que otros métodos se estabilizan después de la segunda iteración.
Función de Valor como Proxy de Modelo de Recompensa: El MLP ligero puede no capturar todos los detalles de la señal de recompensa original
Intervención de Última Capa: La implementación actual solo aplica intervención en la última capa de transformer, posiblemente sin aprovechar completamente la jerarquía de representación del modelo
Carga Computacional: Aunque relativamente eficiente, aún requiere entrenamiento de función de valor adicional y computación en tiempo de inferencia
Innovación Fuerte: Reformulación del control de atributos como problema de logro de objetivos, superando limitaciones de alineación direccional tradicional
Sistematicidad del Método: Entrenamiento de función de valor, aprendizaje TD e intervención de gradiente forman sistema técnico completo
Experimentación Exhaustiva: Evaluación integral en dos conjuntos de datos, dos modelos, incluyendo experimentos de ablación y validación de aplicaciones
Alto Valor Práctico: Demuestra mejoras significativas de eficiencia en aproximación de frontera de Pareto y destilación de modelo
El artículo cita 46 referencias relacionadas, abarcando trabajos importantes en campos clave como alineación de LLM, optimización multiobjetivo e ingeniería de representación, proporcionando base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación de alta calidad que propone un método innovador para control preciso de intensidad de atributos, demostrando excelencia tanto en contribución teórica como en valor práctico. El diseño del método es razonable, la verificación experimental es exhaustiva, realizando contribución importante al campo del control de LLM.