Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic
Controllo Preciso dell'Intensità degli Attributi nei Modelli Linguistici di Grandi Dimensioni tramite Editing Mirato delle Rappresentazioni
Questo articolo propone un metodo PRE-CONTROL per il controllo preciso dell'intensità degli attributi nei modelli linguistici di grandi dimensioni (LLM). Il metodo realizza il controllo preciso dell'intensità degli attributi attraverso tre design chiave: (1) riformulazione del controllo preciso dell'intensità degli attributi come problema di raggiungimento di obiettivi, piuttosto che semplice massimizzazione; (2) addestramento di una funzione di valore leggera tramite apprendimento per differenza temporale per prevedere i punteggi finali dell'intensità degli attributi da generazioni parziali; (3) applicazione di interventi basati su gradienti sulle rappresentazioni nascoste per navigare con precisione il modello verso obiettivi di intensità degli attributi specifici. Gli esperimenti dimostrano che il metodo può guidare la generazione di testo verso l'intensità degli attributi specificata dall'utente e mostra miglioramenti di efficienza in compiti a valle come la sintesi di dati di preferenza, l'approssimazione della frontiera di Pareto e la distillazione del comportamento di allineamento.
I metodi attuali di allineamento degli LLM presentano un limite critico: possono fornire solo indicazioni direzionali o aperte, senza raggiungere in modo affidabile un'intensità di attributo precisa. Ad esempio, un utente potrebbe desiderare che un'email abbia un livello di formalità di 3 (su scala 5), piuttosto che semplicemente "più formale" o "meno formale".
Il controllo preciso dell'intensità degli attributi è essenziale per costruire sistemi di IA adattati alle aspettative diversificate degli utenti, in particolare in scenari di allineamento multi-obiettivo dove esistono conflitti tra diversi attributi, richiedendo aggiustamenti a livello scalare su scale continue per trovare compromessi ottimali.
RLHF e DPO: Producono modelli statici che catturano il valore medio del comportamento desiderato, richiedendo un riaddestrament costoso per regolare le priorità
Metodi di Prompting: Dipendono completamente dall'interpretazione del modello delle istruzioni di stile, con risultati incoerenti
Decoding Guidato: Tipicamente tratta l'intensità degli attributi come categorica piuttosto che continua
Metodi di Allineamento Multi-Obiettivo: Richiedono un addestramento estensivo per approssimare l'insieme di Pareto globale
I metodi esistenti mancano della capacità di controllo preciso dell'intensità degli attributi. Questo articolo mira a realizzare un controllo granulare e continuo dell'intensità degli attributi, andando oltre il semplice allineamento direzionale.
Riformulazione del Problema: Espressione del controllo preciso dell'intensità degli attributi come problema di raggiungimento di obiettivi, piuttosto che semplice massimizzazione/minimizzazione
Approccio della Funzione di Valore: Addestramento di una funzione di valore leggera tramite apprendimento per differenza temporale per prevedere i punteggi degli attributi finali da generazioni parziali
Tecnica di Editing delle Rappresentazioni: Applicazione di interventi basati su gradienti sulle rappresentazioni nascoste per navigare con precisione verso obiettivi di intensità degli attributi specifici
Applicazione Efficiente: Dimostrazione di vantaggi di efficienza nell'approssimazione della frontiera di Pareto (complessità temporale ridotta da O(m^d) a O(n+k)) e nella distillazione di modelli controllabili
Dato un obiettivo di intensità degli attributi τ ∈ 0,1 e una funzione di ricompensa R(x), l'obiettivo è generare testo il cui punteggio di intensità degli attributi corrisponda al valore obiettivo, piuttosto che semplicemente massimizzare la ricompensa.
Raggiungimento di un ipervolume di 16,81 utilizzando 15k campioni e 2,1 ore GPU, superiore al metodo Best-of-N di 15,27 (che richiede 50k campioni e 7,8 ore GPU).
Funzione di Valore come Proxy del Modello di Ricompensa: Un MLP leggero potrebbe non catturare tutti i dettagli del segnale di ricompensa originale
Intervento dell'Ultimo Strato: L'implementazione attuale applica l'intervento solo all'ultimo strato transformer, potendo non sfruttare completamente i livelli di rappresentazione del modello
Overhead Computazionale: Sebbene relativamente efficiente, richiede comunque addestramento della funzione di valore e calcolo aggiuntivo al momento dell'inferenza
Forte Innovatività: Riformulazione del controllo degli attributi come problema di raggiungimento degli obiettivi, superando i limiti dell'allineamento direzionale tradizionale
Sistematicità del Metodo: L'addestramento della funzione di valore, l'apprendimento TD e l'intervento basato su gradienti formano un sistema tecnico completo
Esperimenti Completi: Valutazione complessiva su due dataset, due modelli, inclusi esperimenti di ablazione e validazione delle applicazioni
Alto Valore Pratico: Dimostrazione di significativi miglioramenti di efficienza nell'approssimazione della frontiera di Pareto e nella distillazione dei modelli
L'articolo cita 46 lavori correlati, coprendo campi chiave come allineamento degli LLM, ottimizzazione multi-obiettivo e ingegneria delle rappresentazioni, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo innovativo per il controllo preciso dell'intensità degli attributi, dimostrando eccellenza sia nei contributi teorici che nel valore pratico. Il design del metodo è razionale, la verifica sperimentale è completa e fornisce contributi importanti al campo del controllo degli LLM.