2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.

Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control

academic

Controllo Preciso dell'Intensità degli Attributi nei Modelli Linguistici di Grandi Dimensioni tramite Editing Mirato delle Rappresentazioni

Informazioni Fondamentali

ID Articolo: 2510.12121
Titolo: Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Autori: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
Classificazione: cs.AI cs.CL cs.LG
Data di Pubblicazione/Conferenza: Preprint (In revisione)
Link Articolo: https://arxiv.org/abs/2510.12121

Riassunto

Questo articolo propone un metodo PRE-CONTROL per il controllo preciso dell'intensità degli attributi nei modelli linguistici di grandi dimensioni (LLM). Il metodo realizza il controllo preciso dell'intensità degli attributi attraverso tre design chiave: (1) riformulazione del controllo preciso dell'intensità degli attributi come problema di raggiungimento di obiettivi, piuttosto che semplice massimizzazione; (2) addestramento di una funzione di valore leggera tramite apprendimento per differenza temporale per prevedere i punteggi finali dell'intensità degli attributi da generazioni parziali; (3) applicazione di interventi basati su gradienti sulle rappresentazioni nascoste per navigare con precisione il modello verso obiettivi di intensità degli attributi specifici. Gli esperimenti dimostrano che il metodo può guidare la generazione di testo verso l'intensità degli attributi specificata dall'utente e mostra miglioramenti di efficienza in compiti a valle come la sintesi di dati di preferenza, l'approssimazione della frontiera di Pareto e la distillazione del comportamento di allineamento.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi attuali di allineamento degli LLM presentano un limite critico: possono fornire solo indicazioni direzionali o aperte, senza raggiungere in modo affidabile un'intensità di attributo precisa. Ad esempio, un utente potrebbe desiderare che un'email abbia un livello di formalità di 3 (su scala 5), piuttosto che semplicemente "più formale" o "meno formale".

Importanza del Problema

Il controllo preciso dell'intensità degli attributi è essenziale per costruire sistemi di IA adattati alle aspettative diversificate degli utenti, in particolare in scenari di allineamento multi-obiettivo dove esistono conflitti tra diversi attributi, richiedendo aggiustamenti a livello scalare su scale continue per trovare compromessi ottimali.

Limitazioni dei Metodi Esistenti

RLHF e DPO: Producono modelli statici che catturano il valore medio del comportamento desiderato, richiedendo un riaddestrament costoso per regolare le priorità
Metodi di Prompting: Dipendono completamente dall'interpretazione del modello delle istruzioni di stile, con risultati incoerenti
Decoding Guidato: Tipicamente tratta l'intensità degli attributi come categorica piuttosto che continua
Metodi di Allineamento Multi-Obiettivo: Richiedono un addestramento estensivo per approssimare l'insieme di Pareto globale

Motivazione della Ricerca

I metodi esistenti mancano della capacità di controllo preciso dell'intensità degli attributi. Questo articolo mira a realizzare un controllo granulare e continuo dell'intensità degli attributi, andando oltre il semplice allineamento direzionale.

Contributi Principali

Riformulazione del Problema: Espressione del controllo preciso dell'intensità degli attributi come problema di raggiungimento di obiettivi, piuttosto che semplice massimizzazione/minimizzazione
Approccio della Funzione di Valore: Addestramento di una funzione di valore leggera tramite apprendimento per differenza temporale per prevedere i punteggi degli attributi finali da generazioni parziali
Tecnica di Editing delle Rappresentazioni: Applicazione di interventi basati su gradienti sulle rappresentazioni nascoste per navigare con precisione verso obiettivi di intensità degli attributi specifici
Applicazione Efficiente: Dimostrazione di vantaggi di efficienza nell'approssimazione della frontiera di Pareto (complessità temporale ridotta da O(m^d) a O(n+k)) e nella distillazione di modelli controllabili

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un obiettivo di intensità degli attributi τ ∈ 0,1 e una funzione di ricompensa R(x), l'obiettivo è generare testo il cui punteggio di intensità degli attributi corrisponda al valore obiettivo, piuttosto che semplicemente massimizzare la ricompensa.

Architettura del Modello

1. Ristrutturazione del Problema di Raggiungimento dell'Obiettivo

Obiettivo di allineamento tradizionale:

max_θ E_{x~π_θ}[R(x)]

Formulazione di raggiungimento dell'obiettivo di questo articolo:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

dove R̂(x) è la funzione di ricompensa normalizzata a 0,1.

2. Addestramento della Funzione di Valore

Utilizzo di TD(λ) per addestrare la funzione di valore V_φ(h_t) per prevedere l'intensità degli attributi attesa per sequenze parziali:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

Calcolo del rendimento generalizzato:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

Perdita della funzione di valore:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. Intervento al Momento del Test

Regolazione degli stati nascosti tramite discesa del gradiente:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

Caso multi-attributo:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

Punti di Innovazione Tecnica

Design Orientato agli Obiettivi: Transizione dall'ottimizzazione direzionale al raggiungimento preciso degli obiettivi
Meccanismo di Feedback in Tempo Reale: La funzione di valore fornisce feedback intermedi durante il processo di generazione
Navigazione nello Spazio delle Rappresentazioni: Navigazione precisa direttamente nello spazio delle rappresentazioni ad alta dimensionalità
Coordinamento Multi-Attributo: Controllo simultaneo di più attributi potenzialmente in conflitto

Configurazione Sperimentale

Dataset

HelpSteer2: 20.324 campioni di addestramento, 1.038 campioni di test, contenenti 5 attributi (helpfulness, correctness, coherence, complexity, verbosity)
Code-UltraFeedback: 10.000 istruzioni complesse, contenenti 5 attributi correlati alla programmazione (complexity & efficiency, style, explanation, instruction-following, readability)

Metriche di Valutazione

Punteggio Self-BLEU: Misura la diversità del testo generato (più basso è meglio)
Distanza ℓ1 dall'Obiettivo: Valuta la vicinanza dell'output del modello ai punteggi di attributo specificati dall'utente
Tasso di Successo: Frequenza con cui l'output del modello corrisponde esattamente alla configurazione di attributi attesa

Metodi di Confronto

Base: Generazione diretta del modello di base
Prompting: Inclusione dei punteggi di attributo obiettivo nel prompt
ITI: Addestramento di uno strato lineare per prevedere la ricompensa e regolare le attivazioni lungo la direzione appresa
MAT-Steer: Apprendimento di vettori di guida multi-attributo sparsi e ortogonali
RE-Control: Esecuzione di ottimizzazione in forma aperta con intervento al momento del test

Dettagli di Implementazione

Modello di base: LLaMA-3.2-3b e Phi-4-mini
Funzione di valore: MLP a 4 strati
Modello di ricompensa: ArmoRM-Llama3-8B
Strato di intervento: Ultimo strato transformer
Ottimizzatore: Adam, con tecnica di early stopping

Risultati Sperimentali

Risultati Principali

Risultati sperimentali su punteggi obiettivo rappresentativi:

Obiettivo Positivo (HelpSteer2 4,4,4,2,2):

LLaMA-3.2-3b: Tasso di successo PRE-CONTROL 7,96% vs 5,39% della migliore baseline
Phi-4-mini: Tasso di successo PRE-CONTROL 8,31% vs 5,70% della migliore baseline

Obiettivo Negativo (HelpSteer2 3,3,3,2,2):

LLaMA-3.2-3b: Tasso di successo PRE-CONTROL 6,60% vs 5,84% della migliore baseline
Phi-4-mini: Tasso di successo PRE-CONTROL 9,11% vs 8,73% della migliore baseline

Risultati Code-UltraFeedback:

Obiettivo positivo 3,3,3,3,3: Tasso di successo fino al 17,46%-26,16%
Obiettivo negativo 2,2,2,2,2: Tasso di successo fino al 22,34%-30,68%

Risultati dell'Intervento Iterativo

PRE-CONTROL mostra miglioramenti di prestazioni continui attraverso più iterazioni, mentre altri metodi si stabilizzano dopo la seconda iterazione.

Approssimazione della Frontiera di Pareto

Miglioramento della Qualità: Ipervolume aumentato da 7,54 a 12,66
Miglioramento dell'Efficienza: Overhead computazionale ridotto da 3,3 ore GPU a 0,4 ore (riduzione di 8 volte)
Scoperta di Più Punti: Punti non dominati aumentati da 45 a 69

Distillazione Controllabile

Raggiungimento di un ipervolume di 16,81 utilizzando 15k campioni e 2,1 ore GPU, superiore al metodo Best-of-N di 15,27 (che richiede 50k campioni e 7,8 ore GPU).

Analisi Qualitativa

L'analisi qualitativa mostra che PRE-CONTROL è in grado di:

Controllo Negativo: Regolazione precisa di risposte eccessivamente dettagliate 4,4,4,3,3 a versioni concise 3,3,3,2,2
Controllo Positivo: Espansione di risposte semplici 4,4,4,1,1 a versioni più dettagliate 4,4,4,2,2

Lavori Correlati

Allineamento degli LLM

Paradigmi di Fine-Tuning: RLHF e DPO richiedono addestramento multi-fase, intensivo dal punto di vista delle risorse
Interventi al Momento dell'Inferenza: L'ingegneria dei prompt e il decoding guidato mancano di meccanismi di controllo preciso
Allineamento Multi-Obiettivo: I metodi esistenti richiedono riaddestramenti costosi per iniettare preferenze multi-obiettivo

Ingegneria delle Rappresentazioni

Perturbazione delle Attivazioni: Evoluzione dai metodi plug-and-play all'apprendimento di vettori di guida
Fine-Tuning delle Rappresentazioni: Editing efficiente delle attivazioni utilizzando matrici di proiezione a basso rango
Limitazioni: Focalizzazione principalmente su controllo di attributi binari o categorici, non su obiettivi precisi su scale continue

Conclusioni e Discussione

Conclusioni Principali

PRE-CONTROL realizza il controllo preciso dell'intensità degli attributi negli LLM
La formulazione di raggiungimento dell'obiettivo è più adatta al controllo preciso rispetto ai metodi di massimizzazione tradizionali
La combinazione di funzione di valore e intervento basato su gradienti fornisce un meccanismo di controllo efficace
Il metodo dimostra vantaggi di efficienza in molteplici applicazioni a valle

Limitazioni

Funzione di Valore come Proxy del Modello di Ricompensa: Un MLP leggero potrebbe non catturare tutti i dettagli del segnale di ricompensa originale
Intervento dell'Ultimo Strato: L'implementazione attuale applica l'intervento solo all'ultimo strato transformer, potendo non sfruttare completamente i livelli di rappresentazione del modello
Overhead Computazionale: Sebbene relativamente efficiente, richiede comunque addestramento della funzione di valore e calcolo aggiuntivo al momento dell'inferenza

Direzioni Future

Esplorazione di architetture di funzioni di valore più complesse per approssimare meglio le capacità del modello di ricompensa
Ricerca di strategie di intervento multi-strato o modifiche a livello di attenzione
Sviluppo di meccanismi adattivi per interrogare selettivamente il modello di ricompensa completo su casi difficili

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Riformulazione del controllo degli attributi come problema di raggiungimento degli obiettivi, superando i limiti dell'allineamento direzionale tradizionale
Sistematicità del Metodo: L'addestramento della funzione di valore, l'apprendimento TD e l'intervento basato su gradienti formano un sistema tecnico completo
Esperimenti Completi: Valutazione complessiva su due dataset, due modelli, inclusi esperimenti di ablazione e validazione delle applicazioni
Alto Valore Pratico: Dimostrazione di significativi miglioramenti di efficienza nell'approssimazione della frontiera di Pareto e nella distillazione dei modelli

Insufficienze

Analisi Teorica Insufficiente: Mancanza di garanzie di convergenza e analisi teorica della stabilità dell'intervento
Dipendenza dalla Funzione di Valore: Le prestazioni del metodo dipendono fortemente dalla qualità della funzione di valore
Capacità di Generalizzazione: Validazione solo su attributi e modelli specifici, con capacità di generalizzazione da verificare ulteriormente
Complessità Computazionale: Sebbene relativamente efficiente, richiede comunque calcolo aggiuntivo al momento dell'inferenza

Impatto

Contributo Accademico: Fornisce un nuovo paradigma di ricerca per il controllo preciso degli LLM
Valore Pratico: Fornisce strumenti efficaci per sistemi di IA personalizzati e ottimizzazione multi-obiettivo
Riproducibilità: Gli autori forniscono codice completo e configurazioni sperimentali

Scenari Applicabili

Generazione di Contenuti Personalizzati: Controllo preciso di attributi come stile, complessità del testo
Ottimizzazione Multi-Obiettivo: Ricerca di equilibri ottimali tra attributi in conflitto
Allineamento dei Modelli: Generazione efficiente di dati di addestramento che soddisfano requisiti di attributi specifici
Sistemi di IA Interattivi: Regolazione dinamica degli attributi di output in base al feedback dell'utente

Riferimenti Bibliografici

L'articolo cita 46 lavori correlati, coprendo campi chiave come allineamento degli LLM, ottimizzazione multi-obiettivo e ingegneria delle rappresentazioni, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo innovativo per il controllo preciso dell'intensità degli attributi, dimostrando eccellenza sia nei contributi teorici che nel valore pratico. Il design del metodo è razionale, la verifica sperimentale è completa e fornisce contributi importanti al campo del controllo degli LLM.