In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic
Steering In-Distribution: Bilanciamento tra Controllo e Coerenza nella Generazione di Modelli Linguistici
I metodi di steering dell'attivazione controllano il comportamento dei modelli linguistici di grandi dimensioni (LLM) modificando le attivazioni interne durante l'inferenza. Tuttavia, la maggior parte dei metodi di steering dell'attivazione esistenti si affida a intensità di steering fisse, causando controllo insufficiente o eccessivo intervento, riducendo così l'affidabilità e la coerenza del testo. Questo articolo propone lo Steering In-Distribution (IDS), un nuovo approccio che adatta dinamicamente l'intensità dello steering in base alla distribuzione dei dati di input nello spazio di rappresentazione. IDS regola l'intervento dinamicamente in base alla posizione dell'input dato all'interno della distribuzione, realizzando intervento adattivo e stabilità generativa durante il processo di generazione del testo. Gli esperimenti dimostrano che IDS raggiunge un'elevata accuratezza nei compiti di classificazione, producendo al contempo testo coerente senza collasso, rendendo IDS particolarmente adatto per applicazioni pratiche.
Sebbene i modelli linguistici di grandi dimensioni possiedano straordinarie capacità di generalizzazione, possono produrre comportamenti indesiderati, inclusi:
Imprecisione fattuale: generazione di informazioni errate
Problemi di sicurezza: produzione di contenuti dannosi
Problemi di allineamento: mancata corrispondenza con i requisiti di applicazioni specifiche
RLHF (Reinforcement Learning from Human Feedback): richiede grandi quantità di dati e risorse computazionali, il modo di modificare i pesi del modello è opaco, potrebbe introdurre nuovi bias
Prompt Engineering: effetto indiretto, altamente sensibile al contesto
Metodi di steering dell'attivazione esistenti:
Utilizzano intensità di steering fisse, causando steering insufficiente o eccessivo
Mancano di test adeguati sulla generazione di testo aperto
È necessario un metodo che possa controllare con precisione il comportamento degli LLM mantenendo la qualità del testo, in particolare in scenari di applicazione ad alto rischio.
Proposta del Metodo IDS: un nuovo metodo di steering dell'attivazione che adatta dinamicamente l'intensità dello steering in base a ogni input, realizzando un controllo comportamentale preciso mantenendo l'affidabilità e la coerenza del testo
Valutazione Sperimentale Completa: valutazione delle prestazioni di IDS su 6 LLM e 7 dataset, confronto con due metodi concorrenti, dimostrando l'efficacia, la robustezza e l'universalità su compiti di previsione di singoli token e generazione di testo aperto
Studio di Ablazione: analisi approfondita dei componenti delle prestazioni di IDS, rivelando i meccanismi del suo successo
Fondamento Teorico: basato sull'assunzione di rappresentazione lineare, fornisce una soluzione in forma chiusa, realizzando un calcolo efficiente in tempo reale
Data l'attivazione originale h_{l,p} ∈ R^d di un modello linguistico al livello l e alla posizione del token p, lo steering dell'attivazione modifica il comportamento attraverso il seguente intervento:
h_{l,p} ← h_{l,p} + α_{l,p}v_l
dove v_l ∈ R^d è il vettore di steering che codifica la direzione del comportamento desiderato, e α_{l,p} ∈ R controlla l'intensità dell'intervento per il livello e la posizione del token specifici.
Costruzione del Dataset Contrastivo: modellazione separata delle distribuzioni di attivazione per comportamento positivo (D^+_l) e negativo (D^-_l)
Riduzione Dimensionale PCA: applicazione dell'analisi delle componenti principali per affrontare la maledizione della dimensionalità nello spazio ad alta dimensione
Modellazione della Distanza di Mahalanobis: utilizzo della distanza di Mahalanobis per misurare la distanza dell'attivazione dalla distribuzione target, impostazione del 95° percentile come soglia in-distribuzione ε
Intensità di Steering Adattiva: adattamento dinamico dell'intensità dell'intervento in base alla posizione dell'input all'interno della distribuzione del comportamento target
Vincoli di Distribuzione: assicurazione che l'attivazione steered rimanga all'interno della distribuzione del comportamento target
Soluzione in Forma Chiusa: fornisce un metodo di calcolo efficiente in tempo reale
Meccanismo di Selezione dei Livelli: intervento solo nei livelli con elevata capacità discriminativa
Gli esperimenti dimostrano che MERA tende a produrre fattori di steering medi più grandi, causando l'allontanamento dell'attivazione dalla distribuzione, infine causando collasso del testo e alta perplessità.
L'articolo cita importanti lavori nei campi dello steering dell'attivazione, apprendimento della rappresentazione e sicurezza dell'IA, inclusi:
Rimsky et al. (2024): articolo originale del metodo CAA
Hedström et al. (2025): metodo MERA
Turner et al. (2024): revisione dell'ingegneria dell'attivazione
Mikolov et al. (2013): lavoro iniziale sull'assunzione di rappresentazione lineare
Sintesi: Il metodo IDS proposto in questo articolo ha un significato innovativo importante nel campo dello steering dell'attivazione. Introducendo vincoli di distribuzione e meccanismi di adattamento dinamico, risolve efficacemente il problema dello steering eccessivo dei metodi esistenti. I risultati sperimentali provano pienamente l'efficacia e il valore pratico del metodo, fornendo uno strumento importante per il deployment sicuro degli LLM.