2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic

Steering In-Distribution: Bilanciamento tra Controllo e Coerenza nella Generazione di Modelli Linguistici

Informazioni Fondamentali

  • ID Articolo: 2510.13285
  • Titolo: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
  • Autori: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.13285

Riassunto

I metodi di steering dell'attivazione controllano il comportamento dei modelli linguistici di grandi dimensioni (LLM) modificando le attivazioni interne durante l'inferenza. Tuttavia, la maggior parte dei metodi di steering dell'attivazione esistenti si affida a intensità di steering fisse, causando controllo insufficiente o eccessivo intervento, riducendo così l'affidabilità e la coerenza del testo. Questo articolo propone lo Steering In-Distribution (IDS), un nuovo approccio che adatta dinamicamente l'intensità dello steering in base alla distribuzione dei dati di input nello spazio di rappresentazione. IDS regola l'intervento dinamicamente in base alla posizione dell'input dato all'interno della distribuzione, realizzando intervento adattivo e stabilità generativa durante il processo di generazione del testo. Gli esperimenti dimostrano che IDS raggiunge un'elevata accuratezza nei compiti di classificazione, producendo al contempo testo coerente senza collasso, rendendo IDS particolarmente adatto per applicazioni pratiche.

Contesto di Ricerca e Motivazione

Definizione del Problema

Sebbene i modelli linguistici di grandi dimensioni possiedano straordinarie capacità di generalizzazione, possono produrre comportamenti indesiderati, inclusi:

  1. Imprecisione fattuale: generazione di informazioni errate
  2. Problemi di sicurezza: produzione di contenuti dannosi
  3. Problemi di allineamento: mancata corrispondenza con i requisiti di applicazioni specifiche

Limitazioni dei Metodi Esistenti

  1. RLHF (Reinforcement Learning from Human Feedback): richiede grandi quantità di dati e risorse computazionali, il modo di modificare i pesi del modello è opaco, potrebbe introdurre nuovi bias
  2. Prompt Engineering: effetto indiretto, altamente sensibile al contesto
  3. Metodi di steering dell'attivazione esistenti:
    • Utilizzano intensità di steering fisse, causando steering insufficiente o eccessivo
    • Mancano di test adeguati sulla generazione di testo aperto
    • Non riescono a generare testo steered affidabile

Motivazione della Ricerca

È necessario un metodo che possa controllare con precisione il comportamento degli LLM mantenendo la qualità del testo, in particolare in scenari di applicazione ad alto rischio.

Contributi Principali

  1. Proposta del Metodo IDS: un nuovo metodo di steering dell'attivazione che adatta dinamicamente l'intensità dello steering in base a ogni input, realizzando un controllo comportamentale preciso mantenendo l'affidabilità e la coerenza del testo
  2. Valutazione Sperimentale Completa: valutazione delle prestazioni di IDS su 6 LLM e 7 dataset, confronto con due metodi concorrenti, dimostrando l'efficacia, la robustezza e l'universalità su compiti di previsione di singoli token e generazione di testo aperto
  3. Studio di Ablazione: analisi approfondita dei componenti delle prestazioni di IDS, rivelando i meccanismi del suo successo
  4. Fondamento Teorico: basato sull'assunzione di rappresentazione lineare, fornisce una soluzione in forma chiusa, realizzando un calcolo efficiente in tempo reale

Dettagli del Metodo

Definizione del Compito

Data l'attivazione originale h_{l,p} ∈ R^d di un modello linguistico al livello l e alla posizione del token p, lo steering dell'attivazione modifica il comportamento attraverso il seguente intervento:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

dove v_l ∈ R^d è il vettore di steering che codifica la direzione del comportamento desiderato, e α_{l,p} ∈ R controlla l'intensità dell'intervento per il livello e la posizione del token specifici.

Architettura del Modello

Il metodo IDS comprende tre fasi principali:

1. Modellazione della Distribuzione

  • Costruzione del Dataset Contrastivo: modellazione separata delle distribuzioni di attivazione per comportamento positivo (D^+_l) e negativo (D^-_l)
  • Riduzione Dimensionale PCA: applicazione dell'analisi delle componenti principali per affrontare la maledizione della dimensionalità nello spazio ad alta dimensione
  • Modellazione della Distanza di Mahalanobis: utilizzo della distanza di Mahalanobis per misurare la distanza dell'attivazione dalla distribuzione target, impostazione del 95° percentile come soglia in-distribuzione ε

2. Determinazione del Fattore di Steering Ottimale

Formulazione della determinazione del fattore di steering come problema di ottimizzazione vincolata:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Fornisce una soluzione in forma chiusa:

α = {
  (-b + √(b² - 4ac))/(2a), se b² - 4ac ≥ 0
  -b/(2a), se b² - 4ac < 0
}

dove:

  • a = ||Mv||²
  • b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
  • c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Selezione dei Livelli

  • Valutazione della capacità discriminativa dei vettori di steering basata sul punteggio F1
  • Impostazione di una soglia di 0,7, intervento solo nei livelli con elevata capacità discriminativa

Punti di Innovazione Tecnica

  1. Intensità di Steering Adattiva: adattamento dinamico dell'intensità dell'intervento in base alla posizione dell'input all'interno della distribuzione del comportamento target
  2. Vincoli di Distribuzione: assicurazione che l'attivazione steered rimanga all'interno della distribuzione del comportamento target
  3. Soluzione in Forma Chiusa: fornisce un metodo di calcolo efficiente in tempo reale
  4. Meccanismo di Selezione dei Livelli: intervento solo nei livelli con elevata capacità discriminativa

Configurazione Sperimentale

Dataset

  1. Compiti di Classificazione: filtro spam SMS, MMLU
  2. Comportamenti di Sicurezza AI: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
  3. Generazione Aperta: combinazione di dataset di istruzioni dannose e dataset di istruzioni innocue

Modelli

Test su 6 modelli decoder-only:

  • Gemma-2 (2B-it, 9B-it)
  • Qwen-2.5 (1.5B-it, 7B-it)
  • Llama-3.2 (1B-it)
  • Llama-3.1 (8B-it)

Metriche di Valutazione

  1. Impatto delle Prestazioni di Steering (SPI): quantificazione della proporzione di risposte non allineate corrette dallo steering
  2. Perplessità (PPL): valutazione dell'affidabilità del testo
  3. Valutazione GPT-4: valutazione automatica se il testo generato mostra il comportamento target

Metodi di Confronto

  1. CAA-1 e CAA-1.5: metodi di aggiunta di attivazione contrastiva, utilizzo di fattori di steering fissi 1 e 1,5
  2. MERA: metodo di riduzione degli errori meccanizzato basato su sonde lineari

Risultati Sperimentali

Risultati Principali

Compiti di Generazione di Singoli Token

  • Ranking Complessivo: IDS ha un ranking medio di 1,67, significativamente superiore a MERA (1,93), CAA-1.5 (2,52) e CAA-1 (3,07)
  • Prestazioni del Modello: ranking primo su 5 dei 6 modelli
  • Prestazioni del Dataset: ranking primo su 5 dei 7 dataset
  • Miglioramento delle Prestazioni: miglioramento fino a 18 punti percentuali rispetto a MERA su alcuni modelli

Generazione di Testo Aperto

  • Ranking SPI: IDS ha un ranking medio di 1,39, ranking primo su tutti i 6 modelli e 4 dataset
  • Coerenza: ranking costantemente nei primi due su 18 configurazioni, mostrando eccellente robustezza
  • Prestazioni Bilanciate: realizzazione del miglior equilibrio tra effetto di steering e affidabilità del testo

Esperimenti di Ablazione

  1. Rapporto di Varianza Spiegata PCA: conservazione del 30%-42% della varianza produce i risultati SPI più alti e stabili
  2. Soglia della Distanza di Mahalanobis: correlazione lieve positiva tra soglia e prestazioni di steering
  3. Soglia del Punteggio F1: le prestazioni di steering iniziano a diminuire oltre l'80%

Analisi dei Casi

L'articolo presenta un confronto tra IDS e MERA nel trattamento di prompt dannosi:

  • Prompt: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
  • Output IDS: fornisce descrizioni di sintomi pertinenti ma sicure
  • Output MERA: produce sequenze di token ripetute e prive di significato, con collasso del testo

Associazione tra Steering Eccessivo e Collasso

Gli esperimenti dimostrano che MERA tende a produrre fattori di steering medi più grandi, causando l'allontanamento dell'attivazione dalla distribuzione, infine causando collasso del testo e alta perplessità.

Lavori Correlati

Metodi di Steering dell'Attivazione

  1. CAA (Contrastive Activation Addition): utilizzo di fattori di steering fissi, potrebbe causare steering insufficiente o eccessivo
  2. MERA: adattamento dell'intensità dello steering in base alla previsione degli errori da sonde lineari, principalmente per compiti supervisionati

Fondamenti Teorici

  • Assunzione di Rappresentazione Lineare: i concetti di alto livello possono essere codificati come direzioni nello spazio di attivazione
  • Calcolo del Vettore di Steering: metodo della differenza media e tecniche di sondaggio supervisionato

Conclusioni e Discussione

Conclusioni Principali

  1. IDS realizza il miglior equilibrio tra controllo comportamentale e coerenza del testo adattando dinamicamente l'intensità dello steering
  2. I vincoli basati sulla distribuzione prevengono efficacemente lo steering eccessivo e il collasso del testo
  3. Il metodo mostra forte robustezza e universalità su vari modelli e compiti

Limitazioni

  1. Attualmente focalizzato su steering direzionale, non coinvolge steering angolare
  2. Richiede la costruzione di dataset contrastivi per modellare la distribuzione
  3. La riduzione dimensionale PCA potrebbe perdere alcune informazioni importanti

Direzioni Future

  1. Estensione ai metodi di steering angolare
  2. Applicazione alla generazione di verità in compiti di ragionamento complesso
  3. Applicazione dello steering durante il processo di ragionamento nei modelli di ragionamento

Valutazione Approfondita

Punti di Forza

  1. Fondamento Teorico Solido: quadro teorico basato su assunzione di rappresentazione lineare e vincoli di distribuzione
  2. Forte Innovazione del Metodo: primo a proporre adattamento dinamico dell'intensità dello steering basato sulla distribuzione
  3. Esperimenti Completi e Sufficienti: valutazione sistematica su più modelli, dataset e compiti
  4. Elevato Valore Pratico: fornisce soluzione in forma chiusa, adatta per applicazioni in tempo reale
  5. Risultati Convincenti: realizzazione dell'ottimalità paretiana tra effetto di steering e qualità del testo

Insufficienze

  1. Complessità Computazionale: richiede calcolo PCA e distanza di Mahalanobis, potrebbe aumentare il sovraccarico di inferenza
  2. Sensibilità ai Iperparametri: molteplici iperparametri (rapporto di varianza PCA, soglia di distanza, soglia F1) richiedono sintonizzazione
  3. Dipendenza dai Dati: richiede dataset contrastivi di alta qualità per modellare la distribuzione
  4. Analisi Teorica Insufficiente: mancanza di garanzie teoriche sulla convergenza e stabilità del metodo

Impatto

  1. Contributo Accademico: fornisce nuovo quadro teorico e metodo pratico al campo dello steering dell'attivazione
  2. Applicazione Pratica: particolarmente adatto per scenari di applicazione ad alto rischio che richiedono controllo preciso del comportamento degli LLM
  3. Riproducibilità: fornisce dettagli di implementazione dettagliati e codice open source

Scenari Applicabili

  1. Sicurezza dei Contenuti: prevenzione della generazione di contenuti dannosi o inappropriati
  2. Controllo della Fattualità: riduzione di allucinazioni e informazioni errate
  3. Allineamento Comportamentale: allineamento del comportamento del modello con i requisiti di applicazioni specifiche
  4. Applicazioni in Tempo Reale: scenari che richiedono adattamento dinamico del comportamento del modello durante l'inferenza

Bibliografia

L'articolo cita importanti lavori nei campi dello steering dell'attivazione, apprendimento della rappresentazione e sicurezza dell'IA, inclusi:

  • Rimsky et al. (2024): articolo originale del metodo CAA
  • Hedström et al. (2025): metodo MERA
  • Turner et al. (2024): revisione dell'ingegneria dell'attivazione
  • Mikolov et al. (2013): lavoro iniziale sull'assunzione di rappresentazione lineare

Sintesi: Il metodo IDS proposto in questo articolo ha un significato innovativo importante nel campo dello steering dell'attivazione. Introducendo vincoli di distribuzione e meccanismi di adattamento dinamico, risolve efficacemente il problema dello steering eccessivo dei metodi esistenti. I risultati sperimentali provano pienamente l'efficacia e il valore pratico del metodo, fornendo uno strumento importante per il deployment sicuro degli LLM.