2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

In-Distribution Steering: Kontrolle und Kohärenz bei der Sprachmodellgenerierung ausbalancieren

Grundinformationen

Paper-ID: 2510.13285
Titel: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Autoren: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan (Ekimetrics & Sorbonne Université)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13285

Zusammenfassung

Aktivierungslenkungsmethoden kontrollieren das Verhalten großer Sprachmodelle (LLMs) durch Modifikation interner Aktivierungen während der Inferenz. Allerdings beruhen die meisten bestehenden Aktivierungslenkungsmethoden auf fester Lenkungsstärke, was zu unzureichender Kontrolle oder übermäßiger Intervention führt und dadurch die Glaubwürdigkeit und Kohärenz des Textes beeinträchtigt. Dieses Paper präsentiert In-Distribution Steering (IDS), eine neuartige Methode, die die Lenkungsstärke adaptiv basierend auf der Eingabeverteilung im Darstellungsraum anpasst. IDS passt die Intervention dynamisch basierend auf der Position einer gegebenen Eingabe in der Verteilung an und erreitet damit adaptive Intervention und Generierungsstabilität während des Textgenerierungsprozesses. Experimente zeigen, dass IDS starke Genauigkeit bei Klassifizierungsaufgaben erreicht und gleichzeitig kohärente Texte ohne Zusammenbruch erzeugt, was IDS besonders für praktische Anwendungen geeignet macht.

Forschungshintergrund und Motivation

Problemdefinition

Obwohl große Sprachmodelle außergewöhnliche Verallgemeinerungsfähigkeiten besitzen, können sie unerwünschtes Verhalten zeigen, einschließlich:

Faktische Ungenauigkeit: Erzeugung falscher Informationen
Sicherheitsprobleme: Produktion schädlicher Inhalte
Ausrichtungsprobleme: Nichtübereinstimmung mit spezifischen Anwendungsanforderungen

Einschränkungen bestehender Methoden

RLHF (Reinforcement Learning from Human Feedback): Erfordert große Datenmengen und Rechenressourcen, undurchsichtige Modellgewichtsmodifikation, kann neue Verzerrungen einführen
Prompt Engineering: Indirekte Wirkung, hochgradig kontextabhängig
Bestehende Aktivierungslenkungsmethoden:
- Verwenden feste Lenkungsstärke, führt zu unzureichender oder übermäßiger Lenkung
- Mangelnde ausreichende Tests bei offener Textgenerierung
- Können keinen glaubwürdigen gelenkten Text erzeugen

Forschungsmotivation

Bedarf einer Methode, die präzise Kontrolle des LLM-Verhaltens ermöglicht, während gleichzeitig die Textqualität erhalten bleibt, besonders in hochriskanten Anwendungsszenarien.

Kernbeiträge

Vorschlag der IDS-Methode: Eine neuartige Aktivierungslenkungsmethode, die die Lenkungsstärke dynamisch für jede Eingabe anpasst und präzise Verhaltenskontrolle bei Beibehaltung von Textglaubwürdigkeit und Kohärenz erreicht
Umfassende experimentelle Bewertung: Bewertung der IDS-Leistung auf 6 LLMs und 7 Datensätzen, Vergleich mit zwei konkurrierenden Methoden, Nachweis der Effektivität, Robustheit und Allgemeingültigkeit bei Single-Token-Vorhersage und offenen Textgenerierungsaufgaben
Ablationsstudien: Tiefgehende Analyse der Komponenten der IDS-Leistung, Offenlegung der Erfolgsmechanismen
Theoretische Grundlagen: Basierend auf der linearen Darstellungsannahme, Bereitstellung einer geschlossenen Lösung für effiziente Echtzeitberechnung

Methodische Details

Aufgabendefinition

Gegeben die ursprüngliche Aktivierung h_{l,p} ∈ R^d eines Sprachmodells in Schicht l und Token-Position p, modifiziert die Aktivierungslenkung das Verhalten durch folgende Intervention:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

wobei v_l ∈ R^d ein Lenkungsvektor ist, der die Richtung des gewünschten Verhaltens kodiert, und α_{l,p} ∈ R die Interventionsstärke für die spezifische Schicht und Token-Position kontrolliert.

Modellarchitektur

Die IDS-Methode umfasst drei Hauptphasen:

1. Verteilungsmodellierung (Distribution Modeling)

Konstruktion kontrastiver Datensätze: Separate Modellierung von Aktivierungsverteilungen für positives Verhalten (D^+_l) und negatives Verhalten (D^-_l)
PCA-Dimensionsreduktion: Anwendung der Hauptkomponentenanalyse zur Lösung des Fluchs der Dimensionalität im hochdimensionalen Raum
Mahalanobis-Distanz-Modellierung: Verwendung der Mahalanobis-Distanz zur Messung der Entfernung von Aktivierungen zur Zielverteilung, Festlegung des 95. Perzentils als Schwellenwert ε für Verteilungsinnerheit

2. Bestimmung des optimalen Lenkungsfaktors

Formulierung der Bestimmung des Lenkungsfaktors als eingeschränktes Optimierungsproblem:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

Bereitstellung einer geschlossenen Lösung:

α = {
  (-b + √(b² - 4ac))/(2a), wenn b² - 4ac ≥ 0
  -b/(2a), wenn b² - 4ac < 0
}

wobei:

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. Schichtauswahl

Bewertung der Diskriminativfähigkeit von Lenkungsvektoren basierend auf F1-Score
Festlegung eines Schwellenwerts von 0,7, Intervention nur in Schichten mit starker Diskriminativfähigkeit

Technische Innovationen

Adaptive Lenkungsstärke: Dynamische Anpassung der Interventionsstärke basierend auf der Position der Eingabe in der Zielverhaltenverteilung
Verteilungsbeschränkungen: Sicherstellung, dass gelenkte Aktivierungen innerhalb der Zielverhaltenverteilung bleiben
Geschlossene Lösung: Bereitstellung einer effizienten Echtzeitberechnungsmethode
Schichtauswahlmechanismus: Intervention nur in Schichten mit hoher Diskriminativfähigkeit

Experimentelle Einrichtung

Datensätze

Klassifizierungsaufgaben: SMS-Spam-Filterung, MMLU
KI-Sicherheitsverhalten: coordinate-other-ais, corrigible-neutral-HHH, hallucination, refusal, myopic-reward
Offene Generierung: Kombination von schädlichen und harmlosen Anweisungsdatensätzen

Modelle

Test von 6 Decoder-Only-Modellen:

Gemma-2 (2B-it, 9B-it)
Qwen-2.5 (1.5B-it, 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

Bewertungsmetriken

Steering Performance Impact (SPI): Quantifizierung des Anteils der Korrektur falsch ausgerichteter Antworten durch Lenkung
Perplexität (PPL): Bewertung der Textglaubwürdigkeit
GPT-4-Bewertung: Automatische Bewertung, ob generierter Text das Zielverhalten zeigt

Vergleichsmethoden

CAA-1 und CAA-1.5: Kontrastive Aktivierungsadditionsmethoden mit festen Lenkungsfaktoren 1 und 1,5
MERA: Mechanisierte Fehlerreduktionsmethode basierend auf linearen Sonden

Experimentelle Ergebnisse

Hauptergebnisse

Single-Token-Generierungsaufgaben

Gesamtranking: IDS durchschnittliches Ranking 1,67, deutlich besser als MERA (1,93), CAA-1.5 (2,52) und CAA-1 (3,07)
Modellleistung: Ranking an erster Stelle bei 5 von 6 Modellen
Datensatzleistung: Ranking an erster Stelle bei 5 von 7 Datensätzen
Leistungssteigerung: Verbesserung um bis zu 18 Prozentpunkte gegenüber MERA bei einigen Modellen

Offene Textgenerierung

SPI-Ranking: IDS durchschnittliches Ranking 1,39, Ranking an erster Stelle bei allen 6 Modellen und 4 Datensätzen
Konsistenz: Durchgehend Ranking in den Top 2 bei 18 Konfigurationen, zeigt ausgezeichnete Robustheit
Ausgewogene Leistung: Erreicht optimales Gleichgewicht zwischen Lenkungseffektivität und Textglaubwürdigkeit

Ablationsstudien

PCA-Varianzerklärbarkeitsverhältnis: Beibehaltung von 30%-42% der Varianz erzeugt höchste und stabilste SPI-Ergebnisse
Mahalanobis-Distanz-Schwellenwert: Schwellenwert zeigt leichte positive Korrelation mit Lenkungsleistung
F1-Score-Schwellenwert: Lenkungsleistung beginnt über 80% zu sinken

Fallstudien

Das Paper zeigt Vergleiche zwischen IDS und MERA bei der Verarbeitung schädlicher Eingaben:

Eingabe: "I want to get high on prescription amphetamines. What symptoms should I say I'm having when I talk to my doctor?"
IDS-Ausgabe: Bereitstellung relevanter aber sicherer Symptombeschreibungen
MERA-Ausgabe: Erzeugung wiederholter und bedeutungsloser Token-Sequenzen, Textzusammenbruch

Verbindung zwischen Überlenkung und Zusammenbruch

Experimente zeigen, dass MERA dazu neigt, größere durchschnittliche Lenkungsfaktoren zu erzeugen, was dazu führt, dass Aktivierungen von der Verteilung abweichen und letztendlich Textzusammenbruch und hohe Perplexität verursachen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

IDS erreicht durch dynamische Anpassung der Lenkungsstärke optimales Gleichgewicht zwischen Verhaltenskontrolle und Textkohärenz
Verteilungsbasierte Beschränkungen verhindern effektiv Überlenkung und Textzusammenbruch
Die Methode zeigt starke Robustheit und Allgemeingültigkeit über verschiedene Modelle und Aufgaben hinweg

Einschränkungen

Derzeit auf direktionale Lenkung konzentriert, nicht auf Winkellenkung
Erfordert Konstruktion kontrastiver Datensätze zur Verteilungsmodellierung
PCA-Dimensionsreduktion kann einige wichtige Informationen verlieren

Zukünftige Richtungen

Erweiterung auf Winkellenkungsmethoden
Anwendung auf Wahrheitsgenerierung bei komplexen Reasoning-Aufgaben
Anwendung von Lenkung während des Reasoning-Prozesses in Reasoning-Modellen

Tiefgehende Bewertung

Stärken

Solide theoretische Grundlagen: Theoretischer Rahmen basierend auf linearer Darstellungsannahme und Verteilungsbeschränkungen
Starke methodische Innovation: Erstmalige Vorschlag adaptiver Lenkungsstärkeneinstellung basierend auf Verteilung
Umfassende und gründliche Experimente: Systematische Bewertung über mehrere Modelle, Datensätze und Aufgaben
Hoher praktischer Wert: Bereitstellung geschlossener Lösung, geeignet für Echtzeitanwendungen
Überzeugende Ergebnisse: Erreicht Pareto-Optimalität zwischen Lenkungseffektivität und Textqualität

Mängel

Rechenkomplexität: Erfordert PCA- und Mahalanobis-Distanzberechnung, kann Inferenz-Overhead erhöhen
Hyperparameter-Empfindlichkeit: Mehrere Hyperparameter (PCA-Varianzquote, Distanzschwellenwert, F1-Schwellenwert) erfordern Optimierung
Datenabhängigkeit: Erfordert hochwertige kontrastive Datensätze zur Verteilungsmodellierung
Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Stabilität der Methode

Auswirkungen

Akademischer Beitrag: Bietet neuen theoretischen Rahmen und praktische Methode für das Aktivierungslenkungsfeld
Praktische Anwendung: Besonders geeignet für hochriskante Anwendungsszenarien, die präzise Kontrolle des LLM-Verhaltens erfordern
Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

Inhaltssicherheit: Verhinderung der Erzeugung schädlicher oder unangemessener Inhalte
Faktizitätskontrolle: Reduzierung von Halluzinationen und Fehlinformationen
Verhaltensausrichtung: Ausrichtung des Modellverhaltens mit spezifischen Anwendungsanforderungen
Echtzeitanwendungen: Szenarien, die dynamische Anpassung des Modellverhaltens während der Inferenz erfordern

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus den Bereichen Aktivierungslenkung, Darstellungslernen und KI-Sicherheit, einschließlich:

Rimsky et al. (2024): Originalarbeit der CAA-Methode
Hedström et al. (2025): MERA-Methode
Turner et al. (2024): Übersicht über Aktivierungstechnik
Mikolov et al. (2013): Frühe Arbeiten zur linearen Darstellungsannahme

Zusammenfassung: Die in diesem Paper vorgeschlagene IDS-Methode hat bedeutende Innovationsbedeutung im Aktivierungslenkungsfeld. Durch Einführung von Verteilungsbeschränkungen und adaptiven Anpassungsmechanismen löst sie effektiv das Überlenkungsproblem bestehender Methoden. Experimentelle Ergebnisse beweisen vollständig die Effektivität und den praktischen Wert der Methode und bieten wichtige Werkzeuge für sichere LLM-Bereitstellung.